La IA Instant NeRF de Nvidia renderiza escenas 3D a partir de fotos 2D en cuestión de segundos

Rubén Castro, 30 marzo 2022

Nvidia ha estado jugando con los NeRF. No, no han estado disparándose con dardos de espuma. El término NeRF es la abreviatura de Neural Radiance Field. Es una técnica que utiliza la IA para crear una escena tridimensional a partir de un puñado de imágenes fijas (renderización inversa). Dependiendo de la profundidad deseada, los resultados suelen tardar horas o días en renderizarse.

La rama de investigación de IA de Nvidia ha estado trabajando en el renderizado inverso y ha desarrollado un Campo de Radiación Neural que denomina Instant NeRF porque puede renderizar la escena 3D hasta 1.000 veces más rápido que otras técnicas de NeRF. El modelo de IA sólo necesita unos segundos para entrenarse con unas cuantas docenas de imágenes fijas tomadas desde múltiples ángulos y sólo unas decenas de milisegundos después la escena ya está renderizada en 3D.

NeRF: Neural Radiance Field

Como el proceso es lo contrario de tomar una Polaroid -es decir, convertir instantáneamente una escena 3D en una imagen 2D-, Nvidia recreó una foto de Andy Warhol utilizando una Polaroid.

“Instant NeRF podría utilizarse para crear avatares o escenas para mundos virtuales, para capturar a los participantes de videoconferencias y sus entornos en 3D, o para reconstruir escenas para mapas digitales en 3D”, dijo Nvidia. “Recoger datos para alimentar un NeRF es un poco como ser un fotógrafo de alfombra roja que intenta capturar el atuendo de una celebridad desde todos los ángulos: la red neuronal requiere unas cuantas docenas de imágenes tomadas desde múltiples posiciones alrededor de la escena, así como la posición de la cámara de cada una de esas tomas”.

La NeRF genera la imagen en 3D a partir de estas docenas de ángulos, rellenando los espacios en blanco cuando es necesario. Incluso puede compensar las oclusiones. Por ejemplo, si un objeto bloquea la vista del sujeto en una de las imágenes, la IA puede rellenar ese ángulo aunque no pueda ver bien al sujeto o no lo vea en absoluto.

El único punto débil de esta tecnología es el tratamiento de los objetos en movimiento. “En una escena que incluya personas u otros elementos en movimiento, cuanto más rápido se capturen estas tomas, mejor”, afirma Nvidia. “Si hay demasiado movimiento durante el proceso de captura de imágenes 2D, la escena 3D generada por la IA será borrosa”.

Fuentes

blogs.nvidia.com

Rubén Castro

Redactor

Apasionado de explorar y diseccionar lo último en tecnología. Tengo mucha experiencia en el mundo de los ordenadores y el gaming, aunque también me gustan todos los tipos de gadgets.