La función de “mejorar” las imágenes que se ve en los procedimientos policiales de ciencia ficción pronto podría convertirse en realidad. Los Investigadores del Brain Team de Google han publicado un artículo titulado “Generación de Imágenes de Alta Fidelidad mediante Modelos de Difusión” en su Blog de IA de Google. Con este sistema, afirman que podrán mejorar la calidad de las imágenes de 4 a 8 veces utilizando el ruido de la misma como base para entrenar redes neuronales. ¡Vamos a echarle un vistazo a lo que nos depara la era de los geek!
El artículo del blog de AI de Google, que fue publicado por el científico investigador Jonathan Ho y el ingeniero de software Chitwan Saharia, profundiza sobre su enfoque. Si bien este concepto se presentó por primera vez en 2015, fue archivado para que otras ideas tuvieran la oportunidad de prosperar. Pero como la famosa tortuga de los cuentos para niños, de forma lenta y constante podría llegar a ganar la carrera. Conceptualmente, el sistema no es diferente de la función de superescala de DaVinci Resolve o de la mejora de resolución DLSS de Nvidia. Sin embargo, lo que hay detrás del mismo es completamente diferente a las funciones que ofrecen otras compañías. Si bien aún se encuentra en la etapa de desarrollo, este nuevo enfoque de aumento de escalado en las fotos con IA puede ofrecer recursos increíbles no solo para los cineastas, sino también para fotógrafos y desarrolladores de juegos.
Hablando de manera nerd
Analicemos en detalle lo que ha hecho el Brain Team. El enfoque de Jonathan y Chitwan combinó diferentes métodos de entrenamiento para hacer su magia. Inicialmente, utilizaron algo llamado Super-Resolución a través del Refinamiento Repetido (SR3), un modelo de difusión de súper resolución que crea imágenes de alta resolución a partir de entradas de baja resolución utilizando el ruido puro. Este modelo se entrena mediante un proceso de corrupción de imágenes.
¿Cómo funciona? Bueno, el equipo tomó una imagen de alta resolución y agregó ruido hasta que solo quedó el ruido puro. Luego, entrenaron una red neuronal para revertir el proceso con el fin de recuperar la imagen inicial. Finalmente, esta red neuronal entrenada se utilizó en imágenes de 64×64 píxeles para crear versiones a gran escala. Jonathan y Chitwan aplicaron este proceso en una imagen apilada para mejorar aún más el proceso. Al apilar una imagen de 64×64 → 256×256 con un modelo de 256×256 → 1024×1024, pudieron lograr resultados impresionantes.
Alquimia para el resto de nosotros
Pero Jonathan y Chitwan aún no habían terminado y fueron más allá de su proceso SR3 inicial con Modelos de Difusión en Cascada (CDM). Estos modelos se entrenan con datos de ImageNet para generar imágenes naturales de alta resolución. Al utilizar datos de ImageNet, que es una gran base de datos visual diseñada para su uso en la investigación de software de reconocimiento de objetos visuales, el equipo pudo crear un modelo de escalado que mejoró aún más su enfoque SR3.
Aplicaciones en el mundo real
Al utilizar los modelos SR3 y CMD para mejorar la escala de las imágenes, el Brain Team de Google ha creado un enfoque de vanguardia para reducir la necesidad de obtener imágenes de alta resolución. Afortunadamente, este nuevo proceso de escalado de fotos con IA no afectará a Blackmagic Design ni a RED por el momento. De todos modos, es sorprendente ver una tecnología de este tipo en el horizonte. En otras palabras, no te apures a vender tu equipo nuevo y brillante.
Este enfoque podría ser perfecto para las cámaras de seguridad. Además, podría usarse en los flujos de corrección en posproducción no solo para imágenes individuales, sino también para videos y gráficos por computadora. Nvidia ya está haciendo esto con su tecnología DLSS que puede generar imágenes en 4K desde una renderización de calidad sub-HD, reduciendo la tensión en la GPU. Las cámaras del futuro podrían grabar imágenes de 1080p con una mejor reproducción de color y rango dinámico y luego escalarlas a 4K en la posproducción. Incluso Netflix podría verse afectado por este nuevo enfoque y su mandato 4K podría convertirse en algo del pasado. Pero probablemente esto tardará décadas en llegar. Hasta entonces, puedes subir la resolución y hurgar en los píxeles.
¿Qué opinas de este nuevo enfoque? ¿Cómo crees que podría alterar la tecnología en el futuro? ¡Cuéntanos en los comentarios!