Viernes, 26 de Abril de 2024 Nubes 17.1 °C nubes
 
Lunes, 11 de Octubre de 2021 Nubes 17.1 °C nubes
 
Dólar BNA: $916
Dólar Blue: $1055
Columnistas

La revolución creativa de las máquinas: los sistemas que crean imágenes a partir de una frase

Dall-E, Imagen, Nuwa y Midjourney son algunas de las tantas IA que sorprenden creando arte a pedido. La tecnología detrás de estas herramientas y sus potenciales usos. Y cómo probar algunas de estas opciones.

Dall-E 2 es una plataforma capaz de crear imágenes realistas y originales a partir de una instrucción simple. Basta tipear frases como “astronauta montado a caballo” para que la inteligencia artificial (IA) haga su magia. 

Esta es la segunda versión del software original (Dall-E) que fue presentado en enero de 2021 por Opean AI, una organización cofundada por Elon Musk. Apenas un año después, el sistema aprendió a producir imágenes mucho más precisas y definidas. Además, es capaz de hacer ediciones en gráficos existentes para quitar reflejos, modificar texturas o producir versiones en diferentes estilos. Para probar la versión beta de este sistema hay que ingresar en el sitio oficial y anotarse en la lista de espera. 

La tecnología detrás de este desarrollo

Dall-E 2 es un sistema de redes neuronales que aprendió la relación entre las imágenes y el texto que las describe. “Utiliza un proceso llamado difusión, que comienza con un patrón de puntos aleatorios y altera gradualmente ese patrón hacia una imagen cuando reconoce aspectos específicos de esa imagen”, se explica en el sitio oficial. 

Los modelos generativos que usa DALLE toman un dato/foto y le añaden ruido hasta que deja de ser reconocible; luego, intentan reconstruir esa imagen.

El sistema trabaja en un modelo de 3.500 millones de parámetros para generar las imágenes y otro modelo de 1.500 millones de parámetros para mejorar la resolución de sus producciones.

Imagen creada con Mid Journey.

DAll-E 2 recurre a modelos de difusión. Son modelos generativos que funcionan de este modo: toman un dato, que puede ser una foto, y gradualmente le añaden ruido hasta que deja de ser reconocible; luego, intentan reconstruir esa imagen hasta su forma original. Al hacerlo, aprenden a producir otros datos o imágenes.

Desde que se lanzó aquel software a la fecha han surgido otras propuestas que van en línea con esta tecnología. Ya se puede hablar de una tendencia hacia el desarrollo de sistemas de IA capaces de producir diseños a partir de textos. 

La revolución creativa de las máquinas

Tal es el caso de Imagen, de Google. También se trata de un modelo de difusión de texto a imagen con un grado de fotorrealismo muy llamativo. Aunque la compañía busca diferenciarlo de otros productos asegurando que logra resultados únicos. 

La empresa desarrolló un punto de referencia nuevo, llamado DrawBench, para contrastar los resultados de los dibujos fotorrealistas que hace Imagen con otros productos. 

“Con DrawBench, comparamos Imagen con métodos recientes, incluidos VQ-GAN CLIP, Latent Diffusion Models y Dall-E 2, y descubrimos que los evaluadores humanos prefieren Imagen sobre otros modelos en comparaciones en paralelo, tanto en términos de calidad de la muestra como en la alineación imagen-texto”, se destaca en el sitio oficial.

Gráfico creado por Imagen.

Desde Google aseguran que parte de su éxito tiene que ver, en parte, con el uso de una nueva arquitectura llamada Efficient U-Net, que es más eficiente en lo que se refiere a su poder de convergencia, computacional y de memoria.

Microsoft también se subió a esta ola con Nuwa-Infinity, una IA que, como las anteriores, es capaz de producir imágenes a partir de instrucciones recibidas en formato de texto. Pero tiene un diferencial interesante: también puede convertir imágenes en videos

La compañía describe a esta herramienta como "un modelo generativo multimodal diseñado para generar imágenes y videos de alta calidad a partir de una entrada de texto, imagen o video determinada". 

Además, Nuwa es capaz de editar imágenes: puede “extenderlas a cualquier tamaño y resolución aprendiendo, imaginando y generando nuevos contenidos”, se detalla en el sitio oficial.

Meta, por su parte, presentó el mes pasado Make-A-Scene, que se destaca por generar trabajos que parecen realizados a mano. Además, esta herramienta no sólo permite generar gráficos a partir de textos sino que también es capaz de leer e interpretar bocetos realizados por los usuarios y producir imágenes a partir de ellos.

La IA de la compañía dirigida por Mark Zuckerberg les permite a los usuarios crear una pintura digital sin la necesidad de tomar lápiz o pincel. Está pensada para, en el futuro, potenciar la creatividad de los usuarios.

La IA Midjourney sorprendió con una herramienta que produjo varias “selfies del fin del mundo”. 

“Los resultados de nuestra investigación en este espacio podrían permitir nuevas formas de expresión creativa impulsada por IA al tiempo que colocan a los creadores y sus visiones en el centro del proceso”, subraya la compañía en su comunicado

Los desarrollos de Microsoft, Google y Meta todavía no están abiertos para que el público los pruebe. Pero la situación es diferente con otras herramientas, como Midjourney o StableDiffusion.

Cabe recordar que hace apenas unas semanas, la IA Midjourney sorprendía al mundo con una creación bastante peculiar. Esta herramienta, desarrollada por un laboratorio de investigación independiente, produjo varias “selfies del fin del mundo”. 

Una selfie del fin del mundo según Midjourney.

El pedido fue hecho por el usuario de TikTok Robotoverloards y los resultados dan que hablar. Se pueden ver rostros desfigurados, con fondos desolados y desérticos. Todo luce como si el mundo hubiese sido arrasado por alguna peste o sequía. O una combinación de ambas. Queda claro que no hay límite para la imaginación humana o robótica.

¿Oportunidad o amenaza?

Algunos podrán ver en estas herramientas una potencial amenaza. ¿Qué quedará para los artistas plásticos si ahora las máquinas también son capaces de generar, en pocos segundos, verdaderas obras de arte?  ¿Acaso estas IA están de alguna manera quitándole oportunidades a los artistas y creadores?

Pensar que estas herramientas quitan oportunidades sería como pensar que WordPress perjudicó a los diseñadores web, cuando es todo lo contrario.

Fredi Vivas, fundador de RockingData

“Creo que estos sistemas permiten seguir amplificando el ingenio humano y dan herramientas a los creadores que los saben usar para hacer cosas aún mejores. Pensar que quitan oportunidades sería como pensar que WordPress perjudicó a los diseñadores web. Más bien, todo lo contrario”, analiza el ingeniero Fredi Vivas, fundador de RockingData, especialista en inteligencia artificial y autor del libro ¿Cómo piensan las máquinas?.

Un lago creado con Nuwa.

Vivas destaca que este tipo de herramientas permiten probar de forma lúdica una tecnología que abre muchas oportunidades a futuro.  “Los algoritmos de generación de imágenes a partir de texto son grandes herramientas para crear pictogramas y trabajar en la inclusión de personas con discapacidades comunicacionales o enfermedades neurológicas”, analiza.

Y concluye: “Una famosa empresa automotriz alemana usó hace poco una inteligencia artificial de este estilo para desarrollar campañas de marketing más efectivas. Es algo que probablemente veamos cada vez más, y que generará en sí mismo nuevos puestos de trabajo que hoy ni imaginamos. Es como cuando arranqué a estudiar ingeniería en sistemas, que no existían puestos como científico de datos y hoy es una de las profesiones más buscadas del mundo”.

Manos a la obra: probamos dos IA para generar dibujos a partir de textos

Midjourney tiene una beta abierta para que los usuarios prueben esta herramienta. Para hacerlo hay que ingresar en el sitio oficial, luego hacer clic en la opción que dice Join Beta y allí el usuario será redirigido al canal de Discord. Allí se debe buscar el bot Midjourney dentro de alguno de los canales o bien añadirlo a un servidor propio y luego bastará con escribir “/imagine” y a continuación lo que se desee que dibuje, en inglés. Por ejemplo: “/imagine cat dreaming under a tree”. Los resultados son más creativos y no buscan ser tan híper realistas como los que genera Dall-E2, por ejemplo.

La felicidad según Midjourney.

Otra herramienta que se puede probar es StableDiffusion, que fue desarrollada por la startup Stability AI e investigadores de la Universidad de Heidelberg, en Alemania. Hay una versión disponible por medio de Dream Studio a la que se puede acceder sin costo. 

Una vez que se inicia sesión se obtienen 200 créditos para utilizar sin costo.

Cada dibujo puede implicar más de un crédito. La interfaz es sencilla de usar: se describe, en inglés, el texto que se desea producir y en cuestión de segundos se puede obtener un gráfico bastante realista. 

Imagen generada por StableDiffusion.

También se puede ingresar a esta otra página que se lanzó para probar el sistema, que es incluso más fácil de utilizar ya que no se requiere iniciar sesión. 

Un insecto preparando el desayuno según StableDiffusion.

Está pasando