Hace unos meses, si querías crear una imagen de algo, tenías que poder dibujar, pintar o usar una de las herramientas de Photoshop de las que otros hablan. Después de 2022, sin embargo, todo cambió, todo gracias a la inteligencia artificial, eso sí, como en «inteligencia artificial».
En lugar de tratar de dominar el mundo, las herramientas de IA ingeniosamente inclinadas pueden convertir cualquier cosa que les describas en una imagen.
También te puede interesarLa nueva aplicación de edición de fotos impulsada por IA de Samsung arreglará sus imágenes borrosas y másAcompáñenos mientras ingresamos al mundo de la visualización de texto impulsada por IA y vea cómo puede usar tales herramientas para convertir sus pensamientos en imágenes reales con solo escribir lo que tiene en mente.
Dall-E: el lado artístico del GPT-3 de OpenAI
Las primeras herramientas basadas en IA que se hicieron populares se basaron en GPT-3 de OpenAI. Una de las razones fue que el proyecto estaba abierto al acceso externo, lo que ha dado lugar a algunas sugerencias de que GPT-3 es el futuro del trabajo creativo.
También te puede interesarOraciones legales multilingües e incrustaciones de palabras, clasificación taxonómica EurVoc, criticidad legal…Hoy puede usar las herramientas oficiales que puede encontrar en el sitio beta de OpenAI o soluciones de terceros que aprovechan sus superpoderes lingüísticos. Por ejemplo, puede pedirle a GPT-3 que redacte una publicación, responda preguntas simples o incluso revise o traduzca texto.
En 2022, OpenAI reveló que GPT-3 era igual de bueno para crear imágenes. El proyecto DALL-E, una obra de teatro sobre la película de Pixar WALL-E y que lleva el nombre de Dalí, utiliza GPT-3 no para trabajar con texto sino como un motor para crear imágenes.
También te puede interesarLaMDA: ¿Es real la inteligencia artificial sensible de Google?
Al igual que con GPT-3 y el texto, DALL-E no es realmente un genio creativo que materializa imágenes de la nada. En cambio, fue «entrenado» en millones de imágenes que ya existen en línea. Sus poderes de inteligencia artificial radican en analizar esas imágenes, tomar elementos de ellas, modificarlas, transformarlas, adaptarlas y finalmente combinarlas en nuevas imágenes.
Al menos, esta es una versión simplificada de lo que sucede en segundo plano. La mayoría de las personas solo se preocupan por lo que ven frente a ellos, y ese es un cuadro de texto donde puede escribir algo y verlo transformado en una imagen después de unos minutos.
También te puede interesarLOS 10 ALGORITMOS DE APRENDIZAJE AUTOMÁTICO MÁS LISTAS SIMPLIFICADOS PARA 2023Respuesta de Google Imagen
Google es uno de los tres principales «jugadores» en la investigación de IA. Sin embargo, su progreso no se nota fácilmente, ni sus implementaciones en productos son tan accesibles como las ofertas de OpenAI.
También te puede interesarPor qué no deberías confiar en las capturas de pantalla de conversaciones de AI ChatbotUna de las primeras implementaciones ampliamente disponibles de Google AI fue en Google Docs y Gmail, en forma de autocompletado y sugerencias más inteligentes, conocidas como Smart Compose. No entraremos en detalles porque ya hemos cubierto Smart Compose (y cómo puede usarlo).
Cuando estas funciones están activadas, las aplicaciones web de Google comparan lo que escribes con lo que millones de personas han escrito en el pasado. Luego, sugiere lo que escribieron a continuación.
También te puede interesar¿Cómo funciona la investigación de IA generativa y qué empresas la utilizan?Es una prueba de que, a pesar de lo que nos gusta creer, no somos tan diferentes. Si 99 de cada 100 personas escriben «más tarde» después de «nos vemos», probablemente eso sea lo que seguiremos escribiendo también.
Todos hemos usado alguna forma de autocompletar, incluso desde la era del «teléfono tonto» del sistema de texto predictivo T9. Es por eso que las herramientas de IA de Google no parecían tan inteligentes como GPT-3 de OpenAI. No se sentían mucho más en uso que un mejor sistema T9 mejorado para el siglo XXI. Y por eso también fue un poco impactante la revelación de Imagen.
También te puede interesarCómo las cámaras de IA detectan objetos y reconocen rostros
Como un DALL-E con esteroides, Imagen es una herramienta de visualización de texto. Basado en lo que está disponible hoy, Imagen puede producir imágenes «más limpias» y más vívidas, al mismo tiempo que sabe cómo manejar características avanzadas como difusión y transparencia.
Desafortunadamente, en el momento de escribir este artículo, el acceso a Imagen sigue siendo limitado, por lo que no hemos podido probarlo.
También te puede interesarDeepfakes explicados: la inteligencia artificial que hace que los videos falsos sean demasiado convincentesDALL-E Mini y Friends: abiertos al público
Todavía no puedes acceder libremente a DALL-E e Imagen. Sin embargo, ya hay muchas alternativas disponibles si desea divertirse con la generación de imágenes de texto basada en IA.
Teniendo en cuenta que esos son los primeros días y que los resultados o la experiencia de usuario que ofrecen pueden ser menos que óptimos, vale la pena echar un vistazo a algunos de los siguientes.
Crea memes con Dall-E Mini
Gracias a una combinación de resultados más que adecuados y una interfaz fácil de usar, pero sobre todo a su amplia disponibilidad, DALL-E mini se ha convertido en uno de los visores de texto con IA más populares.
Lejos de ser perfectos, los resultados de DALL-E mini a veces pueden ser más abstractos de lo esperado.
Otras veces puede no llegar a crear lo que tenías en mente, pero puede acercarse bastante.
Después de su explosión de popularidad, los creadores del DALL-E mini lo trasladaron a un nuevo hogar con una nueva marca. Ahora puede encontrar la última versión de DALL-E mini como Craiyon en su sitio.
Usar Craiyon hoy es tan fácil como buscar en línea una imagen existente. Puede visitar su sitio, escribir una descripción de su imagen en su campo de texto y presionar enter. Después de un tiempo, verá los resultados en la pantalla.
Lo sorprendente es lo buenos que son Craiyon y herramientas similares para imitar estilos visuales. Por ejemplo, le pedimos que evocara imágenes de un cachorro en una patineta:
Entonces, usamos la frase exacta pero agregamos un «estilo Pixar» después. Después de un tiempo, Craiyon mostró una cuadrícula de imágenes más «caricaturesca», más cercana a lo que percibimos como gráficos con trazado de rayos de Pixar en sus queridas películas.
Craiyon nos dio resultados aún mejores cuando reemplazamos «estilo Pixar» con «estilo anime» en el mismo aviso.
El anime tiene un aspecto más estilizado que las imágenes más realistas de Pixar, lo que parece haber ayudado a Craiyon a producir algunas imágenes casi listas.
Jugando con la difusión latente
El modelo de difusión latente entrenado en el conjunto de datos LAION-400M es otro visor de texto de IA interesante. Sin embargo, también es más complicado en su uso. Debe ejecutarlo en línea en una máquina virtual y jugar con sus diversos parámetros en lugar de simplemente escribir en un campo de texto. Sin embargo, es más fácil de lo que parece.
Aumentando los valores de Pasos, iteracionesY Muestras_en_paralelo, puede conducir a resultados más detallados. Sin embargo, la herramienta consume muchos recursos en los servidores de Google. Como resultado, puede bloquearse si aumenta demasiado esos valores o si el proceso de creación de una imagen en particular se vuelve más complicado de lo esperado.
Alternativas interesantes
Pasamos mucho tiempo probando el DALL-E mini y Latent Diffusion. Nuestro método científico constaba de dos partes bien diferenciadas. Primero, tuvimos que idear conceptos que pudieran describirse con precisión como locos. Luego, pídales a esos espectadores de IA que los conviertan en imágenes. Más a menudo de lo esperado, han tenido éxito, acercándose a la configuración general que habíamos imaginado.
También probamos algunas de las alternativas disponibles para este artículo. Todavía estamos esperando el acceso a otros. Algunos de los que vale la pena revisar son (sin ningún orden en particular):
¿El arte generado por IA reemplazará a las artes visuales?
La abundancia y la creciente popularidad de las herramientas basadas en IA para la generación de imágenes lleva a muchos a concluir que las artes visuales pronto desaparecerán. ¿Cuál es el punto de invertir tiempo y energía en aprender a dibujar o usar software complicado para visualizar cosas cuando una IA puede hacerlo más rápido (y pronto mejor) que tú?
Si te has dado cuenta, estas herramientas están todas «entrenadas en conjuntos de datos». En pocas palabras, esto significa que hacen lo que hacen gracias a los humanos que han hecho lo mismo antes.
Esta es la pista de por qué esas herramientas no pueden reemplazar el arte, la creatividad y el ingenio humanos. Son imitadores, replicadores inteligentes. Sin los originales hechos por el hombre en los que están entrenados, no podrían producir ningún resultado.
Sin embargo, este es el presente y admitimos que no sabemos lo que depara el futuro. Por ahora, los artistas visuales pueden estar tranquilos. Sin embargo, al ritmo que evoluciona la IA, muchos especialistas en IA están de acuerdo en que nunca se trata de reemplazar el trabajo de personas como la suya. Es sólo una cuestión de cuándo.
Pero bueno, no todo es pesimismo. Mientras Skynet se prepara para tomar nuestro trabajo, ¡al menos podemos mejorar nuestro estado de ánimo creando sin esfuerzo imágenes de cachorros en patinetas!