
¡El mundo de la inteligencia artificial se está desarrollando increíblemente rápido! Gracias a modelos publicados recientemente, tenemos la capacidad de crear imágenes a partir de las palabras habladas. Esto nos abre muchas posibilidades. Este tutorial le brindará los conceptos básicos para crear su propia aplicación que utilice estas tecnologías.
🚀 Empezando
🔑 Nota: Para este tutorial usaré Google Colab ya que no tengo una computadora con GPU. Puede usar su computadora local. ¡Recuerda usar GPU!
Primero, necesitamos instalar las dependencias que necesitamos. Instalaremos FFmpeg, una herramienta para grabar, convertir y transmitir audio y video.
Ahora instalaré los paquetes necesarios:
🔑 Nota: Si tiene problemas para instalar Whisper, vaya aquí.
El siguiente paso es la autenticación de la difusión estable con cara de abrazo.
Ahora comprobaremos si estamos usando GPU.
¡Bien, ahora estamos listos para comenzar!
🤖 ¡Codificación!
🎤 Voz a texto
🔑 Nota: Para no perder tiempo, grabé mi aviso y lo puse en el directorio principal.
Comenzaremos extrayendo mi aviso del archivo, usando el modelo pequeño Whisper de OpenAI. Hay algunos modelos más grandes y más pequeños, puedes elegir cuál usarás.
Para la extracción utilicé código del repositorio oficial. También agregué algunos «consejos» al final del aviso.
🎨 Texto a imagen
Ahora usaremos Stable Diffusion para generar imágenes a partir de texto. Carguemos el modelo.
Usando pipe
podemos generar imagen a partir de texto.
Verifiquemos nuestro resultado usando:

¡Guau! Tal vez nuestro resultado podría ser mejor, pero no cambiamos ningún parámetro. Lo más importante es que somos capaces de generar una imagen con nuestra voz. ¿No es genial? ¡Recuerda lo que pudimos hacer hace 10 años y lo que podemos hacer hoy!
Espero que te hayas divertido tanto como yo creando este programa. Gracias ¡y espero que vuelvas a consultar aquí!
Jakub Misiło, científico de datos junior en New Native
Bloc de notas de Colab con código