Guía de indicaciones de Stable Diffusion y OpenAI Whisper: Generación de imágenes basadas en el habla – Whisper & Stable Diffusion

¡El mundo de la inteligencia artificial se está desarrollando increíblemente rápido! Gracias a modelos publicados recientemente, tenemos la capacidad de crear imágenes a partir de las palabras habladas. Esto nos abre muchas posibilidades. Este tutorial le brindará los conceptos básicos para crear su propia aplicación que utilice estas tecnologías.

🚀 Empezando

🔑 Nota: Para este tutorial usaré Google Colab ya que no tengo una computadora con GPU. Puede usar su computadora local. ¡Recuerda usar GPU!

Primero, necesitamos instalar las dependencias que necesitamos. Instalaremos FFmpeg, una herramienta para grabar, convertir y transmitir audio y video.

Ahora instalaré los paquetes necesarios:

También te puede interesarTutorial Stable Diffusion: ¿Cómo hacer videos con Stable Diffusion? – Interpolación

🔑 Nota: Si tiene problemas para instalar Whisper, vaya aquí.

El siguiente paso es la autenticación de la difusión estable con cara de abrazo.

Ahora comprobaremos si estamos usando GPU.

¡Bien, ahora estamos listos para comenzar!

También te puede interesarGuía de solicitud de difusión estable: conceptos básicos de la ingeniería de solicitud, usando difusión estable

🤖 ¡Codificación!

🎤 Voz a texto

🔑 Nota: Para no perder tiempo, grabé mi aviso y lo puse en el directorio principal.

Comenzaremos extrayendo mi aviso del archivo, usando el modelo pequeño Whisper de OpenAI. Hay algunos modelos más grandes y más pequeños, puedes elegir cuál usarás.

Para la extracción utilicé código del repositorio oficial. También agregué algunos «consejos» al final del aviso.

🎨 Texto a imagen

Ahora usaremos Stable Diffusion para generar imágenes a partir de texto. Carguemos el modelo.

También te puede interesarGuía de indicaciones de Stable Diffusion: generación de imagen a imagen guiada por texto con Stable Diffusion

Usando pipe podemos generar imagen a partir de texto.

Verifiquemos nuestro resultado usando:

¡Nuestro resultado!

¡Guau! Tal vez nuestro resultado podría ser mejor, pero no cambiamos ningún parámetro. Lo más importante es que somos capaces de generar una imagen con nuestra voz. ¿No es genial? ¡Recuerda lo que pudimos hacer hace 10 años y lo que podemos hacer hoy!

Espero que te hayas divertido tanto como yo creando este programa. Gracias ¡y espero que vuelvas a consultar aquí!

También te puede interesarTutorial de Cohere: incrustación de texto con Cohere

Jakub Misiło, científico de datos junior en New Native

Bloc de notas de Colab con código

Scroll al inicio