Guía de indicaciones de Stable Diffusion y OpenAI Whisper: Generación de imágenes basadas en el habla – Whisper & Stable Diffusion

Guía de indicaciones de Stable Diffusion y OpenAI Whisper: Generación de imágenes basadas en el habla - Whisper & Stable Diffusion

¡El mundo de la inteligencia artificial se está desarrollando increíblemente rápido! Gracias a modelos publicados recientemente, tenemos la capacidad de crear imágenes a partir de las palabras habladas. Esto nos abre muchas posibilidades. Este tutorial le brindará los conceptos básicos para crear su propia aplicación que utilice estas tecnologías.

🚀 Empezando

🔑 Nota: Para este tutorial usaré Google Colab ya que no tengo una computadora con GPU. Puede usar su computadora local. ¡Recuerda usar GPU!

Primero, necesitamos instalar las dependencias que necesitamos. Instalaremos FFmpeg, una herramienta para grabar, convertir y transmitir audio y video.

Ahora instalaré los paquetes necesarios:

🔑 Nota: Si tiene problemas para instalar Whisper, vaya aquí.

El siguiente paso es la autenticación de la difusión estable con cara de abrazo.

Ahora comprobaremos si estamos usando GPU.

¡Bien, ahora estamos listos para comenzar!

🤖 ¡Codificación!

🎤 Voz a texto

🔑 Nota: Para no perder tiempo, grabé mi aviso y lo puse en el directorio principal.

Comenzaremos extrayendo mi aviso del archivo, usando el modelo pequeño Whisper de OpenAI. Hay algunos modelos más grandes y más pequeños, puedes elegir cuál usarás.

Para la extracción utilicé código del repositorio oficial. También agregué algunos «consejos» al final del aviso.

🎨 Texto a imagen

Ahora usaremos Stable Diffusion para generar imágenes a partir de texto. Carguemos el modelo.

Usando pipe podemos generar imagen a partir de texto.

Verifiquemos nuestro resultado usando:

¡Nuestro resultado!

¡Guau! Tal vez nuestro resultado podría ser mejor, pero no cambiamos ningún parámetro. Lo más importante es que somos capaces de generar una imagen con nuestra voz. ¿No es genial? ¡Recuerda lo que pudimos hacer hace 10 años y lo que podemos hacer hoy!

Espero que te hayas divertido tanto como yo creando este programa. Gracias ¡y espero que vuelvas a consultar aquí!

Jakub Misiło, científico de datos junior en New Native

Bloc de notas de Colab con código


Comentarios

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *