
🧐 ¿Qué es la difusión estable?
La difusión estable es un modelo de difusión de texto a imagen latente de código abierto. Puede obtener más información aquí o probarlo usted mismo; el código está disponible aquí.
🎯 ¿Cuál es nuestro objetivo y cómo lo lograremos?
Nuestro objetivo es hacer un video usando el proceso de interpolación. Usaremos el modelo Stable Diffusion para generar imágenes y luego las usaremos para hacer un video. Afortunadamente, no tenemos que escribir el código nosotros mismos para la interpolación entre espacios latentes. Usaremos la biblioteca stable_diffusion_videos. Si desea saber exactamente cómo funciona bajo el capó, siéntase libre de explorar el código en Github. Si necesita ayuda, haga una pregunta en el canal dedicado a esta guía. ¡Lo encontrarás en nuestro discord!
Para ejecutar este tutorial usaremos Google Colab y Google Drive
⚙️ Preparando dependencias
En primer lugar, debe instalar todas las dependencias y conectar Google Drive con Colab para guardar películas y fotogramas. Puedes hacerlo ejecutando:
y entonces:
El siguiente paso es la autenticación con Hugging Face. Puedes encontrar tu ficha aquí.
🎥 Generación de imágenes/video
Para generar video, necesitamos definir indicaciones entre qué modelo se interpolará. Usaremos un diccionario para ello:
Ahora podemos generar imágenes/video usando:
Este proceso puede llevar mucho tiempo, dependiendo de los parámetros pasados.
Hay algunas descripciones de los parámetros, pero si quiere saber más, consulte el código de stable_diffusion_videos. Uso 100 pasos entre indicaciones, pero puede usar más para obtener mejores resultados. También puedes modificar num_inference_steps
y otros parámetros. ¡Siéntete libre de experimentar! Después de ejecutar este código, encontrará el video en su Google Drive. ¡Puedes descargarlo y verlo y compartirlo con tus amigos!
Si desea reproducir mis resultados, simplemente copie y pegue el código a continuación, pero le recomiendo que use sus propias indicaciones y experimente con el modelo. ¡Vale la pena!
➕ Bono
Puede utilizar más de dos indicaciones. Ejemplo:
Gracias ¡para leer! ¡Espera los próximos tutoriales!
Jakub Misiło – Científico de datos junior en New Native