Tutorial de OpenAI Whisper: Cómo usar Whisper para transcribir un video de YouTube

¿Qué es Susurro?

Whisper es un sistema automático de reconocimiento de voz de última generación de OpenAI que ha sido entrenado en 680 000 horas de datos supervisados ​​multilingües y multitarea recopilados de la web. Este conjunto de datos grande y diverso conduce a una mayor solidez de los acentos, el ruido de fondo y el lenguaje técnico. Además, permite la transcripción en varios idiomas, así como la traducción de esos idiomas al inglés. A diferencia de DALLE-2 y GPT-3, Whisper es un modelo gratuito y de código abierto. OpenAI lanzó los modelos y el código para que sirvan como base para crear aplicaciones útiles que aprovechen el reconocimiento de voz.

Cómo transcribir un video de YouTube

En este tutorial usaremos Whisper para transcribir un video de YouTube. Usaremos el paquete Python «Pytube» para descargar convertir los sonidos en un MP4 expediente. Puedes encontrar el repositorio de Pytube aquí

Primero, necesitamos instalar la Biblioteca Pytube. Puede hacerlo ejecutando el siguiente comando en su terminal:

Para este tutorial, usaré este video «Python en 100 segundos».

También te puede interesarTutorial de OpenAI Whisper: creación de la API de OpenAI Whisper en un contenedor Docker

A continuación, debemos importar Pytube, proporcionar el enlace al video de YouTube y convertir el audio a MP4:

La salida es un archivo con el nombre del título del video en su directorio actual. En nuestro caso, el archivo se llama Python in 100 Seconds.mp4
Ahora, el siguiente paso es convertir el audio en texto. Podemos hacer esto en tres líneas de código usando susurro. Primero, instalamos e importamos susurro. Luego cargamos el modelo y finalmente transcribimos el archivo de audio.

Instalación de la biblioteca Whisper

Cargue el modelo. Usaremos el modelo «base» para este tutorial. Puedes encontrar más información sobre los modelos aquí. Cada uno de ellos tiene compensaciones entre precisión y velocidad (se necesita cálculo).

Y ahora podemos imprimir la salida.

También te puede interesarGuía de indicaciones de Stable Diffusion y OpenAI Whisper: Generación de imágenes basadas en el habla – Whisper & Stable Diffusion

Puede encontrar el código completo como Jupyter Notebook aquí

Gracias para leer. Si disfrutó de este tutorial, puede encontrar más y continuar leyendo en nuestra página de tutoriales: Fabian Stehle, científico de datos junior en New Native

También te puede interesarTutorial Stable Diffusion: ¿Cómo hacer videos con Stable Diffusion? – Interpolación

Scroll al inicio