¿Qué es Susurro?
Whisper es un sistema automático de reconocimiento de voz de última generación de OpenAI que ha sido entrenado en 680 000 horas de datos supervisados multilingües y multitarea recopilados de la web. Este conjunto de datos grande y diverso conduce a una mayor solidez de los acentos, el ruido de fondo y el lenguaje técnico. Además, permite la transcripción en varios idiomas, así como la traducción de esos idiomas al inglés. OpenAI lanzó los modelos y el código para que sirvan como base para crear aplicaciones útiles que aprovechen el reconocimiento de voz.
Cómo usar Susurro
El modelo susurro está disponible en GitHub. Puede descargarlo con el siguiente comando directamente en el cuaderno Jupyter:
necesidades de susurro ffmpeg
instalado en la máquina actual para trabajar. Tal vez ya lo tenga instalado, pero es probable que su máquina local necesite que este programa se instale primero.
OpenAI se refiere a varias formas de instalar este paquete, pero usaremos el administrador de paquetes Scoop. Aquí hay un tutorial de cómo hacerlo manualmente.
También te puede interesarTutorial de OpenAI Whisper: Cómo usar Whisper para transcribir un video de YouTubeEn Jupyter Notebook puedes instalarlo con el siguiente comando:
Después de la instalación, se requiere reiniciar si está utilizando su máquina local.
Ahora podemos continuar. A continuación importamos todas las bibliotecas necesarias:
Usar una GPU es la forma preferida de usar Whisper. Si está utilizando una máquina local, puede verificar si tiene una GPU disponible. Los resultados de la primera línea False
si la GPU Nvidia compatible con Cuda no está disponible y True
si está disponible. La segunda línea de código establece el modelo como GPU de preferencia siempre que esté disponible.
Ahora podemos cargar el modelo Whipser. El modelo se carga con el siguiente comando:
Tenga en cuenta que hay varios modelos diferentes disponibles. Puedes encontrarlos todos aquí. Cada uno de ellos tiene compensaciones entre precisión y velocidad (se necesita cálculo). Usaremos el modelo ‘base’ para este tutorial.
A continuación, debe cargar el archivo de audio que desea transcribir.
Él detect_language
función detecta el idioma de su archivo de audio:
Transcribimos los primeros 30 segundos del audio usando DecodingOptions y el comando decode. Luego imprime el resultado:
A continuación, podemos transcribir todo el archivo de audio.
Esto imprimirá todo el archivo de audio transcrito, una vez finalizada la ejecución.
Ahora te toca a ti crear tus propias aplicaciones usando Whisper. ¡Se creativo y Diviertete!
Estoy seguro de que encontrarás muchas aplicaciones útiles para Whisper.
Puede encontrar el código completo como Jupyter Notebook aquí
Gracias para leer. Si disfrutó de este tutorial, puede encontrar más y continuar leyendo en nuestra página de tutoriales: Fabian Stehle, científico de datos junior en New Native