Tutorial de OpenAI Whisper: creación de la API de OpenAI Whisper en un contenedor Docker

¿Qué es Susurro?

Whisper es un sistema automático de reconocimiento de voz de última generación de OpenAI que ha sido entrenado en 680 000 horas de datos supervisados ​​multilingües y multitarea recopilados de la web. Este conjunto de datos grande y diverso conduce a una mayor solidez de los acentos, el ruido de fondo y el lenguaje técnico. Además, permite la transcripción en varios idiomas, así como la traducción de esos idiomas al inglés. OpenAI lanzó los modelos y el código para que sirvan como base para crear aplicaciones útiles que aprovechen el reconocimiento de voz.

Cómo empezar con Docker

  • En primer lugar, si planea ejecutar el contenedor en su máquina local, debe tener instalado Docker. Puede encontrar las instrucciones de instalación aquí.
  • Creando una carpeta para nuestros archivos, llamémoslo whisper-api
  • Cree un archivo llamado requirements.txt y agréguele un matraz.
  • Crea un archivo llamado Dockerfile
  • En el Dockerfile añadiremos las siguientes líneas:

    Entonces, ¿qué está sucediendo exactamente en el Dockerfile?

  • Elegir una imagen delgada de Python 3.10 como nuestra imagen base.
  • Crear un directorio de trabajo llamado python-docker
  • Copiando nuestro archivo requirements.txt al directorio de trabajo
  • Actualizar el administrador de paquetes apt e instalar git
  • Instalación de los requisitos desde el archivo requirements.txt
  • instalando el paquete susurro desde github.
  • Instalando ffmpeg
  • Y exponiendo el puerto 5000 y ejecutando el servidor de matraz.
  • Cómo crear nuestra ruta

  • Cree un archivo llamado app.py donde importamos todos los paquetes necesarios e inicializamos la aplicación del matraz y susurramos.
  • Agregue las siguientes líneas al archivo:
  • Ahora necesitamos crear una ruta que acepte una solicitud de publicación con un archivo.
  • Agregue las siguientes líneas al archivo app.py:
  • ¿Cómo ejecutar el contenedor?

  • Abra una terminal y navegue a la carpeta donde creó los archivos.
  • Ejecute el siguiente comando para construir el contenedor:
  • Ejecute el siguiente comando para ejecutar el contenedor:
  • ¿Cómo probar la API?

  • Puede probar la API enviando una solicitud POST a la ruta http://localhost:5000/whisper con un archivo dentro. El cuerpo debe ser datos de formulario.
  • Puede usar el siguiente comando curl para probar la API:
  • Como resultado, debería obtener un objeto JSON con la transcripción.
  • ¿Cómo implementar la API?

    Esta API se puede implementar en cualquier lugar donde se pueda usar Docker. Solo tenga en cuenta que esta configuración actualmente usa CPU para procesar los archivos de audio. Si desea usar GPU, debe cambiar Dockerfile y compartir la GPU. No voy a profundizar en esto ya que esto es una introducción. GPU acoplable

    Puedes encontrar el código completo aquí

    También te puede interesarGuía de indicaciones de Stable Diffusion y OpenAI Whisper: Generación de imágenes basadas en el habla – Whisper & Stable Diffusion

    Gracias ¡para leer! Si disfrutaste este tutorial, puedes encontrar más y continuar leyendo en nuestra página de tutoriales.

    Scroll al inicio