ESCALA ASR A 1K IDIOMAS

Fondo:
Sucedió que en mi niñez no aprendí
Cabardiano, a pesar de que soy medio caucásico. Un buen día, durante una llamada, alguien me preguntó si había visto lo que Meta lanzó con 1000 idiomas. Fue entonces cuando decidí averiguar qué habían hecho y, en el proceso, comprobar si este nuevo modelo de moda reconocería el kabardiano, mi idioma nativo. Le escribí a mi hermana Milana (sí, tengo una hermana que se llama Milana y somos de la misma edad), que habla kabardiano con fluidez, y me grabó cinco mensajes de audio, que validaré al final de esta publicación.

Mi ciudad natal donde la gente habla kabardiano

ARTÍCULO
PUBLICACIÓN DE BLOG con vídeo
tutoriales de código y ejecución
revisión en medio

  • Tomaron 4000 idiomas (actualmente hay alrededor de 7k en el mundo) y recopilaron muchos textos religiosos de la Biblia con audio para esos idiomas.
  • Realizaron una alineación de dos etapas en estas grabaciones.
  • Ajustaron gradualmente el modelo wav2vec 2.0 para ASR (audio a texto) en función de la frecuencia de los idiomas.
  • Para TTS, ajustaron VITS.
  • Para LID, usaron el mismo modelo wav2vec pero con una capa lineal al final para manejar la cantidad de idiomas. Curiosamente, en LID, a diferencia de ASR, se fusionaron microlenguajes. Por ejemplo, el azerbaiyano tiene microlenguajes del norte y del sur. En mi opinión, esto hace que la tarea sea menos justa, ya que muchos dialectos no se pueden entender entre sí a pesar de pertenecer al mismo grupo.

0. Dado que el audio tenía una duración de aproximadamente 43 minutos, inicialmente lo dividieron en fragmentos de 15 segundos, donde concatenaron el discurso y aplicaron ALINEACIÓN FORZADA ESCALABLE. Esta es una tarea desafiante (en mi opinión), especialmente para los idiomas aglutinantes, donde una sola palabra puede ser muy larga. Su alineación forzada escalable consta de dos etapas: alineación forzada, que realizaron utilizando un algoritmo Viterbi acelerado entrenado en FLEURS y Common Voice + capacitación adicional en semillas limpias filtradas obtenidas de la diferencia entre alineación forzada y búsqueda codiciosa.

1️. Los textos mismos se limpiaron aún más y agregaron un token

También te puede interesar ¿Qué es Big Data? | Gestión y Gobernanza de Big Data| sagar patil

eliminar los títulos iniciales de los textos si no se pronunciaban, así como los números. Aunque ciertamente hay preguntas aquí porque en algunos idiomas, los números son afijos. [there will be a separate post]2️. Para ASR, usaron el viejo WAV2VEC 2.0. PERO agregaron LSAsH, adaptadores específicos de idioma para cada idioma en el transformador entre bloques. Cada adaptador se entrena para un idioma específico y luego se realiza un ajuste fino en un vocabulario específico. Los adaptadores son una técnica interesante para el ajuste de modelos como se describe en el artículo.

. Esto, sin duda, añade parámetros, pero también mejora la calidad.

También describen el proceso de entrenamiento, todos los parámetros y la validación con gran detalle, lo que me gustó.

3️. Utilizaron un cronograma de tres etapas para el entrenamiento: calentamiento 10% de actualizaciones, 40% constante, 50% final decaído.

También te puede interesar Voicebox: el primer modelo generativo de inteligencia artificial para voz de Meta

Los autores señalan que escalar en más de diez veces la cantidad de idiomas en comparación con XLS-R mejora la calidad para los idiomas de bajos recursos, pero disminuye para los más populares. Sería interesante ver si pueden aprender grupos de idiomas conectados lingüísticamente.

El artículo en sí es notable por la forma en que recopilaron el conjunto de datos (no busqué bien y no pude encontrar un enlace) y que es realmente posible escalar a 4000 idiomas, al menos para LID. Espero que esto se convierta en un movimiento aún más grande, y que los idiomas en peligro de extinción sean apoyados no solo por lingüistas de campo. Aquí, por cierto, están todos los idiomas y marcas que indican si se usaron ASR, LID y TTS para ellos.
Y ahora, ¿qué pasa con Kabardian?

De los 3 primeros, solo 3 de 5 grabaciones fueron reconocidas como kabardiano, y no fue el idioma principal en ninguna de ellas. A menudo se confundía con abjasio. También puede haber un sesgo hacia el habla femenina, ya que la mayoría de los hablantes en el conjunto de datos eran hombres.

Además, le pedí a mi amigo de Uzbekistán que dijera las mismas frases. LID identificó correctamente el uzbeko como el idioma principal para todos ellos. ASR actualmente no funciona a través de hf, así que lo revisaré más tarde.

También te puede interesar Desmitificando la lógica de atención de los transformadores: desentrañando la intuición y la implementación

Scroll al inicio