Breve reseña: mT5: un transformador de texto a texto masivamente multilingüe preentrenado

2.1. Arquitectura modelo

mT5 es basado en el “T5receta de .1.1”que mejora T5 mediante el uso de GeGLU no linealidades, escalando ambos modelo y DFF en lugar de solo DFF en los modelos más grandes.

pre-entrenamiento objetivo “span-corruption” se hace, como lo mismo en T5 en datos sin etiquetar solo sin abandono.

Variantes de modelo
  • 5 variantes de modelo Están entrenados.
  • 2.2. conjuntos de datos

    Conjuntos de datos mC4

    71 raspados web mensuales lanzado hasta ahora por Rastreo común son usados. Esto es dramáticamente más datos de origen que los que se usaron para C4. (Con filtrado y eliminación.)

    Distribución de idiomas

    Con un conjunto de datos tan grande, puede haber mejor cobertura de los langs de la cola.

  • Para equilibrar mejor la muestra, a se introduce para impulsar la cola:
  • Muestreo de idiomas
    Diferente a

    a=0.3 se utiliza en el modelo final, lo que ofrece un compromiso razonable entre el rendimiento en lenguajes de recursos altos y bajos.

  • En comparación con T5, tamaño del vocabulario se incrementa a 250.000 piezas de palabrasusando OraciónPieza.
  • Deja un comentario

    Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

    Scroll al inicio