2.1. Arquitectura modelo
mT5 es basado en el “T5receta de .1.1”que mejora T5 mediante el uso de GeGLU no linealidades, escalando ambos modelo y DFF en lugar de solo DFF en los modelos más grandes.
pre-entrenamiento objetivo “span-corruption” se hace, como lo mismo en T5 en datos sin etiquetar solo sin abandono.
2.2. conjuntos de datos
71 raspados web mensuales lanzado hasta ahora por Rastreo común son usados. Esto es dramáticamente más datos de origen que los que se usaron para C4. (Con filtrado y eliminación.)
Con un conjunto de datos tan grande, puede haber mejor cobertura de los langs de la cola.
a=0.3 se utiliza en el modelo final, lo que ofrece un compromiso razonable entre el rendimiento en lenguajes de recursos altos y bajos.