1.1. Perspectiva unificada
- Modelos de lenguaje: usar todos los pasos de tiempo anteriores como entradas al modelo a predecir la próxima fichaque es el objetivo.
- Span la corrupción: el modelo aprovecha todos los tokens incorruptos del pasado y del futuro como entradas para predecir el lapso corrupto (objetivos).
- Prefijo-LM: son LM que utilizan fichas pasadas como entradaspero consumir las entradas bidireccionalmente.
UL2 aproximadamente se reduce a un objetivo de pre-entrenamiento.
1.2. Tarea de eliminación de ruido
El entradas y objetivos del tareas de eliminación de ruido son generados por una función SPANCORRUPT que es parametrizado por tres valores (metro, r, norte)dónde metro es el longitud media del tramo, r es el tasa de corrupcióny norte cual es número de tramos dañados. Tenga en cuenta que norte puede ser una función de la longitud de entrada, Ly la longitud del tramo metrop.ej Lμpero en algunos casos, un valor fijo de norte puede ser usado.
- Dado un texto de entrada, SPANCORRUPT introduce corrupciones en los intervalos de longitudes que se extraen de una distribución (normal o uniforme) con una media de metro.
1.3. Mezcla de Denoisers (MoD)
1.3.1. R-Denoiser
El denoising regular es el corrupción de intervalo estándar introducida en T5 que utiliza un rango de 2 a 5 tokens como longitud de tramo, lo que enmascara alrededor del 15 % de los tokens de entrada.
- Estos lapsos son cortos y potencialmente útil para adquirir conocimientos en lugar de aprender a generar texto fluido.
1.3.2. S-Denoiser
La secuencia de entrada es simplemente se divide en dos subsecuencias de tokens como contexto y objetivo.
También te puede interesarIntroducción a la Inteligencia Artificial, Machine Learning y Deep learning
- Similar a la configuración de Prefix-LM, el contexto (prefijo) conserva un bidireccional campo receptivo.
1.3.3. X-Denoiser
Un versión extrema de denoising donde el modelo debe recuperar una gran parte de la entrada, dado una pequeña a moderada parte de ella.
- Esto simula una situación en la que un modelo necesita generar un objetivo largo a partir de una memoria con información relativamente limitada.
1.3.4. Configuración del Ministerio de Defensa
El objetivo final es un mezcla de 7 eliminadores de ruido que están configurados como arriba.
1.4. Cambio de modo
Durante el pre-entrenamiento, el modelo es alimentado con una ficha de paradigma extraeso es, {[R], [S], [X]} eso ayuda al modelo a cambiar de marcha y operar en un modo que sea más adecuado para la tarea dada.
- Para sintonia FINA y pocos disparos aguas abajo aprendizaje, para activar el modelo para aprender mejores soluciones, también se agrega un token de paradigma con respecto a las configuraciones y requisitos de la tarea posterior. El cambio de modo, de hecho, une el comportamiento descendente a uno de los modos que usamos durante el entrenamiento ascendente.
1.5. Arquitectura modelo
- UL2 adopta una vainilla bastante estándar T5 Transformador.
Ambos decodificador UL2 y Codificador-decodificador UL2 se construyen.
También te puede interesarModelos de secuencia a secuencia