Estoy de vuelta, Deep Learning y PNL

Esta es una breve publicación sobre mi regreso al campo de investigación del aprendizaje automático. Después de un largo descanso de casi un año y medio, haciendo otras cosas (principalmente trabajo) y sin estar al día con las tendencias actuales, especialmente. LLM, necesito desempaquetar todo eso.

Cosas que noté durante unos días navegando por Internet sobre cosas de IA.

Zhao, Wayne Xin et al. Una encuesta de modelos de lenguaje grande. ArXiv abs/2303.18223 (2023)

Entrenamiento de modelos de lenguaje grande óptimos para computación

Chinchilla, un modelo de cómputo óptimo predicho, una arquitectura de Gopher pero los parámetros 70B con 4 veces más datos iniciaron la hipótesis de los modelos de lenguaje actuales que están significativamente infraentrenados, lo que escala los parámetros del modelo de lenguaje con una constante de datos de entrenamiento. El hallazgo clave de este documento es que el tamaño del modelo y la cantidad de tokens de capacitación deben escalar por igual. El documento indicó que una versión de gopher para optimizar la computación debería tener alrededor de 40 a 70 B de parámetros y 1,4 T de tokens con el mismo presupuesto de computación que el Gopher original (280 B).

También te puede interesarMachine Learning en Inteligencia Artificial

PaLM: Modelado de lenguaje escalable con Pathways

ArXiv publicado: 5 oct 2022

Entrenamos a PaLM en chips 6144 TPU v4 usando Pathways, un nuevo sistema ML que permite un entrenamiento altamente eficiente en múltiples pods de TPU. Demostramos los beneficios continuos de escalar al lograr resultados de aprendizaje de última generación en cientos de puntos de referencia de comprensión y generación de idiomas. En varias de estas tareas, PaLM 540B logra un rendimiento innovador, superando el estado del arte perfeccionado en un conjunto de tareas de razonamiento de varios pasos y superando el rendimiento humano promedio en el banco de pruebas BIG recientemente lanzado.

Mi toma: Leer 87 páginas lleva mucho tiempo, así que decidí hojear y leer en profundidad las partes importantes. PaLM usa la arquitectura Transformer original en un decodificador solo con algunas modificaciones. PaLM usa activación SwiGLU, capas paralelas, atención de consultas múltiples, incrustaciones de RoPE (posición rotatoria) como en GPTNeo, incrustaciones de entrada y salida compartidas, sin sesgos, vocabulario con tokens de 256 000 como se usa en SentencePiece.

También te puede interesar¿Cómo podemos utilizar nuestras habilidades de coaching para el liderazgo?

Presentamos LLaMA: un modelo de lenguaje grande fundamental de 65 mil millones de parámetros

ArXiv publicado: 27 feb 2023

Presentamos LLaMA, una colección de modelos de lenguaje básico que van desde parámetros 7B a 65B. Entrenamos nuestros modelos en billones de tokens y demostramos que es posible entrenar modelos de última generación utilizando conjuntos de datos disponibles públicamente exclusivamente, sin recurrir a conjuntos de datos propietarios e inaccesibles. En particular, LLaMA-13B supera a GPT-3 (175B) en la mayoría de los puntos de referencia, y LLaMA 65B es competitivo con los mejores modelos, Chinchilla-70B y PaLM-540B. Lanzamos todos nuestros modelos a la comunidad de investigación.

Mi toma: Anteriormente, PaLM ofrecía un tamaño de modelo bahemoth, y este ofrece uno pequeño con un resultado competitivo. Además, la arquitectura LLaMA también se basa en la arquitectura Transformer original (Vaswani et al., 2017) con varias modificaciones, por ejemplo, prenormalización en GPT3, SwiGLU en PaLM, incrustaciones rotativas en GPTNeo.

También te puede interesarAprendizaje rápido: una guía para principiantes

Scroll al inicio