Ajuste fino y evaluación de modelos de lenguaje grande (LLM)

Tarapong Sreenuch

Este artículo trata sobre cómo hacer que los Modelos de lenguaje grande (LLM) funcionen mejor. Hablamos de diferentes formas de entrenar estos modelos, como usar algunos ejemplos para enseñar el modelo o ajustar el modelo para un trabajo específico. También presentamos a Dolly, un modelo que es bueno para seguir instrucciones. Es importante verificar qué tan bien está funcionando el modelo, por lo que también hablaremos sobre cómo hacerlo. Tocamos la idea de «alineación» para asegurarnos de que el modelo esté creando contenido seguro y relevante. También hablamos sobre cómo elegir el modelo adecuado para sus necesidades, teniendo en cuenta aspectos como la velocidad, la precisión y el tamaño.

Un enfoque poderoso para mejorar la aplicabilidad de los LLM a tareas específicas es a través del ajuste fino, un proceso en el que los parámetros del modelo se ajustan para adaptarse a aplicaciones específicas. Dos métodos dominan esta esfera: el aprendizaje de pocos intentos y el aprendizaje siguiendo instrucciones.

El aprendizaje de pocos disparos explota la capacidad de un modelo para generalizar a partir de un puñado de ejemplos proporcionados en un aviso. Como enfoque de desarrollo rápido, requiere un modelo más grande para un rendimiento superior debido a los ejemplos limitados disponibles, lo que genera costos bajos ya que no se requiere capacitación. Sin embargo, requiere muchos ejemplos de alta calidad que cubran el espectro completo de la tarea en cuestión.

El enfoque de seguimiento de instrucciones no se basa en ejemplos prefabricados. En un escenario sin ejemplos, entra en juego un enfoque de aprendizaje de tiro cero, donde se describe la tarea y el modelo proporciona un resumen. En particular, la calidad de los resultados depende en gran medida de qué tan bien se entrenó el modelo de seguimiento de instrucciones.

El modelo Dolly de Databricks sirve como un excelente ejemplo de un LLM de seguimiento de instrucciones perfeccionado. Dolly, un modelo de 12 mil millones de parámetros, se basa en Pythia de EleutherAI y se entrenó en el conjunto de datos «The Pile». El conjunto de datos de ajuste fino de Dolly, Databricks-Dolly-15K, comprende pares de instrucciones y respuestas de alta calidad para tareas intelectuales, lo que permitió que el modelo realizara tareas específicas en las que fue entrenado de manera efectiva.

Dolly ejemplifica cómo se puede crear un producto comercialmente viable al combinar un modelo de código abierto con un conjunto de datos de código abierto de alta calidad. Este concepto, introducido inicialmente por el proyecto Stanford Alpaca, ha inspirado el cambio de la búsqueda de modelos de lenguaje más grandes al desarrollo de modelos ajustados y personalizados para diferentes tareas.

Otro enfoque es utilizar un modelo de lenguaje grande (LLM) patentado como servicio, en el que se supone que no hay ejemplos prefabricados disponibles. Este enfoque ofrece la ventaja de una creación rápida de aplicaciones y un mayor rendimiento, ya que los cálculos se manejan en el lado del servidor. Sin embargo, los costos asociados con cada token enviado y recibido, las preocupaciones sobre la privacidad de los datos y los riesgos de bloqueo del proveedor pueden ser inconvenientes potenciales.

La evaluación es una faceta crítica del proceso de ajuste. Los LLM plantean un desafío único porque su desempeño no es solo una cuestión de precisión; se trata del valor del texto generado. Las métricas tradicionales, como las puntuaciones de pérdida o validación, no son particularmente reveladoras en estos casos. Las métricas más perspicaces, como la perplejidad y la precisión, tampoco brindan una imagen completa del rendimiento, dado que la alta confianza y la precisión en la predicción de la siguiente palabra no garantizan resultados contextualmente apropiados o de alta calidad.

Por lo tanto, han surgido métricas de evaluación específicas de la tarea, como el suplente de evaluación bilingüe (BLEU) para tareas de traducción y el suplente orientado a la recuperación para la evaluación de Gisting (ROUGE) para tareas de resumen. Tanto las puntuaciones de BLEU como las de ROUGE utilizan la comparación con traducciones de referencia o resúmenes para determinar el rendimiento del modelo en la tarea en cuestión.

Recientemente, la alineación se ha convertido en un aspecto crucial de la evaluación. El concepto de alineación implica guiar el modelo para producir contenido apropiado y no ofensivo, que actúa efectivamente como una forma de moderación del contenido.

En conclusión, el panorama de los modelos de lenguaje grande está evolucionando rápidamente, con métodos de ajuste y evaluación que mejoran y se diversifican a un ritmo acelerado. A medida que se desarrollan y ajustan modelos de código abierto como Dolly, nos acercamos más al objetivo de crear modelos de lenguaje más específicos y eficientes para las tareas.

Con esta mayor comprensión, podemos anticipar y dar forma al futuro de los LLM, asegurando que su desarrollo se alinee con nuestras necesidades tecnológicas y pautas éticas. Estos modelos avanzados tienen un inmenso potencial en numerosas aplicaciones, marcando una trayectoria emocionante para el futuro de este campo.

#dolly #largelanguagemodel #gpt #generativeai #nlp #finetuning


Comentarios

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *