¿Podemos confiar en ChatGPT y LLM en tareas de recuperación de información?

Los LLM son una gran herramienta de productividad. No mienten, y tampoco dicen la verdad. Crean continuaciones plausibles de oraciones, algunas resultan ser verdaderas, otras no; no pueden notar la diferencia.

Arte de Midjourney (fuente: https://ai.plainenglish.io)

Impulsados ​​por los avances en la escalabilidad, los LLM han demostrado su capacidad para llevar a cabo una amplia gama de tareas de procesamiento del lenguaje natural (NLP) de manera instantánea, sin necesidad de adaptarse a los datos posteriores. Sin embargo, no está claro si ChatGPT puede funcionar como un modelo versátil capaz de manejar numerosas tareas de PNL en un entorno de disparo cero. En un estudio reciente, los investigadores realizaron un examen empírico de las capacidades de aprendizaje de disparo cero de ChatGPT, evaluando su rendimiento en 20 conjuntos de datos destacados de NLP que abarcan 7 categorías de tareas representativas. Las investigaciones empíricas exhaustivas revelan que ChatGPT sobresale en tareas que exigen habilidades de razonamiento (p. ej., razonamiento aritmético), pero tiene dificultades con tareas específicas como el etiquetado de secuencias (es decir, NER).

Curiosamente, el rendimiento de disparo cero de ChatGPT y GPT-3.5 en CoNLL03, un popular conjunto de datos de reconocimiento de entidades nombradas (entidades: PER, LOC, ORG, MISC), deja mucho que desear. Su rendimiento general parece ser bastante comparable, pero ambos modelos no logran resultados satisfactorios para cada tipo de entidad nombrada cuando se comparan con los enfoques de ajuste fino anteriores. La precisión promedio de ChatGPT en esta tarea NER simple es 53.7% mientras que Chispa PNL ¡El modelo NER logra > 98% en el mismo conjunto de datos!

Esto indica que, a pesar de ser considerados modelos generalistas, los LLM actuales aún enfrentan desafíos para abordar tareas específicas, como el reconocimiento de entidades nombradas.

También te puede interesarLibros para la ciencia de datos
Este gráfico compara el rendimiento de ChatGPT, GPT-3.5 y modelos ajustados utilizando datos específicos de tareas en 20 conjuntos de datos distintos. Para cada conjunto de datos de razonamiento, se muestra el resultado superior entre los enfoques de cadena de pensamiento de disparo cero y de disparo cero. Las métricas de evaluación utilizadas son el promedio ROUGE-1/2/L para SAMsum, la puntuación F1 para CoNLL03 y la precisión para los conjuntos de datos restantes (fuente: https://arxiv.org/pdf/2302.06476.pdf).

Es bastante sorprendente que ChatGPT, a pesar de su desempeño sobresaliente en los exámenes profesionales y académicos, tenga dificultades con una tarea NER relativamente simple. GPT-4 demuestra un desempeño a nivel humano en la mayoría de estos exámenes, incluso aprobando un examen de barra uniforme simulado con una puntuación en el 10% superior de los examinados. La competencia del modelo en los exámenes se deriva principalmente del proceso de capacitación previa, y RLHF tiene poco impacto. Para las preguntas de opción múltiple, tanto el modelo base GPT-4 como el modelo RLHF funcionan igual de bien en promedio en todos los exámenes evaluados.

Este gráfico muestra el rendimiento de los modelos GPT en exámenes académicos y profesionales, simulando las condiciones reales del examen y la puntuación. GPT-4 supera a GPT-3.5 en la mayoría de los exámenes evaluados (fuente: https://arxiv.org/pdf/2303.08774.pdf).

Si esto es lo que significa el nivel humano y cómo se mide la inteligencia humana con tales exámenes, es posible que debamos reconsiderar cómo evaluamos la inteligencia humana.

Sin embargo, ChatGPT todavía enfrenta desafíos en casos de uso del mundo real. Esto no se debe a que carezca de inteligencia, sino a que las preguntas del examen suelen tener respuestas deterministas ya presentes en su base de datos. Si bien ChatGPT es excepcionalmente hábil para presentar respuestas en un formato de lenguaje natural, su proceso de recuperación de conocimiento subyacente es similar a una Búsqueda de Google. En realidad, la mayoría de los casos reales en escenarios del mundo real se desvían de los ejemplos clásicos.

Ahora, arrojemos la moneda y hablemos sobre la veracidad de estos modelos. Incluso si se demuestra que los LLM producen textos plausibles parecidos a los humanos, incluso mejores que una línea de base humana y rectifican errores previos basados ​​en conversaciones de seguimiento, investigaciones recientes han planteado preocupaciones sobre la veracidad de los modelos de lenguaje extenso (LLM), particularmente ChatGPT y GPT-4, lo que sugiere que estos modelos pueden ser menos precisos en comparación con sus homólogos más pequeños.

También te puede interesar“El poder de GPT: lograr mejores resultados que los motores de búsqueda tradicionales para banqueros”“El poder de GPT: lograr mejores resultados que los motores de búsqueda tradicionales para banqueros”
Los modelos más grandes son menos veraces. A diferencia de otras tareas de PNL, los modelos más grandes son menos veraces en TruthfulQA. Los modelos más grandes responden mejor a las preguntas que coinciden exactamente con la sintaxis de TruthfulQA, pero no investigan conceptos erróneos (fuente: https://arxiv.org/pdf/2109.07958.pdf).

Uno de los hallazgos clave es que los LLM, debido a sus vastos datos de capacitación, pueden aprender y propagar sesgos humanos, conceptos erróneos, mitos e información errónea con alta confianza. Este fenómeno suele llamarse ‘alucinaciones’. Es crucial recordar que estos modelos solo pueden aprender de los datos con los que han sido entrenados, y si los datos de entrenamiento contienen inexactitudes o sesgos, los modelos reflejarán esos defectos.

El tema de la alineación con los valores humanos es otra preocupación que rodea a los LLM. Estos modelos generalmente no están bien alineados con los humanos, ya que su objetivo principal es generar un texto coherente y contextualmente relevante, en lugar de priorizar la veracidad o las consideraciones éticas.

Cómo cambia la respuesta de GPT-3 con el tamaño del modelo en un ejemplo concreto. El modelo más pequeño produce una respuesta verdadera pero no informativa. Las respuestas intermedias son más informativas pero en parte falsas o exageradas. El modelo más grande dice algo literalmente falso, imitando una superstición humana (fuente: https://arxiv.org/pdf/2109.07958.pdf).

TruthfulQA es un punto de referencia para medir si un modelo de lenguaje es veraz al generar respuestas a las preguntas. El punto de referencia consta de 817 preguntas que abarcan 38 categorías, que incluyen salud, derecho, finanzas y política.

GPT-4 demuestra el progreso en puntos de referencia públicos como TruthfulQA, que evalúa la capacidad del modelo para distinguir declaraciones fácticas de un conjunto de declaraciones incorrectas seleccionadas por adversarios. Si bien el modelo base GPT-4 muestra solo una mejora marginal con respecto a GPT-3.5 en esta tarea, exhibe mejoras significativas después del aprendizaje de refuerzo a partir de la retroalimentación humana (RLHF) posterior al entrenamiento. Aunque GPT-4 puede resistirse a seleccionar dichos comunes, aún puede pasar por alto detalles sutiles.

También te puede interesarPredicción del precio de las acciones utilizando técnicas de aprendizaje profundo

El informe técnico oficial de GPT-4 incluye un gráfico que muestra la precisión de diferentes modelos en el punto de referencia TruthfulQA. Incluso con todas las mejoras que vienen junto con RLHF (Aprendizaje de refuerzo a partir de la retroalimentación humana) y entrenamientos adversarios, GPT-4 todavía responde incorrectamente más del 40% de las preguntas.

El eje y muestra la precisión, siendo mejores los valores más altos. El gráfico compara GPT-4 bajo indicaciones de disparo cero, indicaciones de pocos disparos y después del ajuste fino de RLHF. Con RLHF, GPT-4 alcanza un 58 % de precisión, superando tanto a GPT-3.5 (48 % con RLHF) como a Anthropic-LM (fuente: https://arxiv.org/pdf/2303.08774.pdf).

El sitio de investigación GPT4 establece las siguientes limitaciones:

A pesar de sus capacidades, GPT-4 tiene limitaciones similares a las de los modelos GPT anteriores. Lo que es más importante, todavía no es completamente confiable («alucina» los hechos y comete errores de razonamiento). Se debe tener mucho cuidado al usar los resultados del modelo de lenguaje, particularmente en contextos de alto riesgo, con el protocolo exacto (como revisión humana, puesta a tierra con contexto adicional o evitar usos de alto riesgo por completo) que coincida con las necesidades de un caso de uso específico. .

alucinaciones en los LLM suceden cuando las respuestas generadas no coinciden con precisión con el contexto dado, carecen de evidencia de respaldo o se desvían de lo que esperaríamos en función de sus datos de capacitación. Algunos ejemplos de estas alucinaciones incluyen inexactitudes fácticas, donde el LLM produce declaraciones incorrectas, afirmaciones sin fundamento que no tienen base en la entrada o el contexto, declaraciones sin sentido que no están relacionadas con el contexto y escenarios improbables que describen eventos inverosímiles o muy poco probables.

También te puede interesarFinance NLP lanza generación de texto, NER visual y control de calidad, informes de actividad sospechosa…

La última pero no menos importante, la mayor limitación de GPT-4 es su falta de conocimiento sobre los eventos que ocurrieron después de septiembre de 2021, así como su incapacidad para aprender de la experiencia. Puede cometer errores de razonamiento simples, aceptar declaraciones falsas y fallar en problemas complejos, similar a los humanos. GPT-4 también puede equivocarse con confianza en sus predicciones sin verificar dos veces su trabajo.

Scroll al inicio