¿Su solicitud de LLM alucina?

Saptarshi Chaudhuri
Una alucinación es un hecho, no un error; lo que es erróneo es un juicio basado en ella. Bertrand Russell

Si usted es un creador de productos en 202X, es probable que haya pensado en integrar LLM en su producto. Especialmente si tiene casos de uso relacionados con el resumen y/o la generación de texto, la integración LLM puede aumentar la productividad al tiempo que garantiza costos mínimos para usted y sus usuarios.

Sin embargo, los LLM son un área activa de investigación y presentan muchos problemas que debe probar antes de permitir que los usuarios consuman ampliamente estos resultados. Uno de esos problemas es la alucinación.

Se dice que los LLM alucinan cuando generan texto que no es consistente con la entrada. Esto puede tomar la forma de información inventada, que a veces el modelo puede presentar con confianza. https://medium.com/@saptarshichaudhuri/does-your-llm-application-hallucinate-e06eb3868a88?source=tag_page———2-89——————–1d9c9fe3_0f37_435f_8ffb_d9e023fff9a7——-17

[1] clasifica las alucinaciones como intrínseco (donde el modelo tergiversa la información ya disponible para el modelo) o extrínseco (donde el modelo añade información más allá de la que se le ha puesto a disposición).

Debería preocuparse porque los textos alucinados probablemente no sean fácticos y al no probarlos y mitigarlos, ¡está dejando que la información errónea se escape sin problemas! Las consecuencias posteriores de que sus usuarios interactúen con esta información errónea pueden ser drásticas. #IAResponsable

Estamos lejos de las mejores prácticas y patrones de diseño establecidos para probar/detectar todos los problemas asociados con los LLM en producción, incluidas las alucinaciones. Sin embargo, la comunidad de investigación académica puede tener algunas técnicas para que usted las adopte.

Por ejemplo, el enfoque de investigación presentado en [1] puede ser adoptado por aplicaciones de producción de una manera rentable. Si bien se enfoca principalmente en el resumen, el documento proporciona 2 formas diferentes de detectar alucinaciones [but the approach is simple enough to be replicated for use cases outside of summarizations as well]

  1. Identifique alrededor de 500 resúmenes de documentos del conjunto de datos XSum [2] Este conjunto de datos ya viene con resúmenes de oro. Nota: si su caso de uso no es el resumen, puede buscar un conjunto de datos de referencia para el mismo y aplicar esta técnica [8]
  2. Haga que su solicitud resuma estos documentos.
  3. Envíe los documentos, la solicitud correspondiente y los resúmenes de oro para que sus evaluadores humanos los anoten. [the paper had 3 human raters, who took on. Avg 10 mins to annotate each doc]
  4. Por anotación, esencialmente, los evaluadores leen el documento y anotan/resaltan si hay alguna alucinación dentro de la aplicación y el resumen dorado y los clasifican aún más como intrínsecos/existentes.
  5. Después de la anotación, genera las métricas sobre qué % de las 500 solicitudes y resúmenes de oro fueron alucinaciones fácticas, intrínsecas y extrínsecas. Luego compara si el porcentaje de alucinaciones del resumen de su aplicación está significativamente por encima o por debajo del resumen dorado. Si está arriba, entonces claramente necesita medidas de seguridad para evitar alucinaciones antes de llevar su aplicación a producción.

Pero supongamos que se encuentra en una etapa anterior de su ciclo de vida de desarrollo (por ejemplo, explorando la viabilidad) y no quiere gastar dinero en anotadores humanos todavía. En ese caso, los autores en [1] descubrió que las probabilidades de implicación de texto son una buena manera de probar las alucinaciones de manera automatizada.

Específicamente, los autores desarrollaron un clasificador de vinculación de texto [4] [5] que podría predecir la probabilidad de que dado un documento, si el resumen de la aplicación es verdadero, falso o neutral respecto al documento.

Si el puntaje de probabilidad de «Verdadero» es demasiado bajo en el conjunto de datos XSum para su aplicación LLM, entonces sería seguro considerar medidas de seguridad para la prevención de alucinaciones antes de llevar su aplicación a producción.

La prevención de las alucinaciones sigue siendo un problema de investigación abierto. Una técnica que se está adoptando en toda la industria es la «conexión a tierra», en la que aumenta un LLM con conocimientos relevantes fuera de sus datos de capacitación.

Pero en realidad, el costo de la conexión a tierra variará de una aplicación a otra, y debe tenerlo en cuenta antes de dedicarse por completo a su aplicación LLM.

Profundizar en la conexión a tierra está más allá del alcance de esta publicación de blog actual, por lo que lo dejaré con un artículo increíble en lugar de Grounding LLM [6].

Gracias por continuar innovando en el espacio de los LLM y la IA generativa y, lo que es más importante, gracias por priorizar el desarrollo de IA responsable.

[1]. Sobre la fidelidad y la realidad en el resumen abstracto. Joshua Maynez, Shashi Narayan, Bernd Bohnet, Ryan McDonald; Investigación de Google

[2]. https://paperswithcode.com/dataset/xsum

[3]. https://cims.nyu.edu/~sbowman/multinli/

[4]. https://paperswithcode.com/dataset/multinli

[5]. https://paperswithcode.com/dataset/snli

[6]. LLM de puesta a tierra

[7]HaluEval: un punto de referencia de evaluación de alucinaciones a gran escala para modelos de lenguaje grande Junyi Li, Xiaoxue Cheng, Wayne Xin Zhao, Jian-Yun Nie, Ji-Rong Wen

[8]. https://paperswithcode.com/datasets?mod=texts&page=1


Comentarios

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *