
Por Sarang Varhadpande
El Procesamiento del Lenguaje Natural (NLP) está influyendo en nuestro mundo de muchas maneras. Nuestra vida diaria está impregnada de aplicaciones de PNL como motores de búsqueda, análisis de documentos, filtrado de spam, bots de servicio al cliente, etc. Es fascinante estudiar cómo funcionan los motores subyacentes que ejecutan estas aplicaciones. Especialmente, cómo funcionan las máquinas con el lenguaje y el texto.
Son números que una computadora entiende y manipula. Para representar y procesar el lenguaje o la información textual, la convertimos en números llamados incrustaciones que discutimos en uno de nuestros blogs anteriores. A lo largo de los años, las técnicas de comprensión/representación del lenguaje han evolucionado en el mundo de la PNL. Las siguientes son algunas de las áreas clave en las que la PNL ha evolucionado con el tiempo:
1) Medidas Estadísticas: Un pequeño paso en este espacio consiste en aplicar técnicas estadísticas sobre cadenas. Aún no se ha añadido ningún significado al texto. Técnicas como la similitud de conjuntos y la distancia de edición pertenecen a esta clase.
2) incrustaciones de palabras: Este es un comienzo simple para entender algún significado del texto. Las palabras se representan como números de modo que estos números capturen el contexto en el que se usan las palabras. Técnicas como word2vec caen en este espacio.
3) Incrustaciones de oraciones: Las incrustaciones de palabras se combinan luego para formar incrustaciones a nivel de oración para definir el significado de oraciones y párrafos más largos. Captura el contexto a través de las oraciones, sin embargo, no hay una comprensión contextual detallada del idioma en sí. Técnicas como Bolsa de palabras caen en este espacio.
4) Modelos de lenguaje: Estos son modelos complejos diseñados para comprender y generar el lenguaje humano. Aprenden del corpus de texto sin procesar.
5) Modelos de lenguaje grande (LLM): Si el tamaño del modelo de lenguaje y el corpus de entrenamiento es del orden de cientos de millones, se denomina modelo de lenguaje grande. Cualquier tipo de modelo de lenguaje se puede escalar, sin embargo, más recientemente, el enfoque está en escalar modelos generativos. BERT y GPT son ejemplos de modelos de lenguaje grande.
En este blog, exploraremos modelos de lenguaje extenso (LLM) con un enfoque específico en el análisis generativo. Como hay muchos modelos de idiomas grandes, profundizaremos con ejemplos de la popular serie GPT. Este blog analiza los modelos GPT en general. Publicaremos otro blog con un enfoque específico en ChatGPT, que es una rama separada de los modelos GPT que está específicamente capacitado para conversaciones.