Lo que GPT-4 aporta a la mesa de IA

Procesamiento natural del lenguaje

Un modelo de lenguaje y más

Imagen de Unsplash

El tan esperado lanzamiento del último modelo de Transformadores Preentrenados Generativos (GPT) finalmente ha llegado. La cuarta versión del modelo GPT de OpenAI ha visto algunas mejoras con respecto a sus versiones anteriores, además de algunas funciones ampliadas. GPT-4, como sus predecesores, fue entrenado y ajustado en un corpus de texto usando entrenamiento semi-supervisado. El entrenamiento semisupervisado utilizado en los modelos GPT se realiza en un proceso de dos pasos: un preentrenamiento generativo no supervisado y un ajuste fino discriminativo supervisado. Estos pasos de capacitación ayudaron a eludir las barreras de comprensión del idioma que enfrentaron otros modelos de idioma debido a datos mal anotados.

Cómo GPT-4 llegó tan lejos

OpenAI lanzó GPT-4 el 14 de marzo de 2023, casi cinco años después del almuerzo inicial de GPT-1. Ha habido algunas mejoras en la velocidad, la comprensión y el razonamiento de estos modelos con cada nuevo lanzamiento. Gran parte de las mejoras de estos modelos podrían atribuirse a la cantidad de datos utilizados en el proceso de entrenamiento, la robustez del modelo y los nuevos avances en dispositivos informáticos. GPT-1 tuvo acceso a apenas 4,5 GB de texto de BookCorpus durante el entrenamiento. El modelo GPT-1 tenía un tamaño de parámetro de 117 millones, que era con mucho enorme en comparación con otros modelos de lenguaje existentes en el momento de su lanzamiento. GPT-1 superó a otros modelos de lenguaje en las diferentes tareas en las que se ajustó. Estas tareas fueron sobre inferencia de lenguaje natural, respuesta a preguntas, similitud semántica y tareas de clasificación.

Aquellos que aún no estaban seguros de la posibilidad de que un modelo superara a GPT-1 quedaron impresionados por los números que GPT-2 tenía en su lanzamiento. El tamaño del parámetro y el tamaño del texto utilizado en el entrenamiento eran aproximadamente diez veces el tamaño visto en GPT-1. El tamaño de GPT-2 no fue la única novedad. A diferencia de GPT-1, OpenAI eliminó la necesidad de un paso de ajuste adicional para tareas específicas. Se utilizó el aprendizaje de pocos disparos para garantizar que GPT-2 pudiera atribuir significado y contexto a las palabras sin necesidad de encontrar las palabras varias veces.

Al igual que GPT-2, GPT-3 y otros modelos de lenguaje posteriores no requieren ajustes adicionales en tareas específicas. El modelo de 175 mil millones de parámetros de GPT-3 se entrenó en 570 GB de texto de Common Crawl, Web Text, Wikipedia en inglés y algunos libros corporales. La comprensión del lenguaje y el razonamiento de GPT-3 fueron profundos, y las mejoras adicionales llevaron al desarrollo de ChatGPT, una API de diálogo interactivo. OpenAI desarrolló ChatGPT para habilitar un entorno de diálogo basado en la web para que los usuarios tengan una experiencia de primera mano de las capacidades del GPT-3 extendido al hacer que el modelo de lenguaje converse y responda a los usuarios en función de las entradas del usuario. Un usuario puede hacer una pregunta o solicitar información detallada sobre cualquier tema dentro del ámbito de formación del modelo. OpenAI además reguló el alcance de la información que sus modelos podían proporcionar. Hubo un poco de cuidado adicional en las respuestas relacionadas con mensajes relacionados con delitos, armas, contenido para adultos, etc.

Características emocionantes de GPT-4

Cada nueva versión de GPT viene con un conjunto de características que parecían imposibles en el pasado. ChatGPT impresionó a los usuarios con su nivel de razonamiento y comprensión. Los usuarios pudieron obtener respuestas precisas a sus consultas sobre cualquier tema, siempre que el tema fuera parte del texto en el que se capacitó a ChatGPT. Ha habido casos en los que ChatGPT tuvo problemas para responder a las consultas sobre los eventos que ocurrieron después de que se entrenó el modelo. La dificultad para comprender temas novedosos es de esperar, ya que los modelos de PNL regurgitan textos e intentan mapear entidades dentro del tiempo y el espacio de aparición para adaptarse al contexto deseado. Por lo tanto, solo se pueden recordar los temas existentes en el conjunto de datos en el que se entrenó, y sería bastante ambicioso generalizar sobre nuevos temas.

El razonamiento del modelo GPT-3 no solo era relativamente limitado, sino que el modelo era unimodal. Este modelo solo puede procesar secuencias de textos. La última versión de GPT incluye mejoras con respecto a la versión anterior. Debido a su mayor nivel de razonamiento, los modelos GPT-4 pueden hacer mejores estimaciones del contexto de la oración y hacer una comprensión general basada en este contexto. En base al atisbo de las capacidades de este nuevo modelo, otras novedades son las siguientes;

  • Un aumento en su límite de palabras, con un tamaño de límite de palabras de 25,000 en comparación con el límite de 3,000 palabras en ChatGPT. GPT-4 tiene una ventana de contexto ampliada, con un tamaño de 8129 y 32 768 tokens en comparación con los 4096 y 2049 tokens de GPT-3.
  • Mejoras en el razonamiento y la comprensión. Los textos se entienden bien y se razona mejor sobre los textos.
  • GPT-4 es multimodal. Acepta entradas de texto e imágenes. GPT-4 reconoce y comprende el contenido de una imagen y puede hacer deducciones lógicas de la imagen con precisión humana.
  • Los textos generados en GPT-4 son más difíciles de marcar como texto generado por máquina. Los textos han sido más generados por humanos y utilizan funciones de oraciones como emojis para hacer que los textos se sientan más personales e infundir un poco de emoción en el texto.
  • Por último, me gustaría destacar el nuevo logotipo dinámico que viene con GPT-4. El logo muestra cuán variable es este modelo y el dinamismo en sus posibles casos de uso. Creo que el logo tiene que ser una de las mejores identidades que se le da a un modelo.
  • verdades y mitos

    Representación visual del tamaño de GPT-4

    En algún momento durante la espera del lanzamiento de GPT-4, esta imagen estuvo circulando en Twitter. La imagen es una representación visual del tamaño rumoreado de GPT-4. La imagen muestra un aumento considerable en el tamaño de los parámetros del nuevo modelo en comparación con el tamaño de los parámetros utilizados en ChatGPT. Si bien la representación comunicada por esta imagen puede sonar innovadora, puede que no sea del todo cierta. Incluso el CEO de OpenAI ha desacreditado los rumores sobre el tamaño del modelo. No se ha publicado la documentación oficial de la arquitectura y el tamaño de los parámetros del modelo utilizados en el entrenamiento del modelo de lenguaje multimodal. Realmente no podemos decir si el enfoque utilizado para crear este modelo fue escalar los modelos anteriores o algún enfoque nuevo. Algunos expertos en IA argumentan que escalar no proporcionaría la inteligencia general que tanto necesita el mundo de la IA.

    OpenAI presentó las grandes fortalezas de GPT-4 en la generación de texto, pero ¿nos hemos molestado en preguntar qué tan buenos son los textos generados en comparación con algunos exámenes estándar? GPT-4, aunque se desempeñó bastante bien en algunos exámenes, falló en los exámenes que requerían un mayor nivel de razonamiento. El informe técnico publicado por Open AI mostró que GPT-4 siempre estuvo en el percentil 54 de la Redacción del Graduate Record Examination (GRE) para las dos versiones de GPT-4 que se lanzaron¹. Este examen es uno de los muchos exámenes que evalúan las habilidades de razonamiento y escritura de un graduado. Se puede decir que la generación de texto de GPT-4 es apenas tan buena como la de un graduado universitario, lo cual no está nada mal para una “computadora”. También podemos decir que a este modelo de lenguaje no le gustan las matemáticas, o mejor dicho, no le va bien en cálculo. Se desempeñó en el percentil 43 – 59 del examen AP Cálculo BC, que es bastante bajo en comparación con los puntajes de percentil altos observados en las contrapartes de Biología, Historia, Inglés, Química, Psicología y Estadística de la misma junta de examen. El modelo falla con niveles crecientes de dificultad. Los seres humanos todavía están en el escalón más alto del pensamiento por el momento.

    ¿Alguna vez se preguntó qué tan bien funcionan estos modelos de lenguaje en la codificación? Las habilidades de codificación GPT-4 se verificaron en algunas tareas de Leetcode. El desempeño general en las tareas fáciles fue bastante bueno, pero hay una disminución constante en su desempeño con un aumento en la dificultad de las tareas. También vale la pena señalar que el puntaje general de GPT-4 en las tareas de Leetcode es casi similar al de GPT-3. OpenAI definitivamente no lo hizo mejor esta vez o posiblemente no estaban tratando de convertir los modelos GPT en el próximo Github Copilot. Imagine una computadora que funciona mejor que un programador promedio en preguntas de codificación de entrevistas. ¡Loco!

    Si bien algunas funciones no experimentaron muchas mejoras en comparación con el modelo anterior, vale la pena señalar qué tan bien se desempeña el modelo en otras tareas.

    Conclusión

    Esta cuarta versión de GPT ha demostrado que no hay ningún límite en el alcance de los modelos de lenguaje, ya que estos modelos no son multimodales y pueden aceptar entradas que no sean textos. Esto podría verse como un presagio de funciones más avanzadas en las próximas versiones. Probablemente podríamos tener un modelo de lenguaje que funcione tan bien o incluso mejor que los modelos de visión artificial en tareas de reconocimiento de imágenes con las capacidades que muestra la comprensión de imágenes GPT-4. Poco a poco vamos avanzando hacia la Inteligencia Artificial General. Todavía queda un largo camino hasta allí, pero claramente tenemos una dirección y un sentido de hacia dónde nos dirigimos.

    Deja un comentario

    Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

    Scroll al inicio