Cero disparo, pocos disparos, un disparo Aprendizaje en PNL

Este artículo se centra en diferentes tipos de disciplinas de aprendizaje N-Short.

Fuente
  • Introducción
  • ¿Qué es el aprendizaje N-Shot?
  • ¿Qué es Zero-Shot Learning en primer lugar?
  • ¿Qué es el aprendizaje de pocos disparos?
  • ¿Qué es el aprendizaje de una sola vez?
  • Conclusión
  • Los modelos de lenguaje y el aprendizaje por transferencia han surgido como componentes clave de la PNL en los últimos años. Los transformadores del lenguaje como BERT han superado los límites de lo que es posible en la PNL. Se obtuvieron resultados fenomenales primero creando un modelo de palabras o incluso caracteres, y luego aplicando ese modelo a otras tareas como clasificación de temas, resumen de texto y respuesta a preguntas. También han dado a luz modelos como RoBERTA (más grande), DistilBERT (más pequeño) y XLM (multilingüe).

    El mercado de aprendizaje automático está dominado actualmente por algoritmos de aprendizaje supervisado, que requieren grandes conjuntos de datos etiquetados para lograr cualquier forma de generalización. La dependencia en conjuntos de datos de entrenamiento etiquetados es una limitación para muchas aplicaciones de aprendizaje supervisado. Uno de los mayores dilemas que encontramos es obtener datos etiquetados. Casi todos los modelos de clasificación de texto existentes requieren una gran cantidad de datos etiquetados. Cuando nos sorprendemos con AlphaGo o GPT-3 de DeepMind, olvidamos que fueron entrenados en todo el corpus de Wikipedia. ¿Cuántos escenarios pueden presumir de conjuntos de datos tan completos?

    La disponibilidad de grandes conjuntos de datos, con más de 1000 clases, acceso a GPU y computación en la nube, y los avances en el aprendizaje profundo han permitido el desarrollo de modelos de alta precisión para resolver problemas en una variedad de dominios. Estos modelos descritos anteriormente se pueden reutilizar para resolver problemas con datos similares mediante el aprendizaje por transferencia.

    La disponibilidad y el acceso a datos a gran escala para la formación es el requisito principal para el aprendizaje por transferencia. Esto no siempre es posible y algunos problemas del mundo real se ven obstaculizados por la falta de datos. Hay aproximadamente 9.000 especies conocidas de plantas con flores, por ejemplo. Uno de ellos es el Lirio Cadáver, la flor más grande del mundo. Debido a que esta es una planta rara, habrá muchas menos imágenes de ella en una tarea de clasificación de visión por computadora dada que de plantas con flores más comunes.

    Problemas a los que nos enfrentamos:

  • disponibilidad de datos, junto con otros desafíos como
  • tiempo de entrenamiento y
  • altos costos de infraestructura
  • Los métodos de aprendizaje profundo han evolucionado en los últimos años para intentar eliminar las dependencias en grandes conjuntos de datos de entrenamiento mediante el desarrollo de conocimientos basados ​​en algunos ejemplos de entrenamiento. Estos métodos se conocen colectivamente como aprendizaje N-shot.

    El aprendizaje N-shot (NSL) tiene como objetivo construir modelos utilizando el conjunto de entrenamiento, que consta de entradas y salidas. Por ejemplo, cuando le mostramos a un bebé diferentes imágenes de la misma persona, reconocerá a la misma persona en un mayor número de fotos. La imitación de esa habilidad ha llevado a dos desarrollos importantes en el espacio del aprendizaje profundo:

    Modelos que pueden aprender con mínima supervisión: En este grupo tenemos técnicas como el aprendizaje autosupervisado o semisupervisado.

    Modelos que pueden aprender con pequeños conjuntos de datos de entrenamiento: Las técnicas de aprendizaje N-shot entran en esta categoría.

    Este método se ha utilizado para resolver una amplia gama de problemas, incluido el reconocimiento de objetos, la clasificación de imágenes y la clasificación de sentimientos. Cuando se trata de tareas de clasificación, normalmente se considera la clasificación N-way-K-shot, en la que el tren contiene ejemplos I=KN de N-clases, cada uno con K-ejemplos.

    NSL se clasifica en tres tipos:

  • pocos disparos,
  • de una sola vez, y
  • tiro cero
  • Pocos disparos es la variante más adaptable, ya que solo requiere unos pocos puntos de datos para el entrenamiento, mientras que cero disparos es la más restrictiva y no requiere puntos de datos para el entrenamiento.

    El aprendizaje de disparo cero es una variante de aprendizaje de transferencia en la que no hay ejemplos etiquetados para aprender durante el entrenamiento. Este método utiliza información adicional para comprender datos nunca antes vistos. Con este método se aprenden tres variables. Estas son la variable de entrada x, la variable de salida y y la variable aleatoria T que describe la tarea. Como resultado, el modelo está entrenado para aprender la distribución de probabilidad condicional P(x|y,T).

    El aprendizaje de disparo cero se compone esencialmente de dos etapas:

  • Capacitación: Donde se captura el conocimiento sobre los atributos
  • Inferencia: el conocimiento se usa luego para categorizar instancias entre un nuevo conjunto de clases.
  • Por ejemplo, si se le pide a un niño que identifique un Yorkshire terrier, es posible que lo reconozca como un tipo de perro, con información adicional de Wikipedia.

    Contextualizando el aprendizaje Zero-Shot, es esencialmente aprender de un conjunto de etiquetas conocidas y luego evaluar un conjunto diferente de etiquetas que el clasificador nunca antes había visto.

    El aprendizaje de una sola vez permite el aprendizaje de modelos a partir de una única instancia de punto de datos. ¿Cómo se puede entrenar un modelo de aprendizaje profundo en un solo registro y generalizar un modelo de clasificación? Bueno, la respuesta está relacionada con el hecho de que las técnicas OSL se entrenan previamente en grandes conjuntos de datos y aprenden características clave que harán posible clasificar una nueva instancia de datos que solo se ha visto una vez antes.

    Esto permite que los modelos muestren un comportamiento de aprendizaje similar al humano. Un niño, por ejemplo, puede identificar fácilmente otra manzana después de observar la forma y el color general de una manzana. En humanos, esto podría lograrse con solo uno o dos puntos de datos. Esta capacidad es extremadamente útil para resolver problemas del mundo real en los que no siempre es posible acceder a una gran cantidad de puntos de datos etiquetados.

    El entrenamiento OSL se completa en dos etapas principales.

  • Primero se entrena al modelo en la tarea de verificación. Esta tarea alimenta pares de imágenes etiquetadas al modelo, que debe determinar si pertenecen a la clase ‘misma’ o ‘diferente’.
  • En segundo lugar, en el entorno de aprendizaje de una sola vez, las predicciones ‘igual/diferente’ se utilizan para identificar nuevas imágenes. Esto se logra tomando la máxima probabilidad ‘misma’ del modelo después de haber sido entrenado en la tarea de verificación.
  • Crédito de la imagen: Enlace

    Una red neuronal siamesa es un tipo de arquitectura de red neuronal compuesta por dos o más subredes idénticas. El término “idénticas” se refiere al hecho de que tienen la misma configuración con los mismos parámetros y pesos. Para calcular la diferencia entre las dos entradas, las dos subredes emiten una codificación. El objetivo de la red siamesa es utilizar una puntuación de similitud para determinar si dos entradas son iguales o diferentes.

    El aprendizaje de pocos disparos, también conocido como aprendizaje de disparos bajos, aprende una nueva tarea mediante el uso de un pequeño conjunto de ejemplos de nuevos datos. A primera vista, FSL es inmediatamente relevante para escenarios en los que grandes conjuntos de datos etiquetados no están disponibles.

    Un estudio de 2019 titulado «Aprendizaje de transferencia de meta para el aprendizaje de pocos disparos» abordó los desafíos que enfrentaron los entornos de pocos disparos. Desde entonces, el aprendizaje de pocos disparos también se conoce como un problema de metaaprendizaje.

    Aquí hay algunas situaciones que están impulsando su mayor adopción:

  • Cuando hay escasez de datos supervisados, los modelos de aprendizaje automático a menudo no logran generalizaciones confiables.
  • Cuando se trabaja con un gran conjunto de datos, etiquetar correctamente los datos puede resultar costoso.
  • Cuando hay varios ejemplos disponibles, agregar funciones específicas para cada tarea es arduo y difícil de implementar.
  • Enlace fuente

    El aprendizaje de transferencia y sus variantes, como el aprendizaje único y cero, tienen como objetivo abordar algunos de los desafíos fundamentales que se encuentran en las aplicaciones de aprendizaje automático, como la escasez de datos. La capacidad de la inteligencia artificial para aprender inteligentemente a partir de menos datos la hace similar al aprendizaje humano y allana el camino para una adopción más amplia.

    Gracias por leer !

    Seguir para más actualizaciones

    Deja un comentario

    Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

    Scroll al inicio