Trabajar con codificadores automáticos variacionales, parte 1 (aprendizaje automático)

  • DAVA: desenredar el autocodificador variacional adversario (arXiv)
  • Autor: Benjamin Estermann, Roger Wattenhofer

    Resumen: El uso de representaciones bien desenredadas ofrece muchas ventajas para las tareas posteriores, por ejemplo, una mayor eficiencia de la muestra o una mejor interpretabilidad. Sin embargo, la calidad de las interpretaciones desenredadas a menudo depende en gran medida de la elección de los hiperparámetros específicos del conjunto de datos, en particular, la fuerza de regularización. Para abordar este problema, presentamos DAVA, un procedimiento de entrenamiento novedoso para codificadores automáticos variacionales. DAVA alivia por completo el problema de la selección de hiperparámetros. Comparamos DAVA con modelos con hiperparámetros óptimos. Sin ningún ajuste de hiperparámetro, DAVA es competitivo en una amplia gama de conjuntos de datos de uso común. Detrás de DAVA, descubrimos una condición necesaria para el desenredo no supervisado, que llamamos PIPE. Demostramos la capacidad de PIPE para predecir positivamente el rendimiento de los modelos posteriores en el razonamiento abstracto. También investigamos a fondo las correlaciones con las métricas supervisadas y no supervisadas existentes. El código está disponible en https://github.com/besterma/dava

    2. Imputación de datos de rastreo de conocimiento con capacitación basada en sujetos a través de marcos de codificadores automáticos variacionales LSTM (arXiv)

    Autor: Jia Tracy Shen, Dongwon Lee

    También te puede interesar5 formas de aprender a escribir mensajes efectivos de ChatGPT para obtener las mejores respuestas de IA

    Resumen: El problema de los datos faltantes plantea un gran desafío para impulsar el rendimiento y la aplicación de modelos de aprendizaje profundo en el problema {em Knowledge Tracing} (KT). Sin embargo, ha habido una falta de comprensión sobre el tema en la literatura. No existen suficientes estudios que aborden este problema. En este trabajo, para abordar este desafío, adoptamos un método de capacitación basado en materias para dividir e imputar datos por ID de estudiante en lugar de dividir el número de fila, lo que llamamos capacitación no basada en materias. El beneficio de la capacitación basada en materias puede retener la secuencia completa para cada estudiante y, por lo tanto, lograr una capacitación eficiente. Además, aprovechamos dos marcos generativos profundos existentes, a saber, marcos de codificadores automáticos variacionales (VAE) y codificadores automáticos variacionales longitudinales (LVAE) y construimos kernels LSTM en ellos para formar modelos LSTM-VAE y LSTM LVAE (conocidos como VAE y LVAE por simplicidad) para generar datos de calidad En LVAE, se entrena un modelo de proceso gaussiano (GP) para desentrañar la correlación entre la información del descriptor del sujeto (es decir, el estudiante) (por ejemplo, edad, sexo) y el espacio latente. El documento finalmente compara el rendimiento del modelo entre el entrenamiento de los datos originales y el entrenamiento de los datos imputados con los datos generados del modelo VAE-NS no basado en sujetos y los modelos de entrenamiento basados ​​en sujetos (es decir, VAE y LVAE). Demostramos que los datos generados por LSTM-VAE y LSTM-LVAE pueden aumentar el rendimiento del modelo original en aproximadamente un 50 %. Además, el modelo original solo necesita un 10 % más de datos de los estudiantes para superar el rendimiento original si el modelo de predicción es pequeño y un 50 % más de datos si el modelo de predicción es grande con nuestros marcos propuestos.

    [post_relacionado id=»1817″]

    Scroll al inicio