Autores: Bruno Mlodozeniec, Matthias Reisser, Christos Louizos
Resumen: Los hiperparámetros bien ajustados son cruciales para obtener un buen comportamiento de generalización en las redes neuronales. Pueden imponer sesgos inductivos apropiados, regularizar el modelo y mejorar el rendimiento, especialmente en presencia de datos limitados. En este trabajo, proponemos una forma simple y eficiente de optimizar hiperparámetros inspirados en la verosimilitud marginal, un objetivo de optimización que no requiere datos de validación. Nuestro método divide los datos de entrenamiento y un modelo de red neuronal en fragmentos de datos K y particiones de parámetros, respectivamente. Cada partición está asociada y optimizada solo en fragmentos de datos específicos. La combinación de estas particiones en subredes nos permite definir la pérdida «fuera de la muestra de entrenamiento» de una subred, es decir, la pérdida de fragmentos de datos que la subred no ve, como el objetivo de la optimización de hiperparámetros. Demostramos que podemos aplicar este objetivo para optimizar una variedad de hiperparámetros diferentes en una sola ejecución de entrenamiento y, al mismo tiempo, ser significativamente más baratos desde el punto de vista computacional que los métodos alternativos que apuntan a optimizar la probabilidad marginal de las redes neuronales. Por último, también nos enfocamos en optimizar los hiperparámetros en el aprendizaje federado, donde el reentrenamiento y la validación cruzada son particularmente desafiantes.
2. Optimización de hiperparámetros de funciones ortogonales en la solución numérica de ecuaciones diferenciales (arXiv)
Autor: Alireza Afzal Aghaei, Kourosh Parand
Resumen: Este artículo considera el problema de optimización de hiperparámetros de técnicas matemáticas que surgen en la solución numérica de ecuaciones diferenciales e integrales. Los conocidos enfoques grid y random search, de manera algorítmica paralela, se desarrollan para encontrar el conjunto óptimo de hiperparámetros. Empleando funciones racionales de Jacobi, ejecutamos estos algoritmos en dos ecuaciones diferenciales de referencia no lineales en el dominio semi-infinito. Las configuraciones contienen diferentes mapeos racionales junto con su parámetro de escala de longitud y los parámetros de las funciones de Jacobi. Estos ensayos están configurados en la regresión de vector de soporte de mínimos cuadrados de colocación (CLS-SVR), un nuevo enfoque de simulación numérica basado en métodos espectrales. Además, hemos abordado la sensibilidad de estos hiperparámetros sobre la estabilidad numérica y la convergencia del modelo CLS-SVR. Los experimentos muestran que esta técnica puede mejorar efectivamente los resultados de última generación.
[post_relacionado id=»1659″]