Autor: Naoya Onizawa, Kyo Kuroki, Duckgyu Shin, Takahiro Hanyu
Resumen: Este artículo presenta una distribución local de energía basada en la determinación de hiperparámetros para el recocido estocástico simulado (SSA). SSA es capaz de resolver problemas de optimización combinatoria más rápido que el típico recocido simulado (SA), pero requiere una búsqueda de hiperparámetros que requiere mucho tiempo. El método propuesto determina hiperparámetros basados en las distribuciones locales de energía de espines (bits probabilísticos). El giro es un elemento informático básico de SSA y está conectado gráficamente a otros giros con sus pesos. La distribución de la energía local se puede estimar en base al teorema del límite central (CLT). La distribución normal basada en CLT se utiliza para determinar los hiperparámetros, lo que reduce la complejidad del tiempo para la búsqueda de hiperparámetros de O(n³) del método convencional a O(1). El rendimiento de SSA con los hiperparámetros determinados se evalúa en los puntos de referencia Gset y K2000 para problemas de corte máximo. Los resultados muestran que el método propuesto alcanza valores de corte medios de aproximadamente el 98% de los valores de corte más conocidos.
2. PED-ANOVA: cuantificación eficiente de la importancia del hiperparámetro en subespacios arbitrarios (arXiv)
Autor: Shuhei Watanabe, Archit Bansal, Frank Hutter
También te puede interesarCasos de uso de hiperparámetros parte 1 (aprendizaje automático)Resumen: El reciente aumento de la popularidad de la optimización de hiperparámetros (HPO) para el aprendizaje profundo ha destacado el papel que puede desempeñar un buen diseño de espacio de hiperparámetros (HP) en el entrenamiento de modelos sólidos. A su vez, diseñar un buen espacio de HP depende de manera crítica de comprender el papel de los diferentes HP. Esto motiva la investigación sobre la importancia de HP (HPI), por ejemplo, con el método popular de ANOVA funcional (f-ANOVA). Sin embargo, la formulación original de f-ANOVA no es aplicable a los subespacios más relevantes para los diseñadores de algoritmos, como los definidos por el máximo rendimiento. Para superar este problema, derivamos una formulación novedosa de f-ANOVA para subespacios arbitrarios y proponemos un algoritmo que utiliza la divergencia de Pearson (PED) para permitir un cálculo de forma cerrada de HPI. Demostramos que este nuevo algoritmo, denominado PED-ANOVA, puede identificar con éxito HP importantes en diferentes subespacios y, al mismo tiempo, es extremadamente eficiente desde el punto de vista computacional.
[post_relacionado id=»1599″]