Esta serie de artículos le presentará todo lo que necesita saber sobre los modelos generativos más populares del día. (Juro solemnemente ser ligero con las Matemáticas, pero proporcionaré referencias para aquellos interesados en ellas). ¡Comencemos!

Después de un gran éxito de otros modelos generativos, como GAN, VAE, flujos de normalización y transformadores durante más de una década, los modelos probabilísticos de difusión de eliminación de ruido (o DDPM para abreviar) gobiernan el día. Propuestos originalmente en 2015, han recibido el debido reconocimiento después de las modificaciones de 2020. Esta serie cubrirá los siguientes temas:
Parte 1: Principios fundamentales de los DDPM (¡Usted está aquí!)
Parte 2: Speed-Ups: Difusión Latente/Estable, Modelos de Consistencia, Difusión-GAN.
Parte 3: Condicionamiento de los modelos de difusión
Parte 4: Aplicaciones y Generalización de los Modelos de Difusión
Definición estadística: “La difusión es el proceso de transformar una distribución compleja en una predefinida más simple”
Para aquellos a quienes les gusta entregarse al lado probabilístico de las cosas, el proceso de difusión podría describirse como un Proceso de Markov/Cadena de Markoves decir un proceso estocástico donde la probabilidad del estado/evento actual depende únicamente del estado alcanzado en el evento anterior. Un ejemplo de una cadena de Markov:
Ahora imagine que pasar de un estado al siguiente consiste en agregar un ruido gaussiano a una imagen perfectamente buena, hasta que finalmente todo lo que queda es solo ruido. Et voilà — aquí está nuestro difusión hacia adelante proceso:
Para aquellos de ustedes que tocaron el procesamiento de señales en algún momento de su carrera, puede parecerles inquietantemente familiar: fórmulas de ruido a señal y demás. En este caso, la imagen puede interpretarse vagamente como señal o media, y el ruido es, bueno, — ruido o la varianza, y β — relación de difusión, o intuitivamente la velocidad a la que la imagen se convierte en ruido. Dado un β lo suficientemente pequeño (un proceso de difusión gradual), la distribución es casi una gaussiana isotrópica.
Curiosamente, aunque quizás no sea muy sorprendente, agregar ruido gaussiano a una imagen muchas, muchas veces da como resultado… ruido gaussiano. Matemáticamente, se puede llegar a esta conclusión mediante el truco de la reparametrización junto con la llamada Nice Property. O, en términos más estadísticos, la suposición gaussiana y el teorema del límite central. Si está interesado en las derivaciones reales detrás de esto, consulte esta maravillosa publicación de blog de la brillante Lilian Weng.
En la práctica, significa que el ruido es aditivo, y podemos omitir tantos pasos como queramos para avanzar y entrar directamente en el espacio de píxeles latentes:
En este punto, hemos logrado convertir una imagen perfectamente buena en un ruido. Felicidades – difusión hacia adelante se logra!
Da la casualidad de que el proceso de interés es en realidad la difusión inversa:
Si el proceso inverso fuera fácil de calcular, este problema sería matemático y no tendría nada que ver con el aprendizaje automático (ML se trata de aproximaciones y optimizaciones). Pero afortunadamente –
La difusión inversa resulta ser intratable. Para predecir la versión menos ruidosa de la imagen basada en la más ruidosa de forma probabilística, necesitaríamos conocer la verdadera distribución de la totalidad de los datos. (Es un poco como saber la posición exacta de cada átomo en el mundo).
Explicación pictórica de la difusión hacia adelante:
Ahora para el difusión inversasi realmente quisieras resolver el rompecabezas de Peter Parker, probablemente tendrías que saber con certeza qué es exactamente [each value of the noisy pixel space maps to in an image] cómo cada copo de polvo contribuye a la integridad estructural de Peter, de hecho, tendrías que saber cómo se construyen exactamente los Spiderman, es decir, la distribución completa del universo:
Es fácil ver que lo contrario es una tarea mucho más complicada. Ahora para nuestros Infinity Stones…
No podemos calcular la difusión inversa, pero podemos aproximarla a través de una distribución paramétrica.
Lo hacemos entrenando una U-Net para predecir un solo paso de eliminación de ruido a la vez. Se supone que repetir esto de manera iterativa genera una imagen a partir del ruidoso espacio de píxeles. En la fórmula anterior pag es un modelo paramétrico (distribución parametrizada estimada), U-Net, de las imágenes menos ruidosas, i son los parámetros de una U-Net tan entrenada, también podrías pensar en metro como una señal o una imagen que ha de ser descubierta y S como un ruido a ser eliminado.
Por lo tanto, convencionalmente un solo paso de eliminación de ruido (de ~1000) tiene el siguiente aspecto:
Entonces, originalmente al entrenar, como no se puede calcular la probabilidad logarítmica negativa, tendríamos que minimizar el siguiente límite superior variacional:
Sin embargo, más adelante se ha descubierto que en realidad es mucho más fácil predecir el ruido en sí mismo para luego sustraerlo de la imagen ruidosa, por lo que la función de pérdida tiene ahora una forma simplificada diferente:
Y el paso final de eliminación de ruido U-Net se parece un poco a esto:
Lo que repetido ~ 1000 veces «elimina el ruido» o más realmente genera una imagen. ¡Felicidades! hemos terminado con el eliminación de ruido proceso de difusión.
Ahora que entendemos cómo funcionan los DDPM, es un buen momento para descubrir cómo se comparan con otros modelos generativos.
Evidentemente, a partir de la imagen de arriba, los DDPM, al igual que los flujos de normalización, por defecto no estaban equipados con el cuello de botella para reducir el tamaño del modelo en sí. U-Net solucionó parcialmente este problema. Aún así, cuando se trata del trilema del modelo generativo, los DDPM aterrizan en gran medida en el lado más lento:
Se dedicaron muchos esfuerzos a acelerarlos, y cubriremos algunos de los modelos resultantes en el próximo artículo de la serie, incluidos los famosos modelos de difusión estable.
¡Gracias por leer!