Una inmersión rápida en los modelos de difusión. Parte 1: Fundamentos de los DDPM.

Esta serie de artículos le presentará todo lo que necesita saber sobre los modelos generativos más populares del día. (Juro solemnemente ser ligero con las Matemáticas, pero proporcionaré referencias para aquellos interesados ​​en ellas). ¡Comencemos!

María Yegórova
Crédito del vídeo: Alinee sus latentes: síntesis de video de alta resolución con modelos de difusión latente

Después de un gran éxito de otros modelos generativos, como GAN, VAE, flujos de normalización y transformadores durante más de una década, los modelos probabilísticos de difusión de eliminación de ruido (o DDPM para abreviar) gobiernan el día. Propuestos originalmente en 2015, han recibido el debido reconocimiento después de las modificaciones de 2020. Esta serie cubrirá los siguientes temas:

Parte 1: Principios fundamentales de los DDPM (¡Usted está aquí!)

Parte 2: Speed-Ups: Difusión Latente/Estable, Modelos de Consistencia, Difusión-GAN.

Parte 3: Condicionamiento de los modelos de difusión

Parte 4: Aplicaciones y Generalización de los Modelos de Difusión

Definición estadística: “La difusión es el proceso de transformar una distribución compleja en una predefinida más simple”

La idea detrás de los DDPM es aprender a «recuperar» una imagen de un espacio de píxeles ruidoso de manera iterativa.

Para aquellos a quienes les gusta entregarse al lado probabilístico de las cosas, el proceso de difusión podría describirse como un Proceso de Markov/Cadena de Markoves decir un proceso estocástico donde la probabilidad del estado/evento actual depende únicamente del estado alcanzado en el evento anterior. Un ejemplo de una cadena de Markov:

Ahora imagine que pasar de un estado al siguiente consiste en agregar un ruido gaussiano a una imagen perfectamente buena, hasta que finalmente todo lo que queda es solo ruido. Et voilà — aquí está nuestro difusión hacia adelante proceso:

Para aquellos de ustedes que tocaron el procesamiento de señales en algún momento de su carrera, puede parecerles inquietantemente familiar: fórmulas de ruido a señal y demás. En este caso, la imagen puede interpretarse vagamente como señal o media, y el ruido es, bueno, — ruido o la varianza, y β — relación de difusión, o intuitivamente la velocidad a la que la imagen se convierte en ruido. Dado un β lo suficientemente pequeño (un proceso de difusión gradual), la distribución es casi una gaussiana isotrópica.

Curiosamente, aunque quizás no sea muy sorprendente, agregar ruido gaussiano a una imagen muchas, muchas veces da como resultado… ruido gaussiano. Matemáticamente, se puede llegar a esta conclusión mediante el truco de la reparametrización junto con la llamada Nice Property. O, en términos más estadísticos, la suposición gaussiana y el teorema del límite central. Si está interesado en las derivaciones reales detrás de esto, consulte esta maravillosa publicación de blog de la brillante Lilian Weng.

En la práctica, significa que el ruido es aditivo, y podemos omitir tantos pasos como queramos para avanzar y entrar directamente en el espacio de píxeles latentes:

En este punto, hemos logrado convertir una imagen perfectamente buena en un ruido. Felicidades – difusión hacia adelante se logra!

Da la casualidad de que el proceso de interés es en realidad la difusión inversa:

Si el proceso inverso fuera fácil de calcular, este problema sería matemático y no tendría nada que ver con el aprendizaje automático (ML se trata de aproximaciones y optimizaciones). Pero afortunadamente –

La difusión inversa resulta ser intratable. Para predecir la versión menos ruidosa de la imagen basada en la más ruidosa de forma probabilística, necesitaríamos conocer la verdadera distribución de la totalidad de los datos. (Es un poco como saber la posición exacta de cada átomo en el mundo).

Explicación pictórica de la difusión hacia adelante:

Difusión hacia adelante: No parece importar cómo se sacude o se hace ruido a Peter Parker.

Ahora para el difusión inversasi realmente quisieras resolver el rompecabezas de Peter Parker, probablemente tendrías que saber con certeza qué es exactamente [each value of the noisy pixel space maps to in an image] cómo cada copo de polvo contribuye a la integridad estructural de Peter, de hecho, tendrías que saber cómo se construyen exactamente los Spiderman, es decir, la distribución completa del universo:

Difusión inversa: volver a ensamblar algo a partir del ruido es mucho más difícil porque está mapeando desde una distribución supuestamente más simple a una más compleja.

Es fácil ver que lo contrario es una tarea mucho más complicada. Ahora para nuestros Infinity Stones…

No podemos calcular la difusión inversa, pero podemos aproximarla a través de una distribución paramétrica.

Lo hacemos entrenando una U-Net para predecir un solo paso de eliminación de ruido a la vez. Se supone que repetir esto de manera iterativa genera una imagen a partir del ruidoso espacio de píxeles. En la fórmula anterior pag es un modelo paramétrico (distribución parametrizada estimada), U-Net, de las imágenes menos ruidosas, i son los parámetros de una U-Net tan entrenada, también podrías pensar en metro como una señal o una imagen que ha de ser descubierta y S como un ruido a ser eliminado.

Por lo tanto, convencionalmente un solo paso de eliminación de ruido (de ~1000) tiene el siguiente aspecto:

U-Net toma una imagen ruidosa y devuelve una imagen menos ruidosa (o, a veces, ambas, la imagen y el ruido en sí).

Entonces, originalmente al entrenar, como no se puede calcular la probabilidad logarítmica negativa, tendríamos que minimizar el siguiente límite superior variacional:

Sin embargo, más adelante se ha descubierto que en realidad es mucho más fácil predecir el ruido en sí mismo para luego sustraerlo de la imagen ruidosa, por lo que la función de pérdida tiene ahora una forma simplificada diferente:

La prueba detrás de esto se puede encontrar aquí una vez más.

Y el paso final de eliminación de ruido U-Net se parece un poco a esto:

Credito de imagen: Tutorial de CVPR 2022: Eliminación de ruido Modelado generativo basado en difusión: fundamentos y aplicaciones

Lo que repetido ~ 1000 veces «elimina el ruido» o más realmente genera una imagen. ¡Felicidades! hemos terminado con el eliminación de ruido proceso de difusión.

Ahora que entendemos cómo funcionan los DDPM, es un buen momento para descubrir cómo se comparan con otros modelos generativos.

Comparación de arquitecturas generativas. Crédito de la imagen: Lilian Weng

Evidentemente, a partir de la imagen de arriba, los DDPM, al igual que los flujos de normalización, por defecto no estaban equipados con el cuello de botella para reducir el tamaño del modelo en sí. U-Net solucionó parcialmente este problema. Aún así, cuando se trata del trilema del modelo generativo, los DDPM aterrizan en gran medida en el lado más lento:

Crédito de la imagen: Abordar el trilema del aprendizaje generativo con GAN de difusión de eliminación de ruido Xiao et. Alabama.

Se dedicaron muchos esfuerzos a acelerarlos, y cubriremos algunos de los modelos resultantes en el próximo artículo de la serie, incluidos los famosos modelos de difusión estable.

¡Gracias por leer!

Credito de imagen: Estabilidad-IA

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio