本文是对李宏毅老师的课程的总结,B站链接如下:
stable diffusion(1)概述
讲最经典的DDPM。

1. DDPM图像生成是一个多个step的去噪过程

DDPM是一个从噪声图像中通过不断去噪(经过很多个step),生成图像的过程。
“雕像本来就已经存在石头里,只是把多余的去掉。”
在这里插入图片描述
问题是,这么多个step用的是同一个去噪模型吗?是的!!!但是不同的step含有的噪声大小是不一样的,所以,去噪模型还需要知道是哪个step(噪声的大小程度)。
在这里插入图片描述

2. 去噪模型内部机制

(1)有一个噪声预测模型(Noise Predicter),输入时带有噪声的图片和当前的step代号,输出是该图片含有的噪声
(2)带有噪声的图片减去预测的噪声
在这里插入图片描述

3. 如何训练这个噪声预测模型

这个训练过程肯定需要当前这个step的噪声作为ground truth
在这里插入图片描述
这个ground truth其实是自己加的。这需要一个前向加噪的过程(扩散过程)。
在这里插入图片描述

4. 把文本加进来

需要图像文本对,LAION图像文本对5.85B

在这里插入图片描述
把文本输入到去噪模型中,让模型根据文本去噪。
在这里插入图片描述
把文本输入到去噪模型中,实际上也就是输入到噪声预测模型中.
在这里插入图片描述

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐