Stable Diffusion是一个基于深度学习的图像生成模型,其推理框架主要包括三个组件:自编码器(VAE)、U-Net和文本编码器。
1. 自编码器(VAE):用于将输入图像压缩成潜在空间表示,然后再从潜在空间中解码出生成图像。
2. U-Net:是一种用于图像分割和图像修复的深度学习模型,可以用于从输入图像中提取特征,并将其与潜在空间表示进行融合,以生成最终的生成图像。
3. 文本编码器:用于将文本提示转换为文本嵌入,然后将文本嵌入与潜在空间表示进行融合,以生成最终的生成图像。
在推理过程中,Stable Diffusion使用LAION-5B数据集中的部分高清图片进行训练,并将训练得到的模型应用于生成图像的推理。此外,该模型还使用了一个冻结的CLIP ViT-L/14 text encoder进行文本提示的条件设置。
经过飞桨框架的算子融合引擎处理,Stable Diffusion模型中U-Net模型的算子数量减少60%,显存占用下降27%。同时,针对ERNIE-ViLG 2.0文心AI作画大模型,飞桨框架提供了推理workspace复用技术,使ERNIE-ViLG 2.0模型显存占用下降37%,极大降低了ERNIE-ViLG 2.0文心AI作画大模型的部署成本。基于飞桨原生推理库Paddle Inference的高性能架构设计,结合上述优
化点,飞桨Stable Diffusion模型能实现在单卡80G A100(SXM4)上,512*512分辨率生成图像(50 iters)推理时延0.76s,推理速度达到68.2 iters/s,显存占用4.6G,显存占用方面和速度方面均为当前业界最优效果。