stablediffusion推理框架

来源：测品娱乐

Stable Diffusion是一个基于深度学习的图像生成模型，其推理框架主要包括三个组件：自编码器（VAE）、U-Net和文本编码器。

1. 自编码器（VAE）：用于将输入图像压缩成潜在空间表示，然后再从潜在空间中解码出生成图像。

2. U-Net：是一种用于图像分割和图像修复的深度学习模型，可以用于从输入图像中提取特征，并将其与潜在空间表示进行融合，以生成最终的生成图像。

3. 文本编码器：用于将文本提示转换为文本嵌入，然后将文本嵌入与潜在空间表示进行融合，以生成最终的生成图像。

在推理过程中，Stable Diffusion使用LAION-5B数据集中的部分高清图片进行训练，并将训练得到的模型应用于生成图像的推理。此外，该模型还使用了一个冻结的CLIP ViT-L/14 text encoder进行文本提示的条件设置。

经过飞桨框架的算子融合引擎处理，Stable Diffusion模型中U-Net模型的算子数量减少60%，显存占用下降27%。同时，针对ERNIE-ViLG 2.0文心AI作画大模型，飞桨框架提供了推理workspace复用技术，使ERNIE-ViLG 2.0模型显存占用下降37%，极大降低了ERNIE-ViLG 2.0文心AI作画大模型的部署成本。基于飞桨原生推理库Paddle Inference的高性能架构设计，结合上述优

化点，飞桨Stable Diffusion模型能实现在单卡80G A100(SXM4)上，512*512分辨率生成图像(50 iters)推理时延0.76s，推理速度达到68.2 iters/s，显存占用4.6G，显存占用方面和速度方面均为当前业界最优效果。

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文