Stability AI发布Stable Cascade模型丨文生图再进化

发表于 2024-02-20

标记狮私有云部署

一键部署标记狮至私有服务器，构建快速，安全，高效，私密的UI设计团队云协作

Stability AI发布Stable Cascade模型2.jpg

近日，Stable Diffusion团队发布了新型的文本到图像生成模型Stable Cascade。这一模型在原有Stable Diffusion架构的基础上，采用了新的三阶段架构设计，在图像质量、训练效率等多个方面实现重大突破。

Stable Cascade由三个阶段组成：潜在生成器阶段、潜在解码器阶段一和二。第一阶段将文本转化为紧凑的24x24像素的潜在向量，后两个阶段则基于这些向量逐步重构高分辨率图像。这种分阶段设计大大降低了训练成本，同时也使得微调更加容易。

Stable Cascade生成的图像细节丰富，逼真度大幅提升，无论遵循提示词还是整体审美上都超越了旧模型，可以产生非常高质量的图像，分辨率可以达到2000x2000像素。人工评估中其表现远胜过Playground、SDXL、Dalle3等模型，弥补了旧模型易出现重复模式、细节不足的缺点。

使用同样的提示词（未添加负面提示词）：shot x2d, ultra realistic, high definition. Mother earth, beautiful long haired woman crying softly while Amazon rainforest is burning in the background. Dressed in green, elflike clothing with flowers in her hair holding a mini planet resembling earth.

对比不同的结果：

Stability AI发布Stable Cascade模型3.jpg

尽管参数量更大，但Stable Cascade的推理速度比SDXL还要快，模块化设计降低了训练成本，用户可以在更短时间内得到更高质量的生成结果。

Stable Cascade生成的图像可直接使用，不需上采样，支持图像变换和图像到图像生成，用户可以上传自己的图片进行修复、变形、超分辨率提升等操作。

为帮助研究人员进一步优化此模型，Stable Diffusion团队同时开源了Stable Cascade的训练、微调以及ControlNet和LoRA组件的代码。

你可以在下方非官方的demo地址中体验Stable Cascade

体验demo:https://huggingface.co/spaces/multimodalart/stable-cascade
项目地址：https://huggingface.co/stabilityai/stable-cascade/tree/main
pinokio本地部署：https://pinokio.computer/item?uri=https%3A%2F%2Fgithub.com%2Fcocktailpeanutlabs%2Fstablecascade