Stability AI发布Stable Diffusion 3模型预览版

发表于 2024-02-22

标记狮私有云部署

一键部署标记狮至私有服务器，构建快速，安全，高效，私密的UI设计团队云协作

Stability AI发布Stable Diffusion 3模型预览版2.jpg

过去一年中，Stability AI不断迭代更新，发布了多代图像生成模型，每个新版本的模型精细度和生成质量都有不同程度的提升。特别是在2023年7月发布的SDXL模型，相比之前的版本有了显著的进步。现在，Stability AI又发布了Stable Diffusion 3，这一新版本模型的目标是实现文本到图像生成的再次革新。Stable Diffusion 3目前还在内测。

Stable Diffusion 3采用了一种全新的架构，即“扩散变换器”。这种架构类似OpenAI最近发布的Sora模型所采用的结构。CEO Emad Mostaque表示，相比原始的Stable Diffusion，Stable Diffusion 3可以看作是真正的下一代继任者。

与此同时，Stability AI还在各种图像生成方法上进行着试验和创新。本月初，他们发布了一款基于Würstchen架构的“Stable Cascade”模型预览版。而Stable Diffusion 3则采用了扩散变换器这一不同的新方向。值得一提的是，在Stable Diffusion系列模型中，这还是首次引入了变换器(Transformer)。我们知道，变换器是当今许多生成AI模型的基础，主要应用于文本生成领域，而在图像生成领域，扩散模型一直占主导地位。Stable Diffusion 3采用的扩散变换器(DiTs)，可以更高效利用计算资源，性能也优于传统的扩散模型。

另一个重要创新就是流匹配(flow matching)技术。该技术可以更快速有效地训练连续正态流(CNFs)，以拟合复杂的数据分布，相比传统的扩散路径，采样效率也有了很大提升。

Stability AI发布Stable Diffusion 3模型预览版3.png

在图像生成质量方面，Stable Diffusion 3也有显著提升，特别是在文字生成和排版方面。新的模型内置了额外的文本编码器，可以生成更加连贯、符合语法的句子，正确拼写的比例也有了很大进步。这解决了早期版本Stable Diffusion的一个明显弱点。

Stability AI发布Stable Diffusion 3模型预览版4.png

尽管目前Stable Diffusion 3主要以文本到图像生成为主，但Stability AI表示，这一模型系列未来将支持视频、3D生成等更多应用，是他们下一代视觉AI技术发展的基石。

https://stability.ai/news/stable-diffusion-3