华为推出 PixArt-Σ 模型生成4K 高清图像

标记狮私有云部署
一键部署标记狮至私有服务器,构建快速,安全,高效,私密的UI设计团队云协作

华为推出 PixArt-Σ 模型生成4K 高清图像1.jpg

华为诺亚方舟实验室携手多家国内高校的研究团队,近日推出了 PixArt 家族的最新力作——PixArt-Σ(Sigma)文本到图像模型。该模型在此前 PixArt-α(Alpha)和 PixArt-δ(Delta)研究成果的基础上,进一步提升了生成图像的质量、文本提示的准确性以及训练数据的处理效率。PixArt-Σ 最突出的特点是其生成图像的超高分辨率。

有了 PixArt-Σ,你可以轻松获得高达 3840 x 2560 像素的超清大图,而且无需借助额外的放大器。相比之前 PixArt 模型只能生成 1024 x 1024 的图像,这次的提升可以说是质的飞跃。当然,生成更高分辨率的图像也对算力提出了更高的要求。为此,研究人员别出心裁,采用了一种"由弱到强"的训练策略,通过巧妙的微调技术,实现了从低阶模型到高阶模型的高效过渡。

华为推出 PixArt-Σ 模型生成4K 高清图像5 1.jpg

尽管 PixArt-Σ 的参数量相对较少,约为 6 亿,但其在图像质量和文本提示匹配能力上已经全面超越了 SDXL、SD Cascade 等开源模型。如果你想训练一个与 PixArt-α 类似的 1K 分辨率模型,使用 PixArt-Σ 仅需原来九分之一的 GPU 训练时间。

华为推出 PixArt-Σ 模型生成4K 高清图像3.png

研究人员表示,PixArt-Σ 生成的图像质量已经可以与 Adobe Firefly 2、谷歌 Imagen 2、OpenAI DALL-E 3、Midjourney v6 等商业模型相媲美。不过从目前公开的样图来看,PixArt-Σ 在文本生成方面的表现似乎还不够突出。这主要是因为该模型的训练重点在于高分辨率图像,在文本生成领域可能还需要进一步发力才能追赶上 Stable Diffusion、Midjourney 等模型。

华为推出 PixArt-Σ 模型生成4K 高清图像4.png

PixArt-α 最终以开源形式发布,但 PixArt-Σ 是否也会如此目前尚不确定。

标记狮私有云部署
一键部署标记狮至私有服务器,构建快速、安全、高效、私密的UI设计团队云协作
立即部署>>
标记狮私有云部署-一键部署标记狮至私有服务器,构建快速,安全,高效,私密的UI设计团队云协作