5秒出4张2K大图!阿里提出2步生成方案,拉爆AI生图进度条
创始人
2026-01-30 21:38:02
0

允中 发自 凹非寺

量子位 | 公众号 QbitAI

AI生成一张图片,你愿意等多久?

在主流扩散模型还在迭代中反复“磨叽”、让用户盯着进度条发呆时,阿里智能引擎团队直接把进度条“拉爆”了——

5秒钟,到手4张2K级高清大图。

针对Qwen最新开源模型,将SOTA压缩水平从80-100步前向计算,骤降至2步(Step),速度提升整整40倍

这意味着,此前像Qwen-Image这样需要近一分钟才能吐出来的一张图片,现在真的成了“眨眼之间”。

目前,团队已将相应的Checkpoint发布至HuggingFace和ModelScope平台,欢迎开发者下载体验:

  • HuggingFace:https://huggingface.co/Wuli-art/Qwen-Image-2512-Turbo-LoRA-2-Steps

  • ModelScope:https://www.modelscope.cn/models/Wuli-Art/Qwen-Image-2512-Turbo-LoRA-2-Steps

同时,该模型已经集成到呜哩AI平台上(https://www.wuli.art)支持调用。

上述这种近乎“物理外挂”般的蒸馏方案,究竟是怎么做到的?一起来看。

传统轨迹蒸馏的“细节困境”

早期的蒸馏方案[1,2],往往可以被归纳为轨迹蒸馏(Trajectory Distillation)

具体来看,其本身主要思想是希望蒸馏后模型(student model)能够模仿原模型(teacher model)在多步生成的路径:

  • Progressive Distillation:student model需要直接对齐teacher model多次迭代后的输出;

  • Consistency Distillation:student model需要保证在teacher model的去噪轨迹上,输出相同的结果。

但在实践中,这类方法很难在低迭代步数下实现高质量生成。最突出的问题是生成图像模糊,这一现象在近期研究[3]中也得到了验证:

问题根源在于约束方式:轨迹蒸馏直接对student model的生成样本做约束,使其在特定距离度量下对齐teacher预测出的高质量输出,具体可以表达为:

其中是特定的距离函数,是teacher经过多次去噪以后得到的输出。

可以看出,这一Loss对所有图像patch一视同仁,对于一些特别细节的部分(如文字、人物五官)因占比低而学习不充分,student模型的细节常出现明显扭曲。

从样本空间到概率空间,直接降低缺陷样本生成概率

近期,基于概率空间的蒸馏方案,在较少步数场景(4~8步)获得了巨大的成功,基本解决了上述的细节丢失问题。

其中最有影响力的工作之一是DMD2算法,这里具体的算法方案可以参考原论文[4]。

DMD2将约束从样本空间转换到了概率空间,其Loss设计为:

这是典型的Reverse-KL的蒸馏Loss,其本身有一个显著的特性:

,如果,那就会有

这意味着:对于student model生成的每一张图片,如果它不符合真实图片分布(),就会导致Loss爆炸。

因此,DMD2这类算法的本质思想是——不直接告诉student“应该模仿什么”,而是让student自己生成图片,然后让teacher model指导“哪里不对”

这种Reverse-KL Loss的设计,可以显著提升生成图片的细节性和合理性,已经成为当下扩散步数蒸馏的主要策略。

热启动缓解分布退化

尽管Reverse-KL可以显著降低不合理样本的生成概率,其本身也存在着严重的mode-collapse和分布过于锐化的问题[5]。

具体表现在多样性降低,饱和度增加,形体增加等问题上。这些问题在2步蒸馏的设定下变得尤为突出。

为了缓解分布退化问题,常见做法是给模型一个更合理的初始化[6]。在这里该团队使用PCM[7]蒸馏进行模型热启动。

实验表明,热启动后的模型的形体扭曲问题得到明显改善。

左图为直接dmd训练,右图为经过PCM热启动后的2步模型,更好的初始化可以降低不合理构图对抗学习引入真实数据先验

如上所述,DMD2本质上是“学生生成—>教师指导”,蒸馏过程不依赖真实数据,这种做法有优有劣:

  • 优势:极大提升方案普适性(高质量真实数据难获取);

  • 局限:设定了天然上限——student永远学习teacher的生成分布,无法超越teacher。

同时由于loss设计的问题,DMD2蒸馏在高质量细节纹理(如苔藓、动物毛发等)上生成的效果,往往差强人意,如下图所示。

左图为Z-Image 50步生成,右图为Z-Image-Turbo 8步生成,在苔藓细节纹理上DMD2不够细腻

为了增强2步student model在细节上的表现能力,阿里智能引擎团队引入了对抗学习(GAN)来进一步提升监督效果。

GAN的Loss可以拆解为:

生成Loss(让生成图骗过判别器):

判别Loss(区分真假图):

这里是student生成的图片,是训练集中引入的真实数据,是判别器根据输入样本判断其为真实数据的概率。

简单来说,对抗训练一方面需要判别器尽可能判定student model生成的图片为假,另一方面需要student model尽可能欺骗判别器。

为了提升对抗训练的稳定性和效果,该团队做了如下改进:

  1. 真实数据混合策略:按固定比例混合高质量真实数据和teacher生成图,提升泛化度和训练稳定性;

  2. 特征提取器引入:使用额外的DINO模型作为feature extractor,提供更鲁棒的特征表示;

  3. Loss权重调整:增加对抗训练在loss中的占比。

经实验验证,增加对抗训练后,student model的画面质感和细节表现发生显著提升:

增加GAN显著提升画面真实性和细节从应用效果出发,细节决定成败

极少步数扩散生成一直是一个重要的方向。

然而,单一算法方案受限于其本身的原理设计,往往不尽如人意。

阿里巴巴智能引擎团队正是从落地效果出发,逐个发现并分析蒸馏带来的效果问题(如扭曲、纹理确实),并针对性解决,才能使得最后的2步生成模型,最终达到工业场景可落地的水准。

然而,尽管在大多数场景下Wuli-Qwen-Image-Turbo能够和原模型比肩;但在一些复杂场景下,受限于去噪步数,仍存在可改进空间。团队在后续的release中将会持续发布速度更快、效果更好的生成模型。

接下来,他们将持续推出,并迭代更多扩散加速技术,并开源模型权重。

而以上这些突破的背后,离不开他们长期以来的深厚积淀——

作为阿里AI工程系统的建设者与维护者,团队聚焦于大模型全链路工程能力建设,持续优化研发范式,专注大模型训推性能优化、引擎平台、Agent应用平台等关键组件,致力于为阿里集团各业务提供高效稳定的AI工程基础设施。

智能引擎团队始终坚持开放共享的技术文化,此前已贡献了包括Havenask、RTP-LLM、DiffSynth-Engine、XDL、Euler、ROLL等在内的多项优秀开源项目。

未来,他们期待与开源社区共同成长,希望将更先进的工程能力转化为触手可及的创作工具。

该团队所有技术后续都会同步在呜哩AI平台上线,无论你是专业设计师、内容创作者,还是AI爱好者,呜哩或许都能让你的创意即刻成像。

相关内容

热门资讯

2026年企业级GEO工具选型... 引言:当8成决策转移至AI,你的品牌是否正在“隐形”? 2026年,一个不容置疑的现实是:消费者的决...
工业互联网智能交互系统设计 引言:在工业 4.0 与数字化转型深度融合的浪潮下,工业互联网已成为重构制造业生产模式、优化产业生态...
体检单上的甲状腺结节,藏着这些... 太原龙城中医医院科普:每次体检后,不少人都会拿着载有“甲状腺结节”的报告单陷入迷茫,有人觉得没症状就...
新能源企业开年扎堆赴港上市 来源:21世纪经济报道 21世纪经济报道记者费心懿 开年以来,香港资本市场迎来内地企业上市热潮。Wi...
传感器技术如何赋能智慧医疗?(... 编者按:传感器作为“信息时代的神经末梢”,已渗透到社会经济的每一个关键领域。2025年10月以来,《...
5秒出4张2K大图!阿里提出2... 允中 发自 凹非寺 量子位 | 公众号 QbitAI AI生成一张图片,你愿意等多久? 在主流扩散模...
凯文·沃什被特朗普提名为下任美... 每经编辑|张锦河 据央视新闻,美国总统特朗普30日提名美联储前理事凯文·沃什为下任美联储主席,这一...
哈投股份:股票价格波动受多重因... 证券日报网讯 1月30日,哈投股份在互动平台回答投资者提问时表示,股票价格在二级市场的波动受宏观经济...
4.5亿!LVMH关联基金卖了... 1月28日,日本丸红株式会社宣布,将收购大阪化妆品企业ETVOS全部股份,并将其纳为全资子公司。 ...
财信吉祥人寿2025年揽收保费... (图片来源:视觉中国) 蓝鲸新闻1月30日讯(记者 陈晓娟)财信吉祥人寿保险股份有限公司(下称“财信...
融资服务持续优化!市投资促进局... 为深化资本招商实效,靠前服务企业融资需求对接,1月29日,佛山市投资促进局举办重点招商引资项目融资对...
楼市预期急转,房价彻底明牌了 经济放缓周期,让中产陷入困境的,从来不是月薪从5万降到3万,生活品质就从5万降到3万的问题。 而是月...
萃华珠宝黄金存货曾达30亿元,... 每经记者|闫峰峰 每经编辑|吴永久 萃华珠宝的债权人这个春节可能将过得并不安心。萃华珠宝近日公告称...
蔚来资本等入股合光光掩模科技公... 天眼查工商信息显示,“龙冶金”关联公司深圳市龙冶金业有限公司成立于2025年4月,法定代表人为林泽俊...
原创 中... 中央重磅定调!央行罕见表态将促进物价回升,全面涨价潮要来了? 央行近期的公开表态,打破了多年来“不涨...
【汤医新闻】深耕临床教学,共育... 实习生中期汇报会 2026年1月22日,北京小汤山医院检验医学科顺利开展第一期实习生中期汇报会。本次...
规模“高歌猛进”、营利“步履蹒... 近日,厦门银行披露2025年度业绩快报。公告显示,截至2025年末,该行总资产4530.99亿元,较...
汇安基金获证监会正规批复,个人... 在公募基金行业合规为先的大背景下,汇安基金凭借2016年4月获中国证监会正规批复设立的坚实基础,成为...
原创 2... 自2026年2月1日起,一批涉及社会民生的新规将正式施行,这些新规将从多个维度影响国人的日常生活。其...
AI算力引爆 光纤光缆行业迎来... 通信世界网消息(CWW)2026年伊始,光纤光缆行业迎来新的发展节点,呈现出量价齐升的态势。这标志着...