超快速 AI 生图领域再破性能天花板!香港科技大学唐靖团队、香港科技大学(深圳分校)胡天阳、小红书 hi-lab 罗维俭提出全新通用强化学习框架 TDM-R1,精准破解超快速扩散生成的核心痛点 —— 仅需 4 步采样(4 NFE),便将组合式生成指标 GenEval 从 61% 飙升至 92%,不仅碾压 80 步基础模型的 63%,更直接超越 GPT-4o 的 84%,让快节奏生图不仅实现 “高效低成本”,更能 “精准听懂指令、贴合真实需求”。



TDM-R1-zimage 模型4步生成超高清图像

当前,少步扩散模型已成为 AI 生图的主流方向 —— 通过蒸馏、轨迹匹配等核心技术,将原本几十步、上百步的采样过程,压缩至 4 步、8 步,大幅降低推理成本,完美适配工业级部署需求。但一个致命痛点始终难以突破:像 “图中需包含 3 只狗”“英文单词无拼写错误”“用户偏好 A 类图像” 这类 “不可量化” 的反馈,无法稳定应用于少步扩散模型的强化学习,导致模型即便推理速度再快,也始终 “听不懂指令、做不对任务”。

TDM-R1 的出现,正是为打破这一行业困局。该框架无需依赖可微奖励反传,创新地将学习过程拆分为 “代理奖励学习 + 生成器学习” 两部分,首次实现各类自由形式的不可微奖励,与少步生成模型后训练的深度融合。相关研究成果以论文《TDM-R1: Reinforcing Few-Step Diffusion Models with Non-Differentiable Reward》形式发布,作者团队来自香港科技大学、香港中文大学(深圳)、小红书 hi-lab、港科大(广州)四大机构。



痛点直击:少步扩散 “快是快了,就是不听话”

少步扩散模型的优势十分突出 —— 推理速度快、部署成本低,早已成为产业界的核心选择,但它的短板同样顽固,即便当前主流少步模型,也难逃三大核心问题,严重制约实用化落地:

从直觉来看,这些问题可通过强化学习解决 ——“对不对”“好不好看”“符不符合要求”,本身就是最直接的奖励信号。但核心难题在于,这类奖励大多是离散、不可微的(无法量化为模型可直接学习的梯度)。而此前超快速扩散模型的强化学习方法,均默认 “奖励必须可微”,这就将大量真实场景中最具价值的反馈,直接排除在模型优化范围之外。

TDM-R1 的核心出发点,便是打破这一限制,让少步扩散模型真正 “听懂” 人类的真实需求,实现 “快且精准” 的实用化突破。



TDM-R1的强化学习训练曲线

核心思路:不硬刚奖励反传,两步拆分破解困局

TDM-R1 建立在作者此前提出的少步生成框架 TDM(轨迹分布匹配)之上,与传统扩散强化学习最大的区别的是:它不强行要求不可微奖励 “实现反传”,而是将整个学习过程拆分为两条独立且关联的路线,分工明确、高效协同,彻底解决不可微奖励的适配难题。

第一步:训练 “奖励翻译官”—— 代理奖励模型

针对离散、不可微的奖励(如 “文字是否正确”“计数是否准确”“用户是否偏好”),研究团队首先训练一个 “代理奖励模型”。该模型如同 “翻译官”,将模糊、不可量化的反馈,转化为模型可理解、可学习的细粒度信号,同时精准拟合每一步去噪轨迹的优劣关系。简单来说,就是让模型先学会 “判断好坏”,再针对性地 “学好”,为后续优化奠定基础。

第二步:培育 “高效画师”—— 少步生成器

在 “4 步采样” 的严格约束下,训练少步生成器最大化代理奖励模型给出的 “优质信号”;同时引入反向 KL 正则,将生成模型的分布稳定在预训练基础模型附近,有效避免模型 “学偏”“走火入魔”,确保生成质量的稳定性。

形象而言,这一设计相当于将 “判断作品好坏” 与 “创作作品” 彻底拆分:“翻译官” 专注解读人类需求、评判生成效果,“画师” 专注在快速创作的前提下,产出符合要求的作品,两者高效配合,实现 “快、准、优” 三者兼顾。

关键创新:三大核心设计,铸就少步生图 “封神” 实力

TDM-R1 的成功并非简单的方法拼接,而是精准抓住少步扩散模型的核心特性,设计三大关键创新点,三者相辅相成、缺一不可,最终实现性能的颠覆性提升:

1. 确定性轨迹:让中间步骤的奖励估计更精准

传统扩散模型采样过程充满随机性,如同 “同一张草图,每次上色效果都不同”,难以给中间去噪步骤分配稳定的奖励 —— 多数方法只能将最终图像的奖励 “一刀切” 应用于所有中间步骤,误差极大,严重影响模型收敛效果。

TDM-R1 充分利用 TDM 框架的核心优势:采样轨迹具有确定性。也就是说,从初始噪声到最终图像的 “创作路径” 固定不变,每一步中间状态的优劣,都能被精准估计。这一设计大幅降低了奖励估计的误差,让模型收敛速度更快、最终生成效果更优。实验数据明确证明,若替换为随机采样变体,模型收敛速度与性能会出现明显下降。

核心总结:TDM-R1 并未照搬 LLM 的 RLHF 方法,而是精准适配少步轨迹的特殊性,先实现 “每一步奖励的精准计算”,再推进强化学习,从根源上提升优化效率。

2.组偏好优化(GRPO,DGPO等):生成更稳定的动态奖励信号

仅实现中间步骤奖励的精准估计还不够,如何将不可微的奖励信号,转化为稳定的训练信号,也是核心难题。TDM-R1 借鉴 RLHF 与组偏好优化的核心思路,摒弃 “单一样本评判好坏” 的传统模式,通过 “成组样本的相对偏好” 来学习奖励。

具体而言,研究团队采用 Bradley-Terry 模型,对 “优质样本组” 与 “劣质样本组” 的关系进行建模,再根据组内样本的优势差异,为不同中间样本分配对应权重 —— 让模型更关注 “优势明显的优质样本” 和 “差距显著的劣质样本”,大幅提升学习效率,也更贴合当前大模型强化学习的优化趋势。相较于传统的 “两两对比” 模式,这种组偏好优化能充分利用更细粒度的排序信息,优化效果更突出。

3. 动态参考模型:灵活适配,避免训练僵局

现有多数方法会采用完全冻结的参考模型,约束代理奖励学习,导致 “规则过于严苛”,使得奖励模型无法适应少步生成器的输出分布,最终陷入训练僵局,难以实现性能突破。

TDM-R1 做出实用性创新:采用代理奖励模型参数的 EMA 版本(动态更新的平均版本)作为参考模型,既保留了训练过程的稳定性,又允许奖励模型逐步跟上少步生成器的分布变化,实现动态适配。实验结果验证,该设计相较于静态参考模型,不仅训练过程更稳定,最终生成性能也更优。

实验:4 步采样碾压 80 步模型,全面超越 GPT-4o

TDM-R1 的实验表现堪称 “降维打击”,核心实验围绕组合式生成能力展开,在 GenEval 基准测试(专门考察组合式生成能力,覆盖单目标、多目标、计数、颜色、位置、属性绑定等核心难点)上,交出了惊艳全场的答卷:

更关键的是,92% 的高分并非 “单点侥幸”,而是所有子项全面开花,尤其是最难的位置关系和属性绑定任务,彻底摆脱 “看似会、实则不会” 的困境,具体表现如下:

单目标 1.00、双目标 0.96、计数 0.88、位置关系 0.93、属性绑定 0.91—— 这一结果充分证明,TDM-R1 并非简单 “拉高分数”,而是实打实补齐了少步生成模型的组合式指令遵循能力,让模型真正 “听懂指令、做好任务”。



TDM-R1与Z-image模型的直接比较

不止刷分:图像质量不降级,实现协同提升

面对 GenEval 从 61% 到 92% 的夸张提升,不少人会质疑:是否存在 “刷分” 嫌疑?即模型仅迎合 GenEval 指标,实际图像质量反而下降?

研究团队专门设计针对性验证实验,在 DrawBench 基准上引入 5 个不参与训练的 “场外指标”(Aesthetic Score、DeQA、ImageReward、PickScore、UnifiedReward),全面检验模型是否 “刷分不长本事”。实验结果令人信服:

TDM-R1(4 步采样)不仅将 GenEval 从 61% 提升至 92%,在 5 项图像质量 / 偏好指标上,不仅没有出现掉点,反而整体优于 4 步基线模型和 80 步基础模型。例如,TDM-R1 的 Aesthetic=5.42、DeQA=4.07、ImageReward=1.11,均显著超过基线模型的对应数值。

作者特别强调,此前传统扩散强化学习方法,虽能提升目标指标,但往往伴随图像质量退化;而 TDM-R1 在少步场景下,完美兼顾 “更听话” 与 “更好看”,真正实现 “高效、精准、优质” 三者兼得。



TDM-R1在Geneval测试上,通过强化学习技术,仅凭4步生成,将Geneval得分从61提升到92。

额外惊喜:文字渲染大突破,实现跨任务协同增益

除组合式生成能力的颠覆性提升外,TDM-R1 在文字渲染这一行业 “老大难” 问题上,也交出亮眼答卷 ——OCR 准确率(文字识别准确率)从 4 步基线模型的 55%,直接提升至 95%,彻底解决了 “文字写错、缺笔画、黏连” 的核心痛点,大幅提升图像生成的实用性。

更令人意外的是,论文发现了显著的 “协同增益”:用 GenEval 这类可验证指标训练模型,能同步提升 OCR 指标;反过来,用 OCR 奖励训练,也能促进其他可验证任务的表现。作者认为,这一现象表明,只要选对代理任务,就能通过某类可验证奖励,低成本提升少步模型的通用指令遵循能力 —— 这或许是图像模型走向 “通用对齐” 的一条便捷路径。

可扩展性验证:适配 6B Z-Image,通用范式实力凸显

TDM-R1 并非 “针对特定模型的技巧性优化”,而是一套通用的强化学习范式,可轻松扩展至更强的开源大模型。研究团队将其应用于近期热门的 6B 参数 Z-Image 模型,以 HPSv3(一款优质奖励模型,能有效避免 “奖励黑客” 现象,提升生成图像实际质量)作为奖励信号进行对齐,实验结果同样亮眼:

同时,在 HPSv3、Aesthetic 等多项质量指标上,TDM-R1-ZImage 也整体优于 100 步原模型和 4 步 Turbo 版本,进一步验证了 TDM-R1 的通用性与扩展性,为其大规模工业应用奠定基础。

关键消融实验:传统 RL 无法适配少步场景的核心原因

针对 “将传统扩散 RL 损失函数直接加到少步模型上是否可行” 这一行业疑问,论文通过对比实验给出明确答案:不可行。

研究团队将传统扩散 RL 的损失,与少步蒸馏目标直接相加,结果显示,训练出的模型不仅容易出现图像模糊问题,性能还极不稳定。核心原因在于:传统扩散 RL 本质上仍是一种加权去噪损失,这种去噪目标与少步蒸馏追求的反向 KL 轨迹匹配,并不天然兼容 —— 在多步扩散场景中尚可勉强工作,但在 4 步这样的少步场景下,会产生严重冲突,导致模型无法正常收敛。

这也正是 TDM-R1 的核心价值所在:它并非简单照搬已有 RL 方法,而是针对少步生成机制的特性,设计了一套与之完美匹配的后训练方法论,真正解决了少步扩散模型的强化学习适配难题。

行业意义:不止一个 SOTA,更是少步生图的全新方向

4 步采样、GenEval 从 61% 飙升至 92%、超越 GPT-4o,这些亮眼数据只是 TDM-R1 的表面成就,其真正的行业价值,在于为少步扩散模型打开了三条全新的发展可能,推动超快速 AI 生图迈入实用化新阶段:

结语

在大模型强化学习的热潮中,图像生成领域长期缺少一套真正适配少步模型的通用 RL 框架,而 TDM-R1 的出现,恰恰补上了这块关键拼图。它不要求奖励可微,不依赖额外真值图像数据,凭借确定性轨迹和动态代理奖励两大核心设计,将不可微反馈转化为可优化信号,让少步模型真正实现 “既快又准、既高效又听话”。

GenEval 从 61% 到 92% 的跨越,不仅是一个数字的提升,更预示着下一代工业图像生成系统的全新形态:采样步数极少、推理成本极低,但对人类偏好、结构约束和复杂指令的响应能力,却持续增强。香港科技大学、香港中文大学(深圳)与小红书 hi-lab 联合带来的这一突破,无疑为少步生图的发展按下了加速键,推动超快速 AI 生图向更精准、更实用、更通用的方向迈进。