GenEval从61%狂拉到92%，全面超越GPT-4o的TDM-R1模型来了

超快速 AI 生图领域再破性能天花板！香港科技大学唐靖团队、香港科技大学（深圳分校）胡天阳、小红书 hi-lab 罗维俭提出全新通用强化学习框架 TDM-R1，精准破解超快速扩散生成的核心痛点 —— 仅需 4 步采样（4 NFE），便将组合式生成指标 GenEval 从 61% 飙升至 92%，不仅碾压 80 步基础模型的 63%，更直接超越 GPT-4o 的 84%，让快节奏生图不仅实现 “高效低成本”，更能 “精准听懂指令、贴合真实需求”。

TDM-R1-zimage 模型4步生成超高清图像

当前，少步扩散模型已成为 AI 生图的主流方向 —— 通过蒸馏、轨迹匹配等核心技术，将原本几十步、上百步的采样过程，压缩至 4 步、8 步，大幅降低推理成本，完美适配工业级部署需求。但一个致命痛点始终难以突破：像 “图中需包含 3 只狗”“英文单词无拼写错误”“用户偏好 A 类图像” 这类 “不可量化” 的反馈，无法稳定应用于少步扩散模型的强化学习，导致模型即便推理速度再快，也始终 “听不懂指令、做不对任务”。

TDM-R1 的出现，正是为打破这一行业困局。该框架无需依赖可微奖励反传，创新地将学习过程拆分为 “代理奖励学习 + 生成器学习” 两部分，首次实现各类自由形式的不可微奖励，与少步生成模型后训练的深度融合。相关研究成果以论文《TDM-R1: Reinforcing Few-Step Diffusion Models with Non-Differentiable Reward》形式发布，作者团队来自香港科技大学、香港中文大学（深圳）、小红书 hi-lab、港科大（广州）四大机构。

论文标题：TDM-R1: Reinforcing Few-Step Diffusion Models with Non-Differentiable Reward 论文作者：Yihong Luo, Tianyang Hu, Weijian Luo, Jing Tang 作者单位：香港科技大学、香港中文大学（深圳）、小红书 hi-lab、港科大（广州）论文地址：https://arxiv.org/abs/2603.07700 GitHub 代码仓库：https://github.com/Luo-Yihong/TDM-R1 项目主页：https://luo-yihong.github.io/TDM-R1-Page/

痛点直击：少步扩散 “快是快了，就是不听话”

少步扩散模型的优势十分突出 —— 推理速度快、部署成本低，早已成为产业界的核心选择，但它的短板同样顽固，即便当前主流少步模型，也难逃三大核心问题，严重制约实用化落地：

复杂指令遵循能力弱：例如生成 “左侧红苹果、右侧绿香蕉” 这类包含位置与属性约束的指令时，模型常出现位置颠倒、属性对应错误等问题；文字渲染稳定性差：即便生成图像画面精美，也频繁出现英文拼写错误、汉字缺笔画、文字黏连或排版混乱等问题，影响实际应用；组合式生成能力拉胯：目标计数（如 “3 只猫”）、位置关系（如 “猫在狗旁边”）、属性绑定（如 “黑色小狗”）等任务中，模型往往 “看似能完成，实际效果偏差极大”，难以满足精准需求。

从直觉来看，这些问题可通过强化学习解决 ——“对不对”“好不好看”“符不符合要求”，本身就是最直接的奖励信号。但核心难题在于，这类奖励大多是离散、不可微的（无法量化为模型可直接学习的梯度）。而此前超快速扩散模型的强化学习方法，均默认 “奖励必须可微”，这就将大量真实场景中最具价值的反馈，直接排除在模型优化范围之外。

TDM-R1 的核心出发点，便是打破这一限制，让少步扩散模型真正 “听懂” 人类的真实需求，实现 “快且精准” 的实用化突破。

TDM-R1的强化学习训练曲线

核心思路：不硬刚奖励反传，两步拆分破解困局

TDM-R1 建立在作者此前提出的少步生成框架 TDM（轨迹分布匹配）之上，与传统扩散强化学习最大的区别的是：它不强行要求不可微奖励 “实现反传”，而是将整个学习过程拆分为两条独立且关联的路线，分工明确、高效协同，彻底解决不可微奖励的适配难题。

第一步：训练 “奖励翻译官”—— 代理奖励模型

针对离散、不可微的奖励（如 “文字是否正确”“计数是否准确”“用户是否偏好”），研究团队首先训练一个 “代理奖励模型”。该模型如同 “翻译官”，将模糊、不可量化的反馈，转化为模型可理解、可学习的细粒度信号，同时精准拟合每一步去噪轨迹的优劣关系。简单来说，就是让模型先学会 “判断好坏”，再针对性地 “学好”，为后续优化奠定基础。

第二步：培育 “高效画师”—— 少步生成器

在 “4 步采样” 的严格约束下，训练少步生成器最大化代理奖励模型给出的 “优质信号”；同时引入反向 KL 正则，将生成模型的分布稳定在预训练基础模型附近，有效避免模型 “学偏”“走火入魔”，确保生成质量的稳定性。

形象而言，这一设计相当于将 “判断作品好坏” 与 “创作作品” 彻底拆分：“翻译官” 专注解读人类需求、评判生成效果，“画师” 专注在快速创作的前提下，产出符合要求的作品，两者高效配合，实现 “快、准、优” 三者兼顾。

关键创新：三大核心设计，铸就少步生图 “封神” 实力

TDM-R1 的成功并非简单的方法拼接，而是精准抓住少步扩散模型的核心特性，设计三大关键创新点，三者相辅相成、缺一不可，最终实现性能的颠覆性提升：

1. 确定性轨迹：让中间步骤的奖励估计更精准

传统扩散模型采样过程充满随机性，如同 “同一张草图，每次上色效果都不同”，难以给中间去噪步骤分配稳定的奖励 —— 多数方法只能将最终图像的奖励 “一刀切” 应用于所有中间步骤，误差极大，严重影响模型收敛效果。

TDM-R1 充分利用 TDM 框架的核心优势：采样轨迹具有确定性。也就是说，从初始噪声到最终图像的 “创作路径” 固定不变，每一步中间状态的优劣，都能被精准估计。这一设计大幅降低了奖励估计的误差，让模型收敛速度更快、最终生成效果更优。实验数据明确证明，若替换为随机采样变体，模型收敛速度与性能会出现明显下降。

核心总结：TDM-R1 并未照搬 LLM 的 RLHF 方法，而是精准适配少步轨迹的特殊性，先实现 “每一步奖励的精准计算”，再推进强化学习，从根源上提升优化效率。

2.组偏好优化（GRPO，DGPO等）：生成更稳定的动态奖励信号

仅实现中间步骤奖励的精准估计还不够，如何将不可微的奖励信号，转化为稳定的训练信号，也是核心难题。TDM-R1 借鉴 RLHF 与组偏好优化的核心思路，摒弃 “单一样本评判好坏” 的传统模式，通过 “成组样本的相对偏好” 来学习奖励。

具体而言，研究团队采用 Bradley-Terry 模型，对 “优质样本组” 与 “劣质样本组” 的关系进行建模，再根据组内样本的优势差异，为不同中间样本分配对应权重 —— 让模型更关注 “优势明显的优质样本” 和 “差距显著的劣质样本”，大幅提升学习效率，也更贴合当前大模型强化学习的优化趋势。相较于传统的 “两两对比” 模式，这种组偏好优化能充分利用更细粒度的排序信息，优化效果更突出。

3. 动态参考模型：灵活适配，避免训练僵局

现有多数方法会采用完全冻结的参考模型，约束代理奖励学习，导致 “规则过于严苛”，使得奖励模型无法适应少步生成器的输出分布，最终陷入训练僵局，难以实现性能突破。

TDM-R1 做出实用性创新：采用代理奖励模型参数的 EMA 版本（动态更新的平均版本）作为参考模型，既保留了训练过程的稳定性，又允许奖励模型逐步跟上少步生成器的分布变化，实现动态适配。实验结果验证，该设计相较于静态参考模型，不仅训练过程更稳定，最终生成性能也更优。

实验：4 步采样碾压 80 步模型，全面超越 GPT-4o

TDM-R1 的实验表现堪称 “降维打击”，核心实验围绕组合式生成能力展开，在 GenEval 基准测试（专门考察组合式生成能力，覆盖单目标、多目标、计数、颜色、位置、属性绑定等核心难点）上，交出了惊艳全场的答卷：

4 步基线模型（TDM-SD3.5-M）：GenEval 仅 61%，组合式生成能力薄弱；加入 TDM-R1 后（仍为 4 步采样）：GenEval 直接飙升至 92%，实现质的飞跃；对比组 1（80 步原始 SD3.5-M）：GenEval 仅 63%，被 4 步 TDM-R1 全面碾压；对比组 2（GPT-4o）：GenEval 为 84%，同样被 TDM-R1 超越，凸显模型核心优势。

更关键的是，92% 的高分并非 “单点侥幸”，而是所有子项全面开花，尤其是最难的位置关系和属性绑定任务，彻底摆脱 “看似会、实则不会” 的困境，具体表现如下：

单目标 1.00、双目标 0.96、计数 0.88、位置关系 0.93、属性绑定 0.91—— 这一结果充分证明，TDM-R1 并非简单 “拉高分数”，而是实打实补齐了少步生成模型的组合式指令遵循能力，让模型真正 “听懂指令、做好任务”。

TDM-R1与Z-image模型的直接比较

不止刷分：图像质量不降级，实现协同提升

面对 GenEval 从 61% 到 92% 的夸张提升，不少人会质疑：是否存在 “刷分” 嫌疑？即模型仅迎合 GenEval 指标，实际图像质量反而下降？

研究团队专门设计针对性验证实验，在 DrawBench 基准上引入 5 个不参与训练的 “场外指标”（Aesthetic Score、DeQA、ImageReward、PickScore、UnifiedReward），全面检验模型是否 “刷分不长本事”。实验结果令人信服：

TDM-R1（4 步采样）不仅将 GenEval 从 61% 提升至 92%，在 5 项图像质量 / 偏好指标上，不仅没有出现掉点，反而整体优于 4 步基线模型和 80 步基础模型。例如，TDM-R1 的 Aesthetic=5.42、DeQA=4.07、ImageReward=1.11，均显著超过基线模型的对应数值。

作者特别强调，此前传统扩散强化学习方法，虽能提升目标指标，但往往伴随图像质量退化；而 TDM-R1 在少步场景下，完美兼顾 “更听话” 与 “更好看”，真正实现 “高效、精准、优质” 三者兼得。

TDM-R1在Geneval测试上，通过强化学习技术，仅凭4步生成，将Geneval得分从61提升到92。

额外惊喜：文字渲染大突破，实现跨任务协同增益

除组合式生成能力的颠覆性提升外，TDM-R1 在文字渲染这一行业 “老大难” 问题上，也交出亮眼答卷 ——OCR 准确率（文字识别准确率）从 4 步基线模型的 55%，直接提升至 95%，彻底解决了 “文字写错、缺笔画、黏连” 的核心痛点，大幅提升图像生成的实用性。

更令人意外的是，论文发现了显著的 “协同增益”：用 GenEval 这类可验证指标训练模型，能同步提升 OCR 指标；反过来，用 OCR 奖励训练，也能促进其他可验证任务的表现。作者认为，这一现象表明，只要选对代理任务，就能通过某类可验证奖励，低成本提升少步模型的通用指令遵循能力 —— 这或许是图像模型走向 “通用对齐” 的一条便捷路径。

可扩展性验证：适配 6B Z-Image，通用范式实力凸显

TDM-R1 并非 “针对特定模型的技巧性优化”，而是一套通用的强化学习范式，可轻松扩展至更强的开源大模型。研究团队将其应用于近期热门的 6B 参数 Z-Image 模型，以 HPSv3（一款优质奖励模型，能有效避免 “奖励黑客” 现象，提升生成图像实际质量）作为奖励信号进行对齐，实验结果同样亮眼：

Z-Image（100 步）：GenEval 0.66，OCR 0.74； Z-Image-Turbo（4 步）：GenEval 0.73，OCR 0.78； TDM-R1-ZImage（4 步）：GenEval 0.77，OCR 0.79。

同时，在 HPSv3、Aesthetic 等多项质量指标上，TDM-R1-ZImage 也整体优于 100 步原模型和 4 步 Turbo 版本，进一步验证了 TDM-R1 的通用性与扩展性，为其大规模工业应用奠定基础。

关键消融实验：传统 RL 无法适配少步场景的核心原因

针对 “将传统扩散 RL 损失函数直接加到少步模型上是否可行” 这一行业疑问，论文通过对比实验给出明确答案：不可行。

研究团队将传统扩散 RL 的损失，与少步蒸馏目标直接相加，结果显示，训练出的模型不仅容易出现图像模糊问题，性能还极不稳定。核心原因在于：传统扩散 RL 本质上仍是一种加权去噪损失，这种去噪目标与少步蒸馏追求的反向 KL 轨迹匹配，并不天然兼容 —— 在多步扩散场景中尚可勉强工作，但在 4 步这样的少步场景下，会产生严重冲突，导致模型无法正常收敛。

这也正是 TDM-R1 的核心价值所在：它并非简单照搬已有 RL 方法，而是针对少步生成机制的特性，设计了一套与之完美匹配的后训练方法论，真正解决了少步扩散模型的强化学习适配难题。

行业意义：不止一个 SOTA，更是少步生图的全新方向

4 步采样、GenEval 从 61% 飙升至 92%、超越 GPT-4o，这些亮眼数据只是 TDM-R1 的表面成就，其真正的行业价值，在于为少步扩散模型打开了三条全新的发展可能，推动超快速 AI 生图迈入实用化新阶段：

少步模型可实现 LLM 式 RL 后训练：过去行业普遍将少步扩散视为 “蒸馏的终点”，认为 “快就足够”，而 TDM-R1 证明，少步模型不仅能继续优化，还能通过通用不可微奖励持续变强，打破 “少步即终点” 的固有认知；不可微奖励实现系统性接入：未来，无论是人类的二元偏好、产品侧的离散反馈，还是用户交互点击数据，都能用于少步模型的优化，让模型更贴合真实场景需求，提升实用价值；可验证任务成为通用对齐的低成本路径：从 GenEval 与 OCR 的协同增益来看，未来图像模型或许能像语言模型一样，通过少量高质量、可程序验证的任务，撬动更广泛的能力提升，为图像模型通用对齐提供全新思路。

结语

在大模型强化学习的热潮中，图像生成领域长期缺少一套真正适配少步模型的通用 RL 框架，而 TDM-R1 的出现，恰恰补上了这块关键拼图。它不要求奖励可微，不依赖额外真值图像数据，凭借确定性轨迹和动态代理奖励两大核心设计，将不可微反馈转化为可优化信号，让少步模型真正实现 “既快又准、既高效又听话”。

GenEval 从 61% 到 92% 的跨越，不仅是一个数字的提升，更预示着下一代工业图像生成系统的全新形态：采样步数极少、推理成本极低，但对人类偏好、结构约束和复杂指令的响应能力，却持续增强。香港科技大学、香港中文大学（深圳）与小红书 hi-lab 联合带来的这一突破，无疑为少步生图的发展按下了加速键，推动超快速 AI 生图向更精准、更实用、更通用的方向迈进。