腾讯混元升级AI绘画微调范式，在整个扩散轨迹上优化，人工评估分数提升300%

作者：梦晨 2025-09-15 02:39

让AI生成的图像更符合人类精细偏好，在32块H20上训练10分钟就能收敛。腾讯混元新方法让微调的FLUX1.dev模型人工评估的真实感和美学评分提高3倍以上。当前的扩散模型虽然能通过奖励机制来贴合人类喜好，但存在两个问题：一是优化步骤少，容易出现 “奖励作弊”，也就是模型为了拿高分生成质量差的图；二是需要离线调整奖励模型才能达到好的美学效果，不够灵活。

让AI生成的图像更符合人类精细偏好，在32块H20上训练10分钟就能收敛。

腾讯混元新方法让微调的FLUX1.dev模型人工评估的真实感和美学评分提高3倍以上。

当前的扩散模型虽然能通过奖励机制来贴合人类喜好，但存在两个问题：一是优化步骤少，容易出现 “奖励作弊”，也就是模型为了拿高分生成质量差的图；二是需要离线调整奖励模型才能达到好的美学效果，不够灵活。

为此，团队提出两个关键方法：

一个是Direct-Align，通过预先注入噪声，能从任意时间步恢复原图，避免了只在后期步骤优化的局限，减少了 “奖励作弊”。

另一个是语义相对偏好优化（SRPO），它把奖励变成受文本控制的信号，通过添加正面和负面提示词，能在线调整奖励，不用额外数据就能灵活适配需求。

论文公开后，有开发者评价SRPO看起来就像下一代RLHF。

研究团队首先指出了现有方法的两个核心痛点：第一，多步去噪过程中的梯度计算成本极高，导致优化只能局限在扩散过程的最后几步；第二，为了达到理想的美学效果，往往需要不断地离线调整奖励模型。

为了解决第一个问题，团队提出了Direct-Align方法。

首先预定义一个噪声先验，通过插值直接从任意时间步恢复原始图像。团队发现，扩散状态实际上就是噪声和目标图像之间的插值。

这个方法让模型能够从高噪声状态直接恢复出清晰图像，避免了传统方法在早期时间步反向传播时的梯度爆炸问题。实验表明，即使在只有5%去噪进度的极早期阶段，Direct-Align也能恢复出图像的粗略结构。

更重要的是，这种方法支持在整个扩散轨迹上进行优化，而不是像ReFL、DRaFT等方法那样只能在后期步骤训练。

实验发现，仅在后25%时间步训练会导致严重的奖励黑客问题，模型会过度拟合奖励函数的偏好，比如HPSv2偏好红色调、PickScore偏好紫色图像等。

第二个创新是语义相对偏好优化（SRPO）。传统方法通常需要多个奖励模型来平衡不同的偏好，但团队发现这只是调整了奖励的规模，并没有真正对齐优化方向。

SRPO的核心思想是将奖励重新定义为文本条件信号。具体来说，对于同一张图像，模型会使用正面和负面提示词分别计算奖励，然后取其相对差值作为优化目标。

在实际应用中，团队只需在原始提示词前添加控制短语（如”. “）就能实现在线调整。实验显示，通过添加”Realistic photo”等控制词，模型生成图像的真实感提升了约3.7倍，美学质量提升了3.1倍。

SRPO能够通过简单的提示词控制实现多种风格调整，包括亮度调节、漫画风格转换等。有趣的是，控制效果的强弱与控制词在奖励模型训练集中的出现频率相关——高频词如”painting”效果最好，而低频词如”Cyberpunk”则需要与其他高频词组合使用。

研究团队在FLUX.1-dev模型上进行了全面的实验验证。与ReFL、DRaFT、DanceGRPO等最新方法相比，SRPO在多个评估指标上都取得了最佳成绩。

在HPDv2基准测试的3200个提示词上，SRPO不仅在自动评估指标（Aesthetic Score v2.5、PickScore、ImageReward等）上领先，更重要的是在人工评估中表现出色。团队组织了10名训练有素的标注员和3名领域专家，对500个提示词生成的图像进行了全面评估。

结果显示，在真实感维度上，原始FLUX模型的优秀率仅为8.2%，而经过SRPO训练后飙升至38.9%。在美学质量上，优秀率从9.8%提升到40.5%，总体偏好度更是达到了29.4%的优秀率。

值得一提的是，DanceGRPO虽然也能提升美学质量，但经常引入不良伪影，如过度的光泽感和明显的边缘高光。相比之下，SRPO生成的图像在保持高美学质量的同时，纹理细节更加自然真实。

团队还进行了一项有趣的对比实验：他们发现经过短短10分钟SRPO训练的FLUX.1-dev，在HPDv2基准上的表现已经超越了最新的开源版本FLUX.1.Krea。

论文地址： https://arxiv.org/abs/2509.06942

参考链接： [1]https://x.com/_akhaliq/status/1966911634657390890

相关标签：

腾讯

抢疯了，腾讯给大模型人才，定了一个前所未有的标准

「21 世纪什么最贵？人才！」二十年前的黎叔语录，现在听来也不过时。这两年，大模型赛道风起云涌。科技公司们全力投入生成式 AI 技术的研发，期待将新的突破整合到自家产品中。OpenAI 是一个非常成功的样本，并受到了研究员、工程师和投资人们的广泛关注与深刻讨论：为什么是 OpenAI？它的成功不只来自于多年的坚持技术探索、投资者不断注入的资金，更重要的是一批顶尖 AI 研究人员的聚集。我们能看到，在 ChatGPT、Sora、GPT-4o 等划时代产品的背后，有一长串名单的核心贡献者，一家科技公司想要持续「伟大」，

6/21/2024 3:37:00 PM 机器之心

腾讯全面展示AI时代产品应用图，发力3D世界模型与具身智能平台Tairos

在2025世界人工智能大会腾讯论坛上，腾讯重磅发布混元3D世界模型、具身智能平台Tairos（钛螺丝）等AI最新技术成果，并带来智能体开发平台等产品的全面升级，首次完整展示面向AI时代的产品应用全景图。据介绍，腾讯此次推出的这套**“1 3 N”全景体系**，以腾讯自研的混元大模型为核心引擎，构建了一个涵盖平台能力与多元应用的完整架构。该体系覆盖了面向B端和C端的智能体开发平台，面向机器人领域的腾讯具身智能开放平台，以及分布在多个行业场景中的丰富AI应用与智能体产品矩阵。

7/27/2025 11:41:52 AM AI在线

院士、委员、专家共议“双智建设”：场景驱动、标准协同、以人为本

智能网联汽车和智慧城市基础设施，已经成为日常生活中随处可见的元素。2021年，住建部和工信部将16个城市列为双智试点城市，探索智慧城市基础设施与智能网联汽车协同发展。试点城市提供了哪些思路？双智的未来该走向何处？这些问题成为当前双智行业关注的重点。近日，由腾讯智慧交通、腾讯研究院联合举办了“双智建设专家研讨会“，共同探讨双智建设的新思路、新机遇。中国工程院院士郭仁忠、全国政协委员、交通运输部科学研究院副院长兼总工程师王先进、中国电动汽车百人会秘书长兼首席专家张永伟、中国信息通信研究院副院长王志勤、中国城市规划设计研

3/15/2022 4:10:00 PM 新闻助手

腾讯混元升级AI绘画微调范式，在整个扩散轨迹上优化，人工评估分数提升300%

相关资讯

抢疯了，腾讯给大模型人才，定了一个前所未有的标准

腾讯全面展示AI时代产品应用图，发力3D世界模型与具身智能平台Tairos

院士、委员、专家共议“双智建设”：场景驱动、标准协同、以人为本