破解「长程智能体」RL训练难题，腾讯提出RLVMR框架，让7B模型「思考」比肩GPT-4o

本论文的主要作者来自腾讯混元 AI 数字人团队 (Tencent Hunyuan AI Digital Human)。该团队致力于打造「有智商、有情商、有温度的数字人」，旨在为用户提供高度拟人、可信赖的数字伙伴，进而实现富有温度与信任的情感交互。自主智能体（Agents）正朝着能够处理复杂长程任务（Long-Horizon Tasks）的通用智能（AGI）迈进，但许多研究者发现了一个尴尬的现实：很多智能体虽然能完成任务，却像个「只会蒙答案的学生」，其成功往往依赖于运气和低效的试错，而非真正高效、可泛化的推理能力。

本论文的主要作者来自腾讯混元 AI 数字人团队 (Tencent Hunyuan AI Digital Human)。该团队致力于打造「有智商、有情商、有温度的数字人」，旨在为用户提供高度拟人、可信赖的数字伙伴，进而实现富有温度与信任的情感交互。

自主智能体（Agents）正朝着能够处理复杂长程任务（Long-Horizon Tasks）的通用智能（AGI）迈进，但许多研究者发现了一个尴尬的现实：很多智能体虽然能完成任务，却像个「只会蒙答案的学生」，其成功往往依赖于运气和低效的试错，而非真正高效、可泛化的推理能力。一旦环境稍作改变，它们便漏洞百出。

这种「结果正确，但过程混乱」的现象，是当前长程智能体（Long-Horizon Agents）强化学习（RL）范式的一大瓶颈。智能体在探索中，只因最终能完成任务便获得奖励，而其间大量的冗余操作、无效探索，甚至错误的推理路径，都被无意中「强化」和固化。这导致了两个核心难题：

1.低效探索难题：智能体容易陷入「无效内卷」，反复尝试无意义的动作，训练成本高，推理效率低下。

2.泛化脆弱难题：靠「蒙对」学会的策略缺乏逻辑基础，在新任务面前不堪一击，难以实现真正的鲁棒性。

如何让智能体不仅「知其然」，更能「知其所以然」？

面对这些难题，腾讯混元 AI 数字人团队提出了 RLVMR (Reinforcement Learning with Verifiable Meta-Reasoning Rewards) 框架。这项工作开创性地将认知科学中的「元认知」（即「思考自己的思考」）理论引入 RL，通过奖励「好的思考过程」而非仅仅奖励「好的结果」，首次实现了对智能体推理过程的端到端强化学习，成功解决了长程任务中的低效探索与泛化难题。

论文地址： [2507.22844] RLVMR: Reinforcement Learning with Verifiable Meta-Reasoning Rewards for Robust Long-Horizon Agents
项目代码： digitalhuman/RLVMR at main・Tencent/digitalhuman・GitHub

RLVMR：如何教会智能体「思考」，而不仅是「做事」？

传统方法要么依赖僵化的专家数据（SFT），要么依赖稀疏的结果奖励（RL），都无法有效塑造智能体高质量的「思维习惯」。RLVMR 的破局点在于：为智能体的「思考过程」本身，设计一套可验证、可优化的奖励机制。