AI在线 AI在线

RLVMR

破解「长程智能体」RL训练难题,腾讯提出RLVMR框架,让7B模型「思考」比肩GPT-4o

本论文的主要作者来自腾讯混元 AI 数字人团队 (Tencent Hunyuan AI Digital Human)。 该团队致力于打造「有智商、有情商、有温度的数字人」,旨在为用户提供高度拟人、可信赖的数字伙伴,进而实现富有温度与信任的情感交互。 自主智能体(Agents)正朝着能够处理复杂长程任务(Long-Horizon Tasks)的通用智能(AGI)迈进,但许多研究者发现了一个尴尬的现实:很多智能体虽然能完成任务,却像个「只会蒙答案的学生」,其成功往往依赖于运气和低效的试错,而非真正高效、可泛化的推理能力。
8/14/2025 10:14:00 AM
机器之心
  • 1