AI在线 AI在线

RewardMap

RewardMap: 通过多阶段强化学习解决细粒度视觉推理的Sparse Reward

本研究由西湖大学 ENCODE Lab 牵头,联合同济大学、浙江大学和新加坡国立大学共同完成。 团队在大模型强化学习与多模态推理方向具有深厚研究基础。 近年来,大语言模型(LLMs)以及多模态大模型(MLLMs)在多种场景理解和复杂推理任务中取得突破性进展。
10/21/2025 12:00:00 PM
机器之心
  • 1