AI在线 AI在线

视觉语言模型新突破!Visual ARFT 助力多模态智能体能力

随着人工智能的迅猛发展,尤其是在大型推理模型领域,如 OpenAI 的 o3,研究者们正在努力让这些模型具备更强的智能体能力。 这种能力不仅仅局限于文本处理,更扩展到了图像理解与操作。 近日,来自上海交通大学、上海人工智能实验室、香港中文大学和武汉大学的研究团队推出了一种名为 Visual-ARFT(视觉智能体强化微调)的新方法,旨在提升视觉语言模型的多模态智能体能力,使其能够更灵活地执行复杂任务。

随着人工智能的迅猛发展,尤其是在大型推理模型领域,如 OpenAI 的 o3,研究者们正在努力让这些模型具备更强的智能体能力。这种能力不仅仅局限于文本处理,更扩展到了图像理解与操作。近日,来自上海交通大学、上海人工智能实验室、香港中文大学和武汉大学的研究团队推出了一种名为 Visual-ARFT(视觉智能体强化微调)的新方法,旨在提升视觉语言模型的多模态智能体能力,使其能够更灵活地执行复杂任务。

Visual-ARFT 的核心在于赋予模型 “工具智能体” 的能力。这意味着,模型不仅能够分析和理解图像,还能主动调用外部工具进行搜索或编写代码。这一能力使得模型在面对复杂的多模态问题时,能够自主拆解任务、规划步骤,并完成任务。例如,它可以在分析图像信息后,通过搜索引擎查找所需信息,或者生成 Python 代码处理图像,完成视觉问答。

image.png

为了评估 Visual-ARFT 的有效性,研究团队构建了一个新的评测基准 MAT-Bench(多模态智能体工具基准)。该基准包含多个复杂的多跳视觉问答任务,能够准确评估模型在工具调用与多模态推理方面的能力。测试结果显示,使用 Visual-ARFT 方法的模型在多个子任务中均表现优异,超越了 GPT-4o 等先进模型,展现出显著的潜力。

image.png

值得一提的是,Visual-ARFT 采用了一种基于强化微调的训练策略,通过简单而高效的奖励机制,驱动模型自主探索如何使用工具,并形成完整的推理过程。研究团队在训练中使用了少量的数据,但却成功提升了模型的多模态智能体能力。

未来,Visual-ARFT 不仅将为智能体能力的发展开辟新路径,还可能在图像处理、智能搜索等多个领域产生深远影响。随着技术的不断进步,我们期待看到更多智能体在复杂场景中的表现,进而推动人工智能的边界不断拓展。

项目地址:https://github.com/Liuziyu77/Visual-RFT/tree/main/Visual-ARFT

相关资讯

ByteDance AI Core Personnel Changes: Visual Multimodal Leader Yang Jianchao Announces Temporary Leave

According to NetEase Technology, Yang Jianchao, the head of ByteDance's Douyin large model visual multimodal direction, announced he will "take a temporary break" and has completed the work handover. His position will be taken over by Zhou Chang, the former head of Alibaba's M6 large model technology, who goes by the nickname "Shiguang".
7/17/2025 5:51:40 PM
AI在线

Head of ByteDance's Visual Large Model, Yang Jianchao, Announces Temporary Leave; Zhou Chang Takes Over, Drawing Attention

Recently, the visual large model team at ByteDance has undergone a significant personnel change. The team leader Yang Jianchao announced internally that he would "take a temporary break," and Zhou Chang will take over. This decision has not only attracted attention within ByteDance but also sparked discussions outside the company about the stability of its future technology roadmap.In his announcement, Yang Jianchao mentioned that the main reasons for taking a break are family factors and work pressure.
7/18/2025 2:52:18 PM
AI在线

阿里云通义灵码 AI 编程助手上线微软 Visual Studio 插件市场,个人专业版限时免费

通义灵码是阿里云出品的一款基于通义大模型的智能编码辅助工具,提供行级 / 函数级实时续写、自然语言生成代码、单元测试生成、代码优化、注释生成、代码解释、研发智能问答、异常报错排查等能力,支持 Java、Python、Go、C 等 200 多种编程语言。通义灵码 6 月 20 日宣布上线了微软 Visual Studio 插件市场,该工具此前已上线了 Visual Studio Code、JetBrains IDEs 等主流编程工具,全渠道下载量超 350 万。Visual Studio(VS)是微软推出的一款集
6/24/2024 10:58:24 AM
汪淼
  • 1