AI在线 AI在线

视觉语言模型新突破!Visual ARFT 助力多模态智能体能力

随着人工智能的迅猛发展,尤其是在大型推理模型领域,如 OpenAI 的 o3,研究者们正在努力让这些模型具备更强的智能体能力。 这种能力不仅仅局限于文本处理,更扩展到了图像理解与操作。 近日,来自上海交通大学、上海人工智能实验室、香港中文大学和武汉大学的研究团队推出了一种名为 Visual-ARFT(视觉智能体强化微调)的新方法,旨在提升视觉语言模型的多模态智能体能力,使其能够更灵活地执行复杂任务。

随着人工智能的迅猛发展,尤其是在大型推理模型领域,如 OpenAI 的 o3,研究者们正在努力让这些模型具备更强的智能体能力。这种能力不仅仅局限于文本处理,更扩展到了图像理解与操作。近日,来自上海交通大学、上海人工智能实验室、香港中文大学和武汉大学的研究团队推出了一种名为 Visual-ARFT(视觉智能体强化微调)的新方法,旨在提升视觉语言模型的多模态智能体能力,使其能够更灵活地执行复杂任务。

Visual-ARFT 的核心在于赋予模型 “工具智能体” 的能力。这意味着,模型不仅能够分析和理解图像,还能主动调用外部工具进行搜索或编写代码。这一能力使得模型在面对复杂的多模态问题时,能够自主拆解任务、规划步骤,并完成任务。例如,它可以在分析图像信息后,通过搜索引擎查找所需信息,或者生成 Python 代码处理图像,完成视觉问答。

image.png

为了评估 Visual-ARFT 的有效性,研究团队构建了一个新的评测基准 MAT-Bench(多模态智能体工具基准)。该基准包含多个复杂的多跳视觉问答任务,能够准确评估模型在工具调用与多模态推理方面的能力。测试结果显示,使用 Visual-ARFT 方法的模型在多个子任务中均表现优异,超越了 GPT-4o 等先进模型,展现出显著的潜力。

image.png

值得一提的是,Visual-ARFT 采用了一种基于强化微调的训练策略,通过简单而高效的奖励机制,驱动模型自主探索如何使用工具,并形成完整的推理过程。研究团队在训练中使用了少量的数据,但却成功提升了模型的多模态智能体能力。

未来,Visual-ARFT 不仅将为智能体能力的发展开辟新路径,还可能在图像处理、智能搜索等多个领域产生深远影响。随着技术的不断进步,我们期待看到更多智能体在复杂场景中的表现,进而推动人工智能的边界不断拓展。

项目地址:https://github.com/Liuziyu77/Visual-RFT/tree/main/Visual-ARFT

相关资讯

阿里云通义灵码 AI 编程助手上线微软 Visual Studio 插件市场,个人专业版限时免费

通义灵码是阿里云出品的一款基于通义大模型的智能编码辅助工具,提供行级 / 函数级实时续写、自然语言生成代码、单元测试生成、代码优化、注释生成、代码解释、研发智能问答、异常报错排查等能力,支持 Java、Python、Go、C 等 200 多种编程语言。通义灵码 6 月 20 日宣布上线了微软 Visual Studio 插件市场,该工具此前已上线了 Visual Studio Code、JetBrains IDEs 等主流编程工具,全渠道下载量超 350 万。Visual Studio(VS)是微软推出的一款集
6/24/2024 10:58:24 AM
汪淼

GPT超越扩散、视觉生成Scaling Law时刻!北大&字节提出VAR范式

新一代视觉生成范式「VAR: Visual Auto Regressive」视觉自回归来了!使 GPT 风格的自回归模型在图像生成首次超越扩散模型,并观察到与大语言模型相似的 Scaling Laws 缩放定律、Zero-shot Task Generalization 泛化能力:                                      论文标题: "Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale P
4/15/2024 9:09:00 AM
机器之心

新生AI绘画神器 Visual Electric!画板无限延伸,更适合设计创作!

大家好,这里是和你们一起探索 AI 绘画的花生~ 今天为大家介绍一个新的 AI 绘画工具 Visual Electric,它从设计创作者的角度出发,将 AI 文生图、图生图、图像编辑等功能扁平化地集成到一个画布中 ,给用户带来了一种新的交互体验,使用起来比 Stabel Diffusion WebUI 和 Midjourney 更方便、更有沉浸感。 Visual Electric 官网链接: Visual Electric - AI image generator Visual Electric (视觉电力)是前段
12/19/2023 12:31:03 AM
夏花生
  • 1