AI在线 AI在线

通义开源视觉感知多模态RAG推理框架VRAG-RL

近日,通义实验室自然语言智能团队正式发布并开源了VRAG-RL——一款视觉感知驱动的多模态RAG推理框架,旨在解决在真实业务场景中,AI如何从图像、表格、设计稿等视觉语言中检索关键信息并进行精细化推理的难题。 在复杂视觉文档知识库中检索并推理关键信息,一直是AI领域的一大挑战。 传统的检索增强型生成(RAG)方法在处理视觉丰富信息时显得力不从心,主要因为它们难以应对图像、图表等视觉内容,且现有视觉RAG方法受限于固定的检索-生成流程,难以充分挖掘视觉信息中的关键知识。

近日,通义实验室自然语言智能团队正式发布并开源了VRAG-RL——一款视觉感知驱动的多模态RAG推理框架,旨在解决在真实业务场景中,AI如何从图像、表格、设计稿等视觉语言中检索关键信息并进行精细化推理的难题。

在复杂视觉文档知识库中检索并推理关键信息,一直是AI领域的一大挑战。传统的检索增强型生成(RAG)方法在处理视觉丰富信息时显得力不从心,主要因为它们难以应对图像、图表等视觉内容,且现有视觉RAG方法受限于固定的检索-生成流程,难以充分挖掘视觉信息中的关键知识。

微信截图_20250531093312.png

为应对这些挑战,VRAG-RL框架从强化学习赋能多模态智能体训练、视觉感知机制设计以及检索与推理协同优化三个维度进行了系统性创新。它引入了多样化的视觉感知动作,如区域选择、裁剪、缩放等,使模型能够从粗粒度到细粒度逐步聚焦信息密集区域,精准提取关键视觉信息。这种从粗到细的感知方式,不仅提高了模型对视觉信息的理解能力,还显著提升了检索效率。

在训练过程中,VRAG-RL采用多专家采样策略,结合大规模模型的推理能力和专家模型的精确标注能力,使模型能够学习到更有效的视觉感知策略。同时,其细粒度奖励机制将检索效率、模式一致性与生成质量三方面因素融合,引导模型在与搜索引擎的交互中不断优化检索与推理路径。这种多维度奖励机制实现了检索与推理的双向驱动,形成了闭环优化。

VRAG-RL还引入了业界领先的GRPO算法,通过本地部署搜索引擎模拟真实世界应用场景,实现搜索引擎调用零成本,模型训练更加高效。这种训练方式不仅提升了模型的泛化能力,还使其在不同领域、不同类型的视觉任务中都能表现出色。

实验结果表明,VRAG-RL在多个视觉语言基准数据集上均取得了显著优于现有方法的性能表现,任务类型涵盖从单跳到多跳推理、从纯文本理解到图表识别和复杂布局解析等多种视觉丰富场景。无论是传统的prompt-based方法还是基于强化学习的方法,VRAG-RL都展现出了更出色的综合性能。

此外,VRAG-RL支持多轮交互,能够在推理阶段逐步聚焦于信息密集区域,实现从粗到细的信息获取。同时,该方法通过优化检索效率和推理路径,在保持高效率的同时,显著提升了模型在视觉任务上的性能。

Github:github.com/Alibaba-NLP/VRAG

相关资讯

Anthropic在移动端推Claude对话语音模式,可搜索Google 文档、日历等

位于旧金山的人工智能初创公司Anthropic宣布推出 Claude 人工智能聊天机器人新的重大更新:全新的语音对话模式。 该功能已在苹果 App Store(iOS 设备)和谷歌 Play Store(Android 设备)的移动应用中上线。 除了语音模式的推出,Anthropic还为所有免费用户扩展了网络搜索功能。
5/28/2025 10:01:00 AM
AI在线

Salesforce 斥资80亿美元收购 Informatica 押注Agent

Salesforce 周二宣布,将以约80亿美元现金收购云数据管理公司 Informatica,旨在进一步强化其 AI 战略核心 Agentforce 平台的能力。 根据协议,Informatica A 类和 B-1类普通股股东将获得每股25美元的现金回报。 交易将通过 Salesforce 的现金储备与新增债务的方式融资。
5/28/2025 10:01:01 AM
AI在线

​梦工厂创始人卡岑伯格牵头 1500 万美元融资,推出 AI 视频广告平台 Creatify

梦工厂的联合创始人杰弗里・卡岑伯格(Jeffrey Katzenberg)通过他的风险投资基金 WndrCo,联合领导了一轮1500万美元的 A 轮融资,投资于 AI 视频广告平台 Creatify。 Creatify 的 AdMax 平台利用人工智能快速生成多种视频广告,特别针对社交媒体营销。 该平台能够分析 TikTok 和 Instagram 等应用上表现优异的视频广告活动,从而优化其输出内容。
6/3/2025 10:01:04 AM
AI在线
  • 1