AI在线 AI在线

阿里通义实验室开源视觉文档RAG系统ViDoRAG,准确率达79.4%

近日,阿里巴巴通义实验室宣布开源其最新研发成果——ViDoRAG,这是一款专为视觉文档理解设计的检索增强生成(RAG)系统。 ViDoRAG在GPT-4o模型上的测试显示,其准确率达到了令人瞩目的79.4%,相较传统RAG系统提升了10%以上。 这一突破标志着视觉文档处理领域迈出了重要一步,为人工智能在复杂文档理解上的应用提供了新的可能性。

近日,阿里巴巴通义实验室宣布开源其最新研发成果——ViDoRAG,这是一款专为视觉文档理解设计的检索增强生成(RAG)系统。ViDoRAG在GPT-4o模型上的测试显示,其准确率达到了令人瞩目的79.4%,相较传统RAG系统提升了10%以上。这一突破标志着视觉文档处理领域迈出了重要一步,为人工智能在复杂文档理解上的应用提供了新的可能性。

QQ_1740990500852.png

多智能体框架赋能视觉文档理解

ViDoRAG并非传统的单一模型,而是采用了创新的多智能体框架设计。据介绍,该系统结合了动态迭代推理代理(Dynamic Iterative Reasoning Agents)和基于GMM(高斯混合模型)的混合检索技术。这种方法使得ViDoRAG能够在处理包含图像和文本的视觉文档时,更加精准地提取和推理关键信息。相比传统RAG系统仅依赖文本检索的局限性,ViDoRAG通过多模态数据融合显著提升了性能。

通义实验室在发布的论文和代码仓库中详细描述了ViDoRAG的工作原理。其核心在于通过多个智能体协作,动态调整检索和生成的过程,从而在复杂场景下减少“幻觉”现象(即模型生成不准确或凭空捏造的内容),并提高回答的可靠性和上下文相关性。

性能突破:准确率提升10%以上

该系统在GPT-4o上的准确率达到79.4%,这一数字不仅展示了其优异性能,还将其与传统RAG系统进行了对比。传统RAG系统虽然在文本生成任务中表现出色,但在处理视觉文档时往往受限于单一模态的检索能力,准确率通常徘徊在较低水平。而ViDoRAG通过引入视觉信息与文本信息的深度整合,将准确率提升了超过10个百分点。这一进步对于需要高精度文档理解的场景,如法律文件分析、医疗报告解读和企业数据处理,具有重要意义。

阿里巴巴通义实验室将ViDoRAG开源的举措也在Twitter上引发了热议。用户认为,这一系统的公开不仅体现了阿里在AI领域的技术实力,也为全球开发者和研究人员提供了一个宝贵的资源。通过公开论文和代码(相关链接已在Twitter帖子中分享),ViDoRAG有望加速视觉文档RAG技术的研究与应用,推动多模态AI系统的进一步发展。

ViDoRAG的发布和开源无疑为RAG技术开辟了新的方向,随着视觉文档处理需求的不断增长,ViDoRAG的出现或许只是一个开始,未来我们可能会看到更多类似的创新系统涌现。

项目:https://github.com/Alibaba-NLP/ViDoRAG

相关资讯

AI “尝味觉” 新突破!分辨可乐与咖啡竟然如此简单!

在科技不断发展的今天,人工智能(AI)又迎来了一项令人惊讶的进展:它竟然可以 “尝” 出不同的味道!最近,意大利科学家们研发出了一种名为 GO-ISMD 的人工味觉系统,这一系统不仅能够准确感知酸、甜、苦、咸等基本味道,准确率高达90%,更能在一尝之间分辨出可乐和咖啡的不同。 这一研究成果已发表于《美国国家科学院院刊》(PNAS),并引起了广泛关注。 科学家们通过使用氧化石墨烯这种材料,构建了一种能模拟人类味觉反应的传感器。
7/15/2025 6:01:08 PM
AI在线

超越DeepSeek-R1,数学形式化准确率飙升至84% | 字节&南大开源

当人工智能已经能下围棋、写代码,如何让机器理解并证明数学定理,仍是横亘在科研界的重大难题。 字节跳动Seed团队与南京大学联合发布CriticLean框架,一举将数学自然语言到Lean 4代码的形式化准确率从38%提升至84%。 该框架创新性地将评估模型置于核心位置。
7/31/2025 8:21:32 AM
梦晨

如何防止我的模型过拟合?这篇文章给出了6大必备方法

正如巴菲特所言:「近似的正确好过精确的错误。」
1/20/2021 3:01:00 PM
机器之心
  • 1