AI在线 AI在线

“扁平+拓扑”双索引,85页PDF"秒级"推理,MMRag幻觉率骤降76%

多模态长文档视觉问答(Multimodal Long-context Document Question Answering, 后文简称 M-L-DocQA)要求系统在给定一份可能长达数十页, 包含:文本、表格、图表、图像与版式元素的 PDF。 自动定位并融合跨页、跨模态的证据,最终生成自然语言答案。 图片这种任务常见于科研论文、上市公司年报、产品说明书、政府统计报告等场景。

多模态长文档视觉问答(Multimodal Long-context Document Question Answering, 后文简称 M-L-DocQA)要求系统在给定一份可能长达数十页, 包含:文本、表格、图表、图像与版式元素的 PDF。自动定位并融合跨页、跨模态的证据,最终生成自然语言答案。

图片图片

这种任务常见于科研论文、上市公司年报、产品说明书、政府统计报告等场景。深入接触过RAG的读者们,想必都明白其中的技术难点。

当前的技术路线与困境

目前基本上就两条技术路线1、大视觉-语言模型直接端到端(LVLM-based)代表工作:GPT-4V、Qwen-VL、InternLM-XComposer2-4KHD 等。优点:无需显式检索,可一次性读入整图或整 PDF。缺点:

  • 上下文长度受限,>100 页 PDF 必须滑动窗口或降采样,导致信息丢失;
  • 幻觉严重,在多跳数值推理上错误率极高;
  • 黑箱推理,难以给出可验证的证据链。

2、检索增强生成(RAG-based)代表工作:ColBERTv2、M3DocRAG、VisRAG 等。优点:可扩展至任意页数,显式返回证据,降低幻觉。缺点:

  • 模态割裂——文本检索器只看 OCR,图像检索器只看截图,二者得分空间不可比,导致“图文不能互通”;
  • 跨页碎片化——现有方法以单页或单段为检索粒度,无法建模“页与页之间的语义远距离依赖”;
  • 证据粒度单一——要么只召回段落,要么只召回整图,缺乏“页级父页 + 文档级摘要”的多层次证据。

MMRAG-DocQA要解决问题

  • 多模态连接缺失。问题关键词往往只与文本局部匹配,而真正答案却藏在图表视觉区,需要建立“文本-视觉”在同页内的语义桥。
  • 跨页证据链接与长距推理缺失。答案需要把 A 页的“说明性文字”与 B 页的“数值表格”联合计算,现有方法无法显式聚合跨页语义。

MMRAG-DocQA的方案

图片

  1. 首次将“分层索引 + 多粒度检索”引入多模态长文档问答。
  2. 设计扁平化页内索引(flattened in-page index)与拓扑跨页索引(topological cross-page index),同时建模“同页异模态相关性”与“跨页远距离依赖”。
  3. 提出页级父页检索(parent-page retrieval)与文档级摘要检索(summary retrieval)两种互补策略,实现粗-细粒度证据互补。

分层索引构造

“扁平+拓扑”双索引,85页PDF"秒级"推理,MMRag幻觉率骤降76%

多粒度检索策略

  • 页级父页检索(Modality Connection) 动机:答案图表与描述文字常共处一页,只要召回“相关文本段”,就能顺藤摸瓜拿到同页图像。流程:

“扁平+拓扑”双索引,85页PDF"秒级"推理,MMRag幻觉率骤降76%

  • 文档级摘要检索(Long-distance Reasoning)动机:跨页数值对比、多跳逻辑需要“宏观语义”指引,仅靠零散段无法满足。流程:
  • 在拓扑索引 I_cross 中,计算 Q 与所有节点向量的相似度;
  • 取 Top-K_s 个节点,拉取对应摘要,得 Summary^final_q;
  • 摘要已天然融合多页信息,可直接作为“高层证据”。

证据融合与答案生成

最终上下文 ,拼接后送入 LLM。提示模板 P_CoT 要求模型按四步输出:Step-by-step Analysis → Reasoning Summary → Relevant Pages → Final Answer[type],其中 type∈{List,Integer,String,Float},方便脚本自动提取,无需额外正则。

图片图片

https://arxiv.org/pdf/2508.00579v2

https://github.com/Gzy1112/MMRAG-DocQA

相关资讯

AAAI2025 | ICLR 2025爆款!CHiP创新引入视觉偏好,幻觉率腰斩

一眼概览CHiP 提出了一种跨模态分层偏好优化方法,通过视觉与文本偏好双重引导,显著提升多模态大模型(MLLMs)在幻觉检测任务中的表现,最高减少55.5%的幻觉率。 核心问题多模态大模型(如GPT-4V、LLaVA)虽具强大能力,但常产生“幻觉”——即图文语义不一致、生成不符合图像内容的描述。 现有DPO方法仅基于文本偏好,难以有效对齐图像和文本的表示,也无法细粒度定位幻觉段落,限制了模型可信度与实用性。
4/28/2025 12:28:27 PM
萍哥学AI

无需训练,自动扩展的视觉Transformer来了

来自德克萨斯大学奥斯汀分校、悉尼科技大学和谷歌的研究者提出了一个无需训练就能自动扩展框架 As-ViT,其能以高效和有原则的方式自动发现和扩展 ViT。
4/10/2022 12:49:00 PM
机器之心

登Nature子刊,拓扑Transformer模型进行多尺度蛋白质-配体互作预测,助力药物研发

编辑 | 萝卜皮一项新的人工智能应用将帮助研究人员提高药物研发能力。该项目名为 TopoFormer,是由美国密歇根州立大学(Michigan State University)数学系 Guowei Wei 教授领导的跨学科团队开发的。TopoFormer 将分子的三维信息转化为典型的基于人工智能的药物相互作用模型可以使用的数据,扩展了这些模型预测药物有效性的能力。「有了人工智能,你可以让药物研发更快、更高效、更便宜。」Wei 说,他同时在生物化学和分子生物学系以及电气和计算机工程系任职。Wei 教授解释道,在美国
7/2/2024 11:59:00 AM
ScienceAI
  • 1