AI在线 AI在线

MMRag

“扁平+拓扑”双索引,85页PDF"秒级"推理,MMRag幻觉率骤降76%

多模态长文档视觉问答(Multimodal Long-context Document Question Answering, 后文简称 M-L-DocQA)要求系统在给定一份可能长达数十页, 包含:文本、表格、图表、图像与版式元素的 PDF。 自动定位并融合跨页、跨模态的证据,最终生成自然语言答案。 图片这种任务常见于科研论文、上市公司年报、产品说明书、政府统计报告等场景。
9/11/2025 2:22:00 AM
CourseAI
  • 1