AI在线 AI在线

首个智能文档处理基准发布:Gemini领跑但短板待补,多模态AI面临现实挑战

5月11日,智能文档处理领域迎来重大进展——首个针对视觉-语言模型的统一基准测试"IDP Leaderboard"正式推出。 该基准通过16个数据集、9229份文档,全面评估了当前主流模型在OCR、关键信息提取、视觉问答、表格提取、分类和长文档处理六大核心任务上的表现,为行业发展提供了可量化参考。 测试结果显示,Gemini2.5Flash在综合实力上力压群雄,但却在OCR和分类任务中出现意外"滑铁卢",表现甚至不如上一代的Gemini2.0Flash,分别下降了1.84%和0.05%。

5月11日,智能文档处理领域迎来重大进展——首个针对视觉-语言模型的统一基准测试"IDP Leaderboard"正式推出。该基准通过16个数据集、9229份文档,全面评估了当前主流模型在OCR、关键信息提取、视觉问答、表格提取、分类和长文档处理六大核心任务上的表现,为行业发展提供了可量化参考。

1.jpg

测试结果显示,Gemini2.5Flash在综合实力上力压群雄,但却在OCR和分类任务中出现意外"滑铁卢",表现甚至不如上一代的Gemini2.0Flash,分别下降了1.84%和0.05%。业内分析认为,这一现象可能源于谷歌在模型迭代中过度侧重多模态推理能力,而相对忽视了基础文本识别功能的优化。

与此同时,OpenAI的GPT-4o-mini在图表和绘图理解方面表现亮眼,尤其在ChartQA等视觉问答任务中脱颖而出。然而,该模型每请求Token成本高居榜首,成为实际应用中不可忽视的限制因素。开发者社区讨论热点也集中在如何权衡性能与成本之间的平衡。

2.jpg

值得注意的是,长文档处理和表格提取仍然是当前视觉-语言模型的"阿喀琉斯之踵"。即使表现最佳的模型,在长文档任务(LongDocBench)上的得分也仅为69.08%,表格提取(基于GriTS指标)最高也只达到66.64%。这一结果凸显了AI在处理复杂布局和长上下文时的局限性。

IDP Leaderboard采用了极具挑战性的多样化数据集,涵盖手写文本、印刷文本、带变音符号文本、结构化与非结构化表格,以及长达21页的复杂文档。评估指标也根据任务特性灵活选择,如OCR、KIE、VQA和长文档处理使用编辑距离准确率,分类采用精确匹配准确率,表格提取则采用GriTS指标,确保评估的全面性和公正性。

该基准测试计划定期更新数据集并引入更多模型(如Claude系列),以保持评估的动态性和权威性。开发者可通过GitHub(https://github.com/nanonets/idp-leaderboard)访问相关数据集和评估代码,参与社区讨论。

智能文档处理基准的发布标志着多模态AI在文档处理领域进入了可量化评估的新阶段。虽然Gemini2.5Flash展现了强大实力,但测试也揭示了当前技术面临的挑战。随着数据集的不断扩充和模型优化的深入,智能文档处理技术有望在企业自动化、档案数字化和智能搜索等领域释放更大价值,为数字化转型提供更强大的技术支撑。

相关资讯

银行流水、财报、年报、电费分割单等各类文档一键提取,达观表格提取工具再升级!

很多工作流程中涉及文档的表格的提取,比如财报信息的识别提取、银行流水的表格审查等,并且这些文档常常在PDF、扫描件、图片等无法直接复制出表格样式的文档中。人工操作费时费力,还需要留心出错的问题。 达观数据智能表格提取工具,结合NLP、OCR、CV 等自研人工智能技术,以智能化方式解决文档表格提取中的核心痛点问题。可以支持PDF、Word、扫描件、图片等多种文档格式类型,快速提取文档中的表格信息,更直观、更方便、更准确的完成文档的表格提取,让表格识别提取工作更轻松。 先感受下强大便捷的产品使用体验:通过上传文档-查看
1/11/2022 9:43:00 AM
达观数据

WPS AI升级:国内首个支持表格深度思考的办公AI助手

WPS AI数据助手近日升级,增添深度思考能力,成为国内办公软件赛道首个支持表格类产品深度思考的AI应用。 这一升级结合了金山办公自主研发的文档图片识别与理解、图表引擎和跨格式数据融合等技术,现已接入WPS智能表格、WPS多维表格和WPS表格。 用户可以通过新建上述表格,在WPS AI选项卡下选择AI数据分析功能并启用深度思考模式,即可限时免费体验这项最新的AI办公服务。
3/7/2025 10:55:00 AM
AI在线

表格处理神器登上Nature!开箱即用,平均2.8s解读任意表格

电子表格也迎来了自己的ChatGPT时刻。 就在这两天,一个名为TabPFN的表格处理模型登上Nature,随后在数据科学领域引发热烈讨论。 图片据论文介绍,TabPFN专为小型表格而生,在数据集样本量不超过10,000时性能达到新SOTA。
1/9/2025 12:22:04 PM
  • 1