AI在线 AI在线

力压群雄:谷歌 Gemini 2.5 Pro 成首款完全理解 PDF 布局的 AI 模型,可精确引用

最新报告指出,谷歌旗下的 Gemini 2.5 Pro 模型能准确解析 PDF 文档的视觉结构,实现精准的视觉引用功能,成为首款能完全理解 PDF 布局的 AI 模型。

最新报告指出,谷歌旗下的 Gemini 2.5 Pro 模型能准确解析 PDF 文档的视觉结构,实现精准的视觉引用功能,成为首款能完全理解 PDF 布局的 AI 模型。

AI在线注:谷歌于 3 月 25 日向付费用户和开发者发布 Gemini 2.5 Pro 实验模型,仅隔 4 天时间,谷歌便通过免费 Web 应用向全球用户开放。

Gemini 2.5 Pro 不仅能提取 PDF 文档中的文本内容,还能理解其视觉布局,包括图表、表格和整体排版。

谷歌在开发者文档中表示,该模型具备“原生视觉”(Native Vision)能力,支持处理最多 3000 个 PDF 文件(每个文件上限为 1000 页或 50MB),同时拥有 100 万 token 的超大上下文窗口,未来计划扩展至 200 万 token。

AI 初创公司 Matrisk 的联合创始人 Sergey Filimonov 特别赞扬了 Gemini 2.5 Pro 在 PDF 视觉引用上的表现。

Filimonov 指出,传统的文本分割方法会切断用户与原文的视觉联系,导致无法直观验证信息的来源。甚至在 ChatGPT 中,点击引用也只能下载 PDF,迫使用户自行判断模型是否“幻觉”,这严重损害了用户信任。

过去,引用文档内容往往只能高亮大段无关文本,精准度极低。Gemini 2.5 彻底改变这一现状,它不仅能将提取的文本片段映射回原始 PDF 的确切位置,还能以前所未有的精度锁定特定句子、表格单元甚至图像。

这种技术突破为用户提供了直观的视觉反馈,例如在询问房屋费率变化时,系统能直接高亮文档中相关数据(如 15.4% 的费率变化),并标注来源依据。

这种清晰度和交互性是现有工具无法企及的。Gemini 2.5 不仅优化了现有流程,更开启了全新的文档交互模式。

力压群雄:谷歌 Gemini 2.5 Pro 成首款完全理解 PDF 布局的 AI 模型,可精确引用

相比之下,Gemini 2.5 以 0.804 的 IoU(交并比)精度大幅领先其他模型,如 OpenAI 的 GPT-4o(0.223)和 Claude 3.7 Sonnet(0.210),展现出惊人的空间理解能力。

提供商模型IOU简评
Gemini2.5 Pro0.804非常优秀
Gemini2.5 Flash0.614有时表现不错
Gemini2.0 Flash0.395
OpenAIgpt-4o0.223
OpenAIgpt-4.10.268
OpenAIgpt-4.1-mini0.253
Claude3.7 Sonnet0.210

Gemini 2.5 的潜力远不止于文本定位。它还能从 PDF 中提取结构化数据,同时明确标注每个数据的来源位置,解决下游决策中因数据来源不明而产生的信任障碍。

力压群雄:谷歌 Gemini 2.5 Pro 成首款完全理解 PDF 布局的 AI 模型,可精确引用

相关资讯

曝安卓版谷歌 Gemini AI 助手正在灰度测试“聊天历史记录搜索”功能

AI在线 7 月 14 日消息,科技媒体 9To5Google 上周(当地时间 7 月 11 日)发文,曝光了安卓版谷歌 Gemini AI 助手正在灰度测试“聊天历史记录搜索”功能,可更加便捷地找到用户需要的聊天历史记录。 ▲ 灰度测试用户截图,下同据该媒体所述,部分用户在打开安卓版 Gemini App 后,再点击汉堡菜单(AI在线注:抽屉菜单)按钮时,顶部出现了“搜索聊天记录(Search for chats)”的搜索按钮。 在点击后可以看到一个全屏覆盖的搜索菜单,界面较为简洁,使用逻辑上与 ChatGPT 等 AI 助手的搜索功能无异。
7/14/2025 11:00:50 AM
潞源(实习)

29 年经典游戏被攻克:谷歌 Gemini 2.5 Pro 成功通关《宝可梦蓝》

谷歌Gemini 2.5 Pro成功通关29年前的经典游戏《宝可梦蓝》,展示了AI在游戏领域的突破。谷歌CEO皮查伊兴奋宣布这一成果,引发对AI游戏能力的讨论。#AI游戏# #Gemini#
5/4/2025 7:55:19 AM
远洋

谷歌 Gemini 新增视频上传与分析功能,安卓、网页端已可用

谷歌Gemini 2.5 Pro和Flash全面开放,新增视频分析功能,用户可在安卓和网页端上传视频进行分析。Gemini能概述视频内容、查找特定部分或物品,并在回复中显示相关视频片段。目前该功能已上线,但暂不支持直接录制视频。#谷歌Gemini# #AI视频分析#
6/18/2025 1:21:35 PM
远洋
  • 1