AI在线 AI在线

谷歌紧急上线Gemini Deep Research迎战GPT-5.2,AI“研究代理”大战一触即发

就在OpenAI发布代号“Garlic”的GPT-5. 2 前夕,谷歌抢先一步推出其全新升级的AI研究代理——Gemini Deep Research。 这款基于最新Gemini 3 Pro大模型构建的智能体,不仅能够生成高质量的研究报告,更关键的是,它首次通过全新的Interactions API向开发者开放,允许将谷歌的高级研究能力嵌入第三方应用程序中。

就在OpenAI发布代号“Garlic”的GPT-5. 2 前夕,谷歌抢先一步推出其全新升级的AI研究代理——Gemini Deep Research。这款基于最新Gemini 3 Pro大模型构建的智能体,不仅能够生成高质量的研究报告,更关键的是,它首次通过全新的Interactions API向开发者开放,允许将谷歌的高级研究能力嵌入第三方应用程序中。

这标志着谷歌正加速布局“代理式AI”时代——一个人类不再亲自搜索信息,而是由AI代理代为完成复杂信息任务的未来。Gemini Deep Research专为处理海量信息与超长上下文提示而设计,能高效整合庞杂数据流,适用于尽职调查、药物毒性安全评估等高要求场景。谷歌表示,该工具将很快集成进Google Search、Google Finance、Gemini App以及广受学术圈欢迎的NotebookLM等产品中。

为应对代理式AI在长时间推理任务中极易出现的“幻觉”问题——即大模型凭空编造内容——Gemini 3 Pro特别优化了事实准确性。在多步骤、长时间运行的自主决策链条中,哪怕一次错误推理都可能让整份输出失效,因此模型的可靠性至关重要。

为了验证其技术优势,谷歌还推出了名为DeepSearchQA的新基准测试,专门评估AI代理在复杂、多跳信息检索任务中的表现,并已开源该评测集。此外,Gemini Deep Research也在两个外部权威测试中亮相:一是以刁钻冷门著称的“人类终极考试”(Humanity’s Last Exam),二是聚焦浏览器自动化任务的BrowserComp。结果显示,谷歌代理在前两项测试中领先,但在BrowserComp上略逊于OpenAI的ChatGPT 5 Pro。

讽刺的是,这些对比数据几乎在发布当天就失去了时效性——因为OpenAI紧随其后正式推出了GPT-5.2,宣称其在包括自家基准在内的多项测试中全面超越竞品,尤其点名击败谷歌。这场发布时点的精准卡位,凸显出两大AI巨头在代理智能赛道上的激烈角力:一方试图以深度研究能力定义下一代AI助手,另一方则用更通用的推理性能发起反击。真正的AI代理战争,或许才刚刚开始。

相关资讯

OpenAI推全新语音转录模型gpt-4o-transcribe,语音转文字准确率飙升

继此前在语音 AI 领域引发一些关注后,OpenAI并未停下在该领域探索的脚步,现在这家ChatGPT的创造者再次发力,推出了三款全新的自主研发语音模型,分别为:gpt-4o-transcribe, gpt-4o-mini-transcribe and gpt-4o-mini-tts。 其中最受瞩目的当属gpt-4o-transcribe。 目前,这些新模型已经率先通过应用程序接口(API)向第三方开发者开放,开发者们可以利用它们打造更智能的应用程序。
3/21/2025 9:01:00 AM
AI在线

OpenAI发布GPT-4.1系列模型:能力全面超越前代

4月15日,OpenAI 在其官方博客宣布正式发布 GPT-4.1系列模型,涵盖 GPT-4.1、GPT-4.1mini 和 GPT-4.1nano 三款子模型。 该系列在编程能力、指令理解及长文本处理等方面实现重大突破,全面超越前代 GPT-4o 及 GPT-4o mini。 其中,模型上下文窗口扩展至100万 tokens,知识库更新至2024年6月,为复杂任务提供更强支持。
4/15/2025 9:00:45 AM
AI在线

OpenAI发布GPT-4.1系列模型,编码与多模态能力全面升级

人工智能领域的竞争日趋白热化,OpenAI再次以技术突破引领潮流。 AIbase从社交媒体获悉,OpenAI于近日通过API形式发布了三款全新模型:GPT-4.1、GPT-4.1mini和GPT-4.1nano。 这些模型在性能上全面超越现有GPT-4o及GPT-4o mini,尤其在编码、指令遵循和多模态能力上表现突出。
4/15/2025 10:01:37 AM
AI在线