谷歌紧急上线Gemini Deep Research迎战GPT-5.2，AI“研究代理”大战一触即发

作者：AI在线 2025-12-12 11:07

就在OpenAI发布代号“Garlic”的GPT-5. 2 前夕，谷歌抢先一步推出其全新升级的AI研究代理——Gemini Deep Research。这款基于最新Gemini 3 Pro大模型构建的智能体，不仅能够生成高质量的研究报告，更关键的是，它首次通过全新的Interactions API向开发者开放，允许将谷歌的高级研究能力嵌入第三方应用程序中。

这标志着谷歌正加速布局“代理式AI”时代——一个人类不再亲自搜索信息，而是由AI代理代为完成复杂信息任务的未来。Gemini Deep Research专为处理海量信息与超长上下文提示而设计，能高效整合庞杂数据流，适用于尽职调查、药物毒性安全评估等高要求场景。谷歌表示，该工具将很快集成进Google Search、Google Finance、Gemini App以及广受学术圈欢迎的NotebookLM等产品中。

为应对代理式AI在长时间推理任务中极易出现的“幻觉”问题——即大模型凭空编造内容——Gemini 3 Pro特别优化了事实准确性。在多步骤、长时间运行的自主决策链条中，哪怕一次错误推理都可能让整份输出失效，因此模型的可靠性至关重要。

为了验证其技术优势，谷歌还推出了名为DeepSearchQA的新基准测试，专门评估AI代理在复杂、多跳信息检索任务中的表现，并已开源该评测集。此外，Gemini Deep Research也在两个外部权威测试中亮相：一是以刁钻冷门著称的“人类终极考试”（Humanity’s Last Exam），二是聚焦浏览器自动化任务的BrowserComp。结果显示，谷歌代理在前两项测试中领先，但在BrowserComp上略逊于OpenAI的ChatGPT 5 Pro。

讽刺的是，这些对比数据几乎在发布当天就失去了时效性——因为OpenAI紧随其后正式推出了GPT-5.2，宣称其在包括自家基准在内的多项测试中全面超越竞品，尤其点名击败谷歌。这场发布时点的精准卡位，凸显出两大AI巨头在代理智能赛道上的激烈角力：一方试图以深度研究能力定义下一代AI助手，另一方则用更通用的推理性能发起反击。真正的AI代理战争，或许才刚刚开始。