AI在线 AI在线

哥伦比亚大学研究:AI 搜索工具平均准确率仅六成,且自信满满“不认错”

除 Perplexity 及其付费版外,其余 AI 搜索引擎的表现都不尽如人意。整体来看,AI 搜索引擎提供的答案有 60% 是不准确的,而且 AI 对错误答案的“自信”反而加剧了问题。

据外媒 Techspot 周二报道,哥伦比亚大学数字新闻研究中心(Tow Center for Digital Journalism)近期对八款 AI 搜索引擎展开研究,包括 ChatGPT Search、Perplexity、Perplexity Pro、Gemini、DeepSeek Search、Grok-2 Search、Grok-3 Search 和 Copilot。研究人员测试了每款引擎的准确性,并记录了它们拒绝回答问题的频率。

哥伦比亚大学研究:AI 搜索工具平均准确率仅六成,且自信满满“不认错”

研究人员从 20 家新闻机构中随机挑选了 200 篇报道(每家 10 篇),确保它们在谷歌搜索时能排在前三位,然后用相同的查询方式测试各 AI 搜索工具,并评估它们是否正确引用了文章内容、新闻机构名称和原始链接

测试结果显示,除 Perplexity 及其付费版外,其余 AI 搜索引擎的表现都不尽如人意。整体来看,AI 搜索引擎提供的答案有 60% 是不准确的,而且 AI 对错误答案的“自信”反而加剧了问题。

这项研究的重要性在于,它用数据印证了外界多年来的担忧 —— 大语言模型仅会出错,还擅长一本正经地胡说八道。它们往往以绝对肯定的语气陈述错误信息,甚至在被质疑时仍然试图自圆其说。

即使承认了错误,ChatGPT 仍可能在后续回答中继续编造内容。在大语言模型的设定中,几乎是无论如何都要给出答案”。研究数据支持了这一观点:ChatGPT Search 是唯一回答了所有 200 个新闻查询的 AI 工具,但其“完全正确”率仅 28%,而“完全错误”率高达 57%

ChatGPT 并非表现最糟的。X 旗下的 Grok AI 表现尤为不堪,其中 Grok-3 Search 的错误率高达 94%。微软 Copilot 也问题重重 —— 在 200 次查询中,有 104 次拒绝作答,剩下的 96 次中,仅 16 次“完全正确”,14 次“部分正确”,66 次“完全错误”,总体错误率接近 70%

这些 AI 工具的开发公司并未公开承认这些问题,却仍向用户收取每月 20 至 200 美元(AI在线备注:当前约 145 至 1449 元人民币)的订阅费。此外,付费版 Perplexity Pro(20 美元 / 月)和 Grok-3 Search(40 美元 / 月)比免费版回答得更多,但错误率也更高。

相关资讯

谷歌承认:即使网站选择退出,仍用搜索数据训练 AI

科技巨头谷歌在近日的一场联邦反垄断审判中承认,即使网站出版商明确选择不让其内容用于人工智能模型训练,谷歌仍会利用其搜索引擎收集的数据进行 AI 训练,包括备受争议的 AI Overviews 功能。 这一承认由谷歌旗下人工智能实验室 DeepMind 的副总裁伊莱·柯林斯在作证时做出。 司法部律师戴安娜·阿吉拉尔在质询中指出,即使出版商选择不让 DeepMind 使用其数据进行大型语言模型训练,这些相同的数据仍然会被谷歌搜索部门用于其自身的人工智能项目。
5/6/2025 10:01:11 AM
AI在线

AI 齐来挑战“全球搜索一哥”,过去半年谷歌份额持续低于 90%

从2022年底 ChatGPT 问世以来,谷歌的市场份额从93%降至如今的近90%。虽说变化不大,但过去半年间,其份额一直未能回到90%以上,而这也是过去十年从未有过的情况。
5/8/2025 9:13:43 PM
清源

阿里开源 ZeroSearch 模型:可“自学”搜索能力,无需外部搜索引擎

官方披露的信息显示,在 7 大问答数据集评测中,其性能与谷歌搜索相当甚至实现超越(70 亿参数模型得分为 33.06 vs. 谷歌 32.47),且成本降低 87.93%。
5/9/2025 8:51:17 PM
清源
  • 1