AI在线 AI在线

GPT-5终于没有幻觉了?

为什么一个被誉为"最聪明"的AI,到现在还会一本正经地告诉你"拿破仑是用iPhone指挥滑铁卢战役的"? 这个问题困扰了AI圈好几年。 但现在,答案终于来了。

为什么一个被誉为"最聪明"的AI,到现在还会一本正经地告诉你"拿破仑是用iPhone指挥滑铁卢战役的"?

这个问题困扰了AI圈好几年。但现在,答案终于来了。

就在前几天,Sam Altman在一档播客中放出了一个重磅消息:GPT-5是第一个基本不产生幻觉的模型系列。

听起来有点玄乎?我当时也这么觉得。毕竟这句话我们听过太多遍了,每次新模型发布都说"更准确"、"更可靠",结果还是会胡说八道。

但这次好像真的不一样。

从造谣专家到诚实助手,GPT-5做对了什么?

要理解这个突破,得先明白AI为什么会"说谎"。

之前大家都以为,AI胡编乱造是因为它必须回答问题,不知道也要硬答。这听起来很合理——就像考试时不会的题也要写点什么一样。

但最近Anthropic的研究发现,事情完全相反。AI的默认模式其实是拒绝回答,就像那个永远说"我不知道"的谨慎同学。只有当它确实"认识"某个概念时,才会激活"我知道答案"的回路,覆盖掉默认的拒绝机制。

幻觉的问题就出现在这里:当AI似曾相识但又不完全确定时,"知道答案"的回路会被错误激活,结果就开始一本正经地胡说八道。

比如问AI"Andrej Karpathy写过什么论文",它认出了这是个AI研究员,但不确定具体成果,就猜了一篇相关领域的经典论文。结果这篇论文确实存在,但不是Karpathy写的。

GPT-5的突破就在于重新校准了这套机制。通过强化"拒绝回路",当模型不确定时,它更倾向于说"我不知道",而不是瞎猜。

数据说话:幻觉率下降有多夸张?

我找了些具体数据来验证Sam Altman的说法。

在PersonQA这个测试中,GPT-4o的幻觉率是52%——也就是说,一半的回答都是编的。而最新的测试显示,GPT-4.5的幻觉率降到了19%。

更有意思的是,一些独立研究显示,某些优化过的系统甚至能把幻觉率控制在2%以下。一个名为CustomGPT的团队通过RAG技术,在实际业务场景中实现了98%以上的准确率。

当然,这些都是在特定测试环境下的结果。实际使用中,情况可能会复杂一些。但至少说明了一个趋势:AI幻觉问题确实在被系统性地解决。

不完美的完美主义者

有个细节挺有意思的。Sam Altman在播客里还说了另一句话:"不要太相信ChatGPT,它还是会幻觉的。"

这听起来自相矛盾,但其实很明智。就像汽车安全带能救命,但你还是不能闭着眼开车一样。

目前看来,GPT-5更像是一个"谨慎的专家"而不是"万能的神"。它会在不确定时主动说"我不知道",而不是硬着头皮回答。这种诚实的不确定性,反而让它更值得信任。

一些企业已经开始在关键业务场景中测试GPT-5。比如医疗咨询,法律文档分析,金融风险评估。早期反馈显示,虽然它回答问题的数量可能减少了,但答案的质量和可靠性显著提升。

行业巨变前夜

说实话,如果GPT-5真的解决了幻觉问题,影响会比想象中大得多。

最直接的变化是,AI终于能在那些对准确性要求极高的领域派上用场了。医生可以放心让AI帮忙分析病历,律师可以让AI初步审查合同,会计师可以让AI处理财务数据——这些之前想都不敢想的场景,现在成了可能。

另一个变化是竞争格局。谷歌的Gemini 2.0在某些测试中幻觉率只有0.7%,显然也在这个方向上发力。未来AI模型的竞争,可能会从"谁更聪明"转向"谁更可靠"。

不过也有人担心,过度追求准确性会让AI变得保守,失去创造力。毕竟有时候"胡说八道"也能激发灵感。

这个担心不无道理。好在OpenAI似乎也想到了这点,据说会推出不同版本的模型:严肃版专注准确性,创意版保留一定的"想象空间"。

我们准备好了吗?

话说回来,即使GPT-5真的不再幻觉,我们还需要时间来建立信任。

就像当年从马车过渡到汽车,即使汽车更快更安全,人们还是习惯性地怀疑这个"不需要马拉的车"。现在我们面临类似的心理障碍:即使AI不再胡说八道,我们还是会忍不住验证它的每一个答案。

这样的谨慎其实是好事。毕竟,信任需要慢慢建立,但一旦建立,就能释放巨大的生产力。

GPT-5如果真如Sam Altman所说,可能标志着我们进入了"可信AI时代"的开端。但这个时代的精彩程度,还得看我们怎么用它。

总之,这次真的可能不一样了。

相关资讯

OpenAI推全新语音转录模型gpt-4o-transcribe,语音转文字准确率飙升

继此前在语音 AI 领域引发一些关注后,OpenAI并未停下在该领域探索的脚步,现在这家ChatGPT的创造者再次发力,推出了三款全新的自主研发语音模型,分别为:gpt-4o-transcribe, gpt-4o-mini-transcribe and gpt-4o-mini-tts。 其中最受瞩目的当属gpt-4o-transcribe。 目前,这些新模型已经率先通过应用程序接口(API)向第三方开发者开放,开发者们可以利用它们打造更智能的应用程序。
3/21/2025 9:01:00 AM
AI在线

OpenAI发布GPT-4.1系列模型:能力全面超越前代

4月15日,OpenAI 在其官方博客宣布正式发布 GPT-4.1系列模型,涵盖 GPT-4.1、GPT-4.1mini 和 GPT-4.1nano 三款子模型。 该系列在编程能力、指令理解及长文本处理等方面实现重大突破,全面超越前代 GPT-4o 及 GPT-4o mini。 其中,模型上下文窗口扩展至100万 tokens,知识库更新至2024年6月,为复杂任务提供更强支持。
4/15/2025 9:00:45 AM
AI在线

OpenAI发布GPT-4.1系列模型,编码与多模态能力全面升级

人工智能领域的竞争日趋白热化,OpenAI再次以技术突破引领潮流。 AIbase从社交媒体获悉,OpenAI于近日通过API形式发布了三款全新模型:GPT-4.1、GPT-4.1mini和GPT-4.1nano。 这些模型在性能上全面超越现有GPT-4o及GPT-4o mini,尤其在编码、指令遵循和多模态能力上表现突出。
4/15/2025 10:01:37 AM
AI在线
  • 1