AI在线 AI在线

OpenAI新推AI模型o3幻觉现象加剧,精准性令人担忧

最近,OpenAI 推出了其最新的 o3和 o4-mini AI 模型,这些模型在许多方面都达到了尖端水平。 然而,新的模型在 “幻觉” 问题上却并没有改善,反而幻觉现象比 OpenAI 之前的多个模型更为严重。 所谓 “幻觉”,是指 AI 模型会错误地生成虚假信息,这是当今最棘手的 AI 问题之一。

最近,OpenAI 推出了其最新的 o3和 o4-mini AI 模型,这些模型在许多方面都达到了尖端水平。然而,新的模型在 “幻觉” 问题上却并没有改善,反而幻觉现象比 OpenAI 之前的多个模型更为严重。

所谓 “幻觉”,是指 AI 模型会错误地生成虚假信息,这是当今最棘手的 AI 问题之一。以往每一代新模型在减少幻觉方面都有所改善 o3和 o4-mini 却打破了这一规律。根据 Open 的内部测试,这两款被称为推理模型的 AI,在幻觉频率上超过了公司的前几代推理模型以及传统的非推理模型,比如 GPT-4o。

OpenAI

图源备注:图片由AI生成,图片授权服务商Midjourney

OpenAI 在其技术报告中指出,o3模型在 PersonQA 基准测试中的幻觉率高达33%,这是之前 o1和 o3-mini 模型幻觉率的两倍,后者分别为16% 和14.8%。而 o4-mini 在 PersonQA 中的幻觉率甚至达到了48%,显示出更为严重的问题。

第三方测试机构 Transluce 也发现,o3模型在回答问题时常常编造自己所采取的行动。例如,o3声称自己在2021年的 MacBook Pro 上运行了代码,然后把结果复制到答案中,尽管它并不能这么做。

Transluce 的研究人员表示,o 系列模型所采用的强化学习方法可能会放大一些原本可以通过常规后期训练流程缓解的问题。此现象让 o3的实用性大打折扣。一位斯坦福大学的兼职教授在测试 o3的编程工作流时发现,o3会生成一些无效的网站链接,影响了使用体验。

虽然幻觉现象可以在某种程度上促进模型的创造性思维,但在对准确性要求极高的行业,如法律领域,模型频繁的事实错误将导致很大的问题。

提升模型准确性的一种有效方法是给予它们网络搜索能力。OpenAI 的 GPT-4o 通过网络搜索在 SimpleQA 基准测试中达到了90% 的准确率,因此搜索功能有可能改善推理模型的幻觉现象。

然而,如果推理模型的幻觉问题随着规模的扩大而不断恶化,那么找到解决方案的紧迫性将会加大。OpenAI 方面表示,正在持续进行研究,以提高其所有模型的准确性和可靠性。

在过去一年中,AI 行业已转向关注推理模型,因为改善传统 AI 模型的技术已经出现了收益递减的趋势。然而,推理模型的出现似乎也带来了更多的幻觉现象,这为未来的发展带来了新的挑战。

划重点:  

🌟 OpenAI 的新推理模型 o3和 o4-mini 幻觉频率比以往更高。  

🤖 o3在 PersonQA 基准测试中幻觉率达到33%,而 o4-mini 则高达48%。  

🔍 提升模型准确性的潜在方法是引入网络搜索功能,以降低幻觉现象。

相关资讯

调查:超72% 的企业选择 AI 工具时最看重易用性

根据最近的一项 CIO 报告,企业在人工智能(AI)领域的投资高达2.5亿美元,尽管在证明投资回报率(ROI)方面面临挑战。 商业领袖们正努力提高生产力,但新技术的集成往往需要重构现有应用、更新流程并激励员工学习,以适应现代商业环境。 QuickBlox 首席执行官 Nate MacLeitch 对136位高管进行了调查,以揭示 AI 采用的现实情况,探讨领导者的首要任务、主要担忧以及他们在2025年寻找可信工具的信息来源。
3/18/2025 10:02:00 AM
AI在线

可保护作品免遭 AI 训练,Adobe 推出 Content Authenticity 应用

Adobe 推出全新应用 Content Authenticity,用于保护创意工作者的作品署名权,即使有人截屏并在网络二次传播也不受影响。这款网页应用于今日面向公众开放测试,用户上传需要保护的图像,应用就能嵌入隐形元数据和添加“禁止 AI 训练”标签,帮助确认作品归属和保护作品免遭 AI 训练。
4/24/2025 9:32:18 PM
准泽(实习)

城商行掀起大模型招标潮,百万级投入成行业新风口!

在人工智能技术快速发展的背景下,越来越多的城商行开始纷纷参与到大模型的招标中。 根据最新消息,超过10家中小银行近期启动了大模型相关项目的招标,标志着这一领域的竞争加剧。 这些银行希望通过大模型技术优化现有的金融服务流程,提高运营效率,进而为客户提供更优质的服务。
7/11/2025 11:11:51 AM
AI在线
  • 1