AI在线 AI在线

OpenAI 发布 CoT 思维链研究成果,监控阻止大模型恶意行为

结果显示,CoT 监控器在检测系统性“奖励黑客”行为时表现卓越,召回率高达 95%,远超仅监控行为的 60%。

OpenAI 今日公布了其最新研究,试图用 CoT(思维链)监控的方式监控推理模型的“想法”,从而阻止 AI 大模型胡说八道、隐藏真实意图等行为,同时这也是监督超级模型的有效工具之一。

AI在线注:AI 偶尔会胡说八道,我们一般称其为 AI 幻觉。除此之外,AI 还会偷懒或故意耍坏,例如在问题太难时欺骗用户或干脆放弃。

OpenAI 发布 CoT 思维链研究成果,监控阻止大模型恶意行为

OpenAI 使用了最新发布的前沿模型 o3-mini 作为被监控对象,并以较弱的 GPT-4o 模型作为监控器。测试环境为编码任务,要求 AI 在代码库中实现功能以通过单元测试。

结果显示,CoT 监控器在检测系统性“奖励黑客”行为时表现卓越,召回率高达 95%,远超仅监控行为的 60%。

相关资讯

性能依旧领先!OpenAI深夜上线o3满血版和o4 mini

昨天晚上 1 点,OpenAI 的直播如约而至。 其实在预告的时候,几乎已经等于明示了。 没有废话,发布的就是 o3 和 o4-mini。
4/18/2025 1:02:47 AM
数字生命卡兹克

ChatGPT用户数暴涨至7亿创纪录新高,OpenAI年化收入飙升至120亿美元

OpenAI正在经历前所未有的爆炸式增长。 该公司周一宣布,其旗舰产品ChatGPT的周活跃用户数已达到 7 亿,同比增长超过四倍,这一数字标志着AI应用领域的又一个重要里程碑。 用户增长势头强劲,商业化进程全面提速ChatGPT的用户增长呈现出惊人的加速趋势。
8/5/2025 11:19:01 AM
AI在线

OpenAI 推出 Mac 版 ChatGPT 应用,今年晚些时候推出 Windows 版

OpenAI  终于推出了 ChatGPT 桌面版应用程序,该公司在官方公告中表示:“从今天开始,我们将首先向 Plus 用户推出 macOS 应用,并在未来几周内向更广泛的用户开放。我们还计划在今年晚些时候推出 Windows 版本。”OpenAI 还称,ChatGPT 还将拥有经过优化的用户界面。OpenAI 的演示显示,用户可以将处于最小化窗口的 ChatGPT 桌面应用与其他程序并排打开。用户可以通过输入或语音的方式向 ChatGPT 提问屏幕上显示的内容,ChatGPT 则能根据其“所见” 进行回答。Op
5/14/2024 1:48:54 AM
远洋
  • 1