AI在线 AI在线

OpenAI 发布 CoT 思维链研究成果,监控阻止大模型恶意行为

结果显示,CoT 监控器在检测系统性“奖励黑客”行为时表现卓越,召回率高达 95%,远超仅监控行为的 60%。

OpenAI 今日公布了其最新研究,试图用 CoT(思维链)监控的方式监控推理模型的“想法”,从而阻止 AI 大模型胡说八道、隐藏真实意图等行为,同时这也是监督超级模型的有效工具之一。

AI在线注:AI 偶尔会胡说八道,我们一般称其为 AI 幻觉。除此之外,AI 还会偷懒或故意耍坏,例如在问题太难时欺骗用户或干脆放弃。

OpenAI 发布 CoT 思维链研究成果,监控阻止大模型恶意行为

OpenAI 使用了最新发布的前沿模型 o3-mini 作为被监控对象,并以较弱的 GPT-4o 模型作为监控器。测试环境为编码任务,要求 AI 在代码库中实现功能以通过单元测试。

结果显示,CoT 监控器在检测系统性“奖励黑客”行为时表现卓越,召回率高达 95%,远超仅监控行为的 60%。

相关资讯

性能依旧领先!OpenAI深夜上线o3满血版和o4 mini

昨天晚上 1 点,OpenAI 的直播如约而至。 其实在预告的时候,几乎已经等于明示了。 没有废话,发布的就是 o3 和 o4-mini。
4/18/2025 1:02:47 AM
数字生命卡兹克

ChatGPT用户数暴涨至7亿创纪录新高,OpenAI年化收入飙升至120亿美元

OpenAI正在经历前所未有的爆炸式增长。 该公司周一宣布,其旗舰产品ChatGPT的周活跃用户数已达到 7 亿,同比增长超过四倍,这一数字标志着AI应用领域的又一个重要里程碑。 用户增长势头强劲,商业化进程全面提速ChatGPT的用户增长呈现出惊人的加速趋势。
8/5/2025 11:19:01 AM
AI在线

奥特曼给ChatGPT空降高管,11亿美元收购独角兽创始人加入OpenAI…好熟悉的剧情

小扎的玩法,奥特曼现在也(部分)学会了。 这不,就在刚刚,OpenAI“致敬”Meta,玩起了打包收购、高管空降、团队重组这一套。 最新消息,OpenAI将以11亿美元全股票收购Statsig,公司原高管一并加入OpenAI,负责ChatGPT、CodeX等重要产品线。
9/4/2025 8:47:06 AM
明敏
  • 1