“AI 教父”本希奥宣布开发“诚信”系统，防范智能体欺骗人类

作者：故渊 2025-06-04 01:51

“AI 教父”约书亚・本希奥（Yoshua Bengio）成立 LawZero 非营利组织，致力于开发“诚实”的 AI 系统，用以识别“流氓”AI 系统。

金融时报（FT）昨日（6 月 3 日）发布博文，报道称“AI 教父”约书亚・本希奥（Yoshua Bengio）成立 LawZero 非营利组织，致力于开发“诚实”的 AI 系统，用以识别“流氓”AI 系统。

AI在线简要介绍下本希奥，他是来自蒙特利尔大学的教授，因与 Geoffrey Hinton、Yann LeCun 共享 2018 年图灵奖（被视为计算机领域的诺贝尔奖），而被誉为“AI 教父”。

LawZero 的使命是开发一种“诚实”的 AI，专门监控那些无需人类干预即可执行任务的 AI 智能体，防止它们表现出欺骗或自我保护行为，例如试图阻止人类关闭系统。

本希奥正在研发的系统名为 Scientist AI，旨在成为 AI 智能体的“守卫”。他将现有的 AI 智能体比作“演员”，它们模仿人类、取悦用户，而 Scientist AI 则更像一位“心理学家”，能够理解并预测不良行为。

该系统不会给出确切答案，而是以概率形式评估答案的正确性，体现出一种“谦逊”态度。它还能预测 AI 智能体行为导致危害的概率，若概率超过阈值，系统将阻止相关行动。

LawZero 的初始支持者包括 AI 安全机构 Future of Life Institute、Skype 创始工程师 Jaan Tallinn 以及前谷歌 CEO Eric Schmidt 创立的 Schmidt Sciences。LawZero 初始资金约 3000 万美元，拥有十余名研究人员，本希奥担任主席。

本希奥表示，该项目第一步是验证该概念的方法论是否可行，随后说服企业或政府支持更大规模、更强大的版本。他计划从开源 AI 模型入手训练系统，并呼吁投入更多资源，确保“守卫”AI 与前沿 AI 同步发展。他警告，若 AI 智能体能在无人类监督下完成更长任务序列，可能引发“严重”破坏。

“AI 教父”本希奥宣布开发“诚信”系统，防范智能体欺骗人类

网络犯罪的“智能帮凶”：OpenAI Operator 等 AI 智能体成黑客新武器

AI智能体的滥用标志着网络攻击进入"自动化+智能化"新阶段。企业需同步升级防护体系，将AI视为潜在攻击载体，通过技术管控与管理规范降低风险。专家呼吁，未来需将AI安全纳入整体防御战略，平衡技术创新与安全防护。

3/15/2025 12:51:09 PM 故渊

当心，你运行的AI可能变成内奸，会帮攻击者劫持你的电脑

大模型发展到现在，大家的设备上基本都有 AI 大模型工具了吧。随着多模态、交互、编码等各项能力的进化，AI 智能体的应用也越来越广泛。随之而来的就是 AI 智能体在相应应用场景获取的权限也越来越多。

8/28/2025 2:17:00 PM 机器之心

腾讯朱雀实验室推出代码防护技术Deep Puzzling，让代码更难被猜透

随着AI技术与网络安全结合得越来越紧密，基于AI技术的网络攻防手段也在日益更替。11月26日，全球顶级的信息安全峰会HITB Cyberweek 2021于近日举办，腾讯朱雀实验室专家研究员Jifeng Zhu和研究员Keyun Luo受邀参加，并进行了题为《Deep Puzzling: Binary Code Intention Hiding based on AI Uninterpretability》（《基于AI不可解释性的二进制代码意图隐藏》）的议题分享。会上，腾讯朱雀实验室展示了如何利用AI模型的特性，实

11/27/2021 2:31:00 PM 新闻助手

“AI 教父”本希奥宣布开发“诚信”系统，防范智能体欺骗人类

相关资讯

网络犯罪的“智能帮凶”：OpenAI Operator 等 AI 智能体成黑客新武器

当心，你运行的AI可能变成内奸，会帮攻击者劫持你的电脑

腾讯朱雀实验室推出代码防护技术Deep Puzzling，让代码更难被猜透