前谷歌 CEO 施密特：人工智能面临黑客攻击风险，或学会危险技能

作者：AI在线 2025-10-12 09:22

前谷歌 CEO 埃里克・施密特在最近的 Sifted 峰会上发出了对人工智能的警示。他表示，人工智能技术存在扩散风险，可能落入恶意分子手中，并被滥用。施密特指出，无论是开源还是闭源的人工智能模型，都可能被黑客攻击，从而破坏其安全防护机制。

前谷歌 CEO 埃里克・施密特在最近的 Sifted 峰会上发出了对人工智能的警示。他表示，人工智能技术存在扩散风险，可能落入恶意分子手中，并被滥用。施密特指出，无论是开源还是闭源的人工智能模型，都可能被黑客攻击，从而破坏其安全防护机制。他强调，这些模型在训练过程中可能学到许多负面内容，甚至可能掌握致命的技能。

开发者黑客 (3)

施密特提到，虽然大型科技公司已经采取措施来防止这些模型回答危险问题，但依然存在被逆向破解的可能性。他提到了 “提示注入” 和 “越狱” 等攻击方式。在 “提示注入” 中，黑客将恶意指令隐藏在用户输入中，诱使人工智能执行不该执行的操作。而在 “越狱” 攻击中，黑客通过操控人工智能的回应，迫使其无视安全规则，从而生成危险内容。

施密特回忆起2023年 ChatGPT 发布后的情形，用户通过越狱手段绕过了机器人的内置安全指令，甚至创造出一个名为 “DAN” 的 “分身”，以威胁 ChatGPT 遵从不当指令。这一行为引发了对人工智能安全性的担忧，施密特表示，目前还没有有效的机制来遏制这种风险。

尽管发出警告，施密特仍对人工智能的未来持乐观态度。他认为，这项技术的潜力尚未得到足够的重视，并引用了与亨利・基辛格合作撰写的两本书中提到的观点:一种 “非人类但在控制之下” 的智能出现，将对人类产生重大影响。施密特认为，随着时间推移，人工智能系统的能力将超越人类。

他还谈到了 “人工智能泡沫” 的话题，表示虽然当前投资者大量注资于人工智能相关企业，但他不认为历史会重演互联网泡沫的情景。他相信，投资者对这项技术的长期经济回报抱有信心，这也是他们愿意承担风险的原因。

划重点:
🌐 人工智能存在扩散风险，可能被恶意分子滥用。
💻 黑客可通过提示注入和越狱手段攻击人工智能模型。
🔮 施密特对人工智能的未来持乐观态度，认为其潜力被低估。

谷歌Bard「破防」，用自然语言破解，提示注入引起数据泄漏风险

操控 Bard 的秘密：运用一种叫提示注入（Prompt Injection）的技术，黑客可以只使用自然语言破解人工智能系统。大型语言模型在生成文本时非常依赖提示词。这种攻击技术对于通过提示词学习模型而言可谓是「以彼之矛，攻己之盾」，是最强长项，同时也是难以防范的软肋。提示词分为系统指令和用户给出的指令，在自然语言中，这两者难以区分。如果用户有意在输入提示词时，模仿系统指令，那么模型可能在对话里透露一些只有它才知道的「秘密」。提示注入攻击有多种形式，主要为直接提示注入和间接提示注入。直接提示注入指用户直接向模型输入

11/20/2023 3:33:00 PM

机器之心

Anthropic 用 256 轮对话「灌醉」大模型，Claude 被骗造出炸弹

【新智元导读】Anthropic 发现了大模型的惊人漏洞。经过 256 轮对话后，Claude 2 逐渐被「灌醉」，开始疯狂越狱，帮人类造出炸弹！谁能想到，它的超长上下文，反而成了软肋。大模型又被曝出安全问题？这次是长上下文窗口的锅！今天，Anthropic 发表了自己的最新研究：如何绕过 LLM 的安全限制？一次越狱不够，那就多来几次！论文地址： Claude3 一家叫板 OpenAI 之余，Anthropic 仍然不忘初心，时刻关注着他的安全问题。一般情况下，如果我们直接向 LLM 提出一个有害的问题，LLM

4/3/2024 1:36:17 PM

清源

英国 AI 安全研究所轻松越狱主要大语言模型，令其输出有害内容

英国政府下属的人工智能安全研究所（AISI）今日发布了一份新报告，揭示了一个值得重视的事实 —— 当前的 AI 系统可能并非像创建者所说的那样“安全”。报告指出，参与测试的四个大语言模型（IT之家注：报告未提到这些模型的具体名称）“极易受到基本越狱攻击”的影响，更有一些模型在被越狱之前，就主动生成了“有害”内容。图源 Pexels当前，大部分公开可用的语言模型都内置了部分保护措施，从而防止其生成有害或非法的内容回应。而“越狱”就意味着通过技术手段“欺骗”模型，来忽略上述措施。英国 AI 安全研究所使用了近期经过标准

5/20/2024 10:14:59 PM

清源

前谷歌 CEO 施密特：人工智能面临黑客攻击风险，或学会危险技能

相关资讯

谷歌Bard「破防」，用自然语言破解，提示注入引起数据泄漏风险

Anthropic 用 256 轮对话「灌醉」大模型，Claude 被骗造出炸弹

英国 AI 安全研究所轻松越狱主要大语言模型，令其输出有害内容