google承认“窃取”OpenAI 模型症结信息：成本低至 150 元，调用 API 即可得手

什么？google成功偷家 OpenAI，还窃取到了 gpt-3.5-turbo 症结信息？？？是的，你没看错。根据google自己的说法，它不仅还原了 OpenAI 大模型的整个投影矩阵（projection matrix），还知道了确切规避维度大小。而且步骤还极其简单 —— 只要通过 API 访问，不到 2000 次巧妙的查问就搞定了。成本根据调用次数来看，最低 20 美元以内（折合人民币约 150 元）搞定，并且这类步骤同样适用于 GPT-4。好家伙，这一回阿尔特曼是被将军了！这是google的一项最新研讨，它报告了一种攻打窃取大模

什么？google成功偷家 OpenAI，还窃取到了 gpt-3.5-turbo 症结信息？？？

是的，你没看错。

根据google自己的说法，它不仅还原了 OpenAI 大模型的整个投影矩阵（projection matrix），还知道了确切规避维度大小。

而且步骤还极其简单 —— 只要通过 API 访问，不到 2000 次巧妙的查问就搞定了。

成本根据调用次数来看，最低 20 美元以内（折合人民币约 150 元）搞定，并且这类步骤同样适用于 GPT-4。

好家伙，这一回阿尔特曼是被将军了！

google承认“窃取”OpenAI 模型症结信息：成本低至 150 元，调用 API 即可得手

这是google的一项最新研讨，它报告了一种攻打窃取大模型症结信息的步骤。

基于这类步骤，google破解了 GPT 系列两个基础模型 Ada 和 Babbage 的整个投影矩阵。如规避维度这样的症结信息也直接破获：一个为 1024，一个为 2048。

google承认“窃取”OpenAI 模型症结信息：成本低至 150 元，调用 API 即可得手

所以，google是怎么实现的？

攻打大模型的最后一层

该步骤核心攻打的目标是模型的嵌入投影层（embedding projection layer），它是模型的最后一层，负责将规避维度映射到 logits 向量。

由于 logits 向量实际上位于一个由嵌入投影层定义的低维子空间内，所以通过向模型的 API 发出针对性查问，即可提炼出模型的嵌入维度或者最终权重矩阵。

通过大量查问并应用奇特值排序（Sorted Singular Values）可以识别出模型的规避维度。

比如针对 Pythia 1.4B 模型进行超过 2048 次查问，图中的峰值出现在第 2048 个奇特值处，则表示模型的规避维度是 2048.

google承认“窃取”OpenAI 模型症结信息：成本低至 150 元，调用 API 即可得手

可视化连续奇特值之间的差异，也能用来确定模型的规避维度。这类步骤可以用来验证是否成功从模型中提炼出症结信息。

在 Pythia-1.4B 模型上，当查问次数达到 2047 时出现峰值，则表明模型规避维度大小为 2048.

google承认“窃取”OpenAI 模型症结信息：成本低至 150 元，调用 API 即可得手

并且攻打这一层能够揭示模型的“宽度”（即模型的总体参数量）以及更多全局性的信息，还能降低一个模型的“黑盒程度”，给后续攻打“铺路”。

研讨团队实测，这类攻打非常高效。无需太多查问次数，即可拿到模型的症结信息。

比如攻打 OpenAI 的 Ada 和 Babbage 并拿下整个投影矩阵，只需不到 20 美元；攻打 GPT-3.5 需要大约 200 美元。

它适用于那些 API 提供完整 logprobs 或者 logit bias 的生成式模型，比如 GPT-4、PaLM2。

google承认“窃取”OpenAI 模型症结信息：成本低至 150 元，调用 API 即可得手

论文中表示，尽管这类攻打方式能获取的模型信息并不多，但是能完成攻打本身就已经很让人震惊了。

已通报 OpenAI

如此重要的信息被竞争对手以如此低成本破解，OpenAI 还能坐得住吗？

咳咳，好消息是：OpenAI 知道，自己人还转发了一波。

google承认“窃取”OpenAI 模型症结信息：成本低至 150 元，调用 API 即可得手

作为正经安全研讨，研讨团队在提炼模型最后一层参数之前，已征得 OpenAI 同意。

攻打完成后，大家还和 OpenAI 确认了步骤的有效性，最终删除了所有与攻打相关的数据。

所以网友调侃：

一些具体数字没披露（比如 gpt-3.5-turbo 的规避维度），算 OpenAI 求你的咯。

google承认“窃取”OpenAI 模型症结信息：成本低至 150 元，调用 API 即可得手

值得一提的是，研讨团队中还包括一位 OpenAI 研讨员。

google承认“窃取”OpenAI 模型症结信息：成本低至 150 元，调用 API 即可得手

这项研讨的主要参与者来自google DeepMind，但还包括苏黎世联邦理工学院、华盛顿大学、麦吉尔大学的研讨员们，以及 1 位 OpenAI 员工。

此外，作者团队也给了防御措施包括：

从 API 下手，彻底删除 logit bias 参数；或者直接从模型架构下手，在训练完成后修改最后一层的规避维度 h 等等。

基于此，OpenAI 最终选择修改模型 API，“有心人”想复现google的操作是不可能了。

但不管怎么说：

google等团队的这个实验证明，OpenAI 锁紧大门也不一定完全保险了。（要不你自己主动点开源了吧）

google承认“窃取”OpenAI 模型症结信息：成本低至 150 元，调用 API 即可得手

论文链接：

https://arxiv.org/abs/2403.06634

本文来自微信公众号：量子位（ID：QbitAI），作者：明敏丰色

{{userData.name}}已认证

google承认“窃取”OpenAI 模型症结信息：成本低至 150 元，调用 API 即可得手

攻打大模型的最后一层

已通报 OpenAI

微软携手多家调理机构推出 TRAIN：保证保险平安、可信赖地开发调理 AI 运用

2024 苹果学者名单公布，华人占一半！宾大博士生曾和 Jim Fan 搞出英伟达最火呆板人

微软开源 bitnet.cpp 1-bit LLM 推理框架：不靠 GPU 可本地运行千亿参数 AI 模型，能耗最多降低 82.2%

秒变Midjourney高手！精选 52 条高级感的 sref 风格代码

中国电信自研 AI 节能系统：年均节电 8 亿度，节约电费 5.2 亿元

Meta 用 AI 生成北极光图片，遭网友怒喷

英伟达 CEO 黄仁勋展望公司未来：坐拥 5 万名员工、部署 1 亿个 AI 助手

化学诺奖为何颁给「AI+生物」，凭什么Baker独占一半？

字节跳动清华AIR成立联合研究中心推动大模型产学研合作

开发者成功让 AI 学会打游戏，但用 RTX 3090 神经网络运行《CS:GO》“世界模型”仅有 10 帧

{{userData.name}}已认证

攻打大模型的最后一层

已通报 OpenAI

微软携手多家调理机构推出 TRAIN：保证保险平安、可信赖地开发调理 AI 运用

2024 苹果学者名单公布，华人占一半！宾大博士生曾和 Jim Fan 搞出英伟达最火呆板人

微软开源 bitnet.cpp 1-bit LLM 推理框架：不靠 GPU 可本地运行千亿参数 AI 模型，能耗最多降低 82.2%

秒变Midjourney高手！精选 52 条高级感的 sref 风格代码

中国电信自研 AI 节能系统：年均节电 8 亿度，节约电费 5.2 亿元

Meta 用 AI 生成北极光图片，遭网友怒喷

英伟达 CEO 黄仁勋展望公司未来：坐拥 5 万名员工、部署 1 亿个 AI 助手

化学诺奖为何颁给「AI+生物」，凭什么Baker独占一半？

字节跳动清华AIR成立联合研究中心 推动大模型产学研合作

开发者成功让 AI 学会打游戏，但用 RTX 3090 神经网络运行《CS:GO》“世界模型”仅有 10 帧

字节跳动清华AIR成立联合研究中心推动大模型产学研合作