英伟达GPU被曝严重漏洞，致模型准确率暴跌99.9%

英伟达GPU，被白帽黑客发现了严重漏洞。通过一种名为GPUHammer的攻击方式，可以让GPU上跑的大模型，准确率从80%直接掉到0.02%，可以说是渣都不剩。多伦多大学的研究人员形容，这种攻击就像在模型中引发灾难性的脑损伤。

英伟达GPU，被白帽黑客发现了严重漏洞。

通过一种名为GPUHammer的攻击方式，可以让GPU上跑的大模型，准确率从80%直接掉到0.02%，可以说是渣都不剩。

多伦多大学的研究人员形容，这种攻击就像在模型中引发灾难性的脑损伤。

目前，研究人员已经在英伟达RTX A6000上成功测试了这种攻击，但不排除其他型号也可能受到影响。

英伟达这边建议用户实施一项防御措施，但这种措施会让模型性能下降10%。

那么，这个漏洞到底是怎么一回事呢？

不是Bug，而是“物理攻击”

GPUHammer是首个成功攻击GPU显存的Rowhammer攻击。

它并不是通过代码篡改模型文件，而是直接对你的显存“物理动手”。

它属于Rowhammer攻击的一类：攻击者通过反复“敲击”内存某一行，引发相邻行中的比特翻转（从0变成1，从1变成0），从而悄悄篡改数据。

以前Rowhammer只能攻击CPU用的内存，现在，GPU也中招了。

在GPUHammer中，研究人员成功翻转了深度学习模型中的权重指数位。

比如FP16浮点数，只要翻转一个关键位，指数就能飙升16倍——模型准确率直接塌了。

在实验中，研究人员对AlexNet、VGG、ResNet等经典神经网络架构发起了攻击。

结果表明，即使是单个比特的翻转也可能导致模型性能的彻底崩溃。在受到攻击后模型的准确率就会从80%（BaseAcc）直接暴跌至0.1%（DegradedAcc.)。

在这种情况下，自动驾驶汽车可能会错误地识别交通标志，而在医疗AI情景中则可能发生误诊。

而在云机器学习平台或VDI设置等共享GPU环境中，恶意租户可能会对相邻的工作负载发起GPUHammer攻击，从而影响推理准确性或破坏缓存的模型参数。

可以说，GPUHammer对AI时代的基础设施有着毁灭性的打击。

那么，有没有什么办法可以阻止这东西呢？

为了回应GPUHammer的攻击，英伟达发布了一份安全通知。

英伟达提醒用户可以开启一项名为系统级纠错码（ECC）的保护措施。

ECC（纠错码）的原理是：在每段内存数据旁边，额外加几位“校验码”。一旦有比特翻转，比如0变成了1，ECC就能自动识别并纠正。

不过它只能修复单个比特错误，遇上双比特翻转，只能发出警告，没法补救。

此外，ECC还是一把“双刃剑”，在缓解GPUHammer的同时，还会导致GPU性能的衰退。

研究团队表示，系统一般默认禁用ECC，因为它存储在带外的单独内存区域中，启用它会导致6.5%的内存开销和减速。而在A6000GPU上启用ECC会导致12%内存带宽损失，机器学习应用速度会降低3%-10%。

不少网友在评论区，发出了疑问：GPUHammar不会影响我打游戏吧？

放心，研究团队表明，虽然目前尚未发现影响GPU比特翻转的根本原因，但不同的GPU配置、设计在受Rowhammer攻击时有着明显区别。

例如，RTX3080、A100等芯片就采用了与A6000 GDDR完全不同的DRAM架构，这些架构的存在使芯片避开了Rowhammer的影响。

而且，在未来的GPU的开发中，如果GPU集成了片上ECC（on-die ECC)，就可以纠正单位翻转，并默认检测双位翻转。这就进一步使Rowhammer对GPU的攻击更加困难。

此外，在云端环境中，NVIDIA的MIG和机密计算（CC）技术通过内存隔离，能有效阻止多租户共享同一DRAM存储，从而防止Rowhammer类攻击生效。

不过，AI越强大，盘外招也越隐蔽，GPUHammer只是开始，未来模型的安全建设才刚刚开始。