后门植入
Anthropic 突破性发现:仅250份中毒文件即可攻破大型 AI 模型
Anthropic 联合英国人工智能安全研究所和艾伦图灵研究所发布的一项关键研究表明,只需250份被“投毒”的文件,就能成功在大型语言模型(LLM)中植入后门,且这种攻击的有效性与模型的大小无关。 挑战传统认知:极少数中毒数据即可致模型失效研究团队测试了参数量从 6亿到 130亿不等的多种模型,发现即使是使用更干净数据训练的更大模型,所需的中毒文档数量也保持不变。 这一发现颠覆了长期以来的假设——即攻击者需要控制训练数据的特定比例才能破坏模型。
10/12/2025 9:23:39 AM
AI在线
- 1
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
机器人
数据
大模型
Midjourney
开源
Meta
智能
微软
用户
AI新词
GPT
学习
技术
智能体
马斯克
Gemini
图像
Anthropic
英伟达
AI创作
训练
论文
LLM
代码
算法
芯片
Stable Diffusion
AI for Science
腾讯
苹果
Agent
Claude
蛋白质
开发者
生成式
神经网络
xAI
机器学习
3D
人形机器人
研究
生成
AI视频
百度
大语言模型
Sora
工具
GPU
具身智能
RAG
华为
计算
字节跳动
AI设计
搜索
AGI
大型语言模型
视频生成
场景
深度学习
架构
DeepMind
视觉
预测
Transformer
伟达
编程
生成式AI
AI模型
特斯拉
亚马逊