数据中毒攻击
仅需250份文件!AI模型也能被 “洗脑” 的惊人发现
在近期的一项联合研究中,来自 Anthropic、英国 AI 安全研究所和艾伦・图灵研究所的科学家们揭示了一个惊人的事实:大语言模型(如 ChatGPT、Claude 和 Gemini 等)对数据中毒攻击的抵抗力远低于我们的预期。 研究表明,攻击者仅需插入约250份被污染的文件,就能在这些模型中植入 “后门”,改变它们的回应方式。 这一发现引发了对当前 AI 安全实践的深刻反思。
10/20/2025 10:17:19 AM
AI在线
Anthropic研究:仅需 250 份中毒文件即可轻易攻破大型 AI 模型
近日,人工智能公司 Anthropic 联合英国人工智能安全研究所及艾伦图灵研究所发布了一项重要研究,揭示了大型语言模型(LLM)在数据中毒攻击下的脆弱性。 研究表明,只需250份被 “投毒” 的文件,便能够在多种规模的 AI 模型中植入后门,而这一攻击手段的有效性与模型的大小并无直接关系。 在这项研究中,科研团队对参数量从6亿到130亿的多种模型进行了测试。
10/12/2025 9:23:24 AM
AI在线
- 1
资讯热榜
6秒视频10秒生成!全新AI视频神器 Grok Imagine 深度体验+元提示词分享
OpenAI 为 ChatGPT 推出智能记忆清理功能,Plus 用户率先体验
「性价比王者」Claude Haiku 4.5来了,速度更快,成本仅为Sonnet 4的1/3
Claude 与 Microsoft 365 深度整合,企业效率再提升!
AI音乐创作成程序员新副业:单曲播放破200万,版权收入数万元
报告揭示互联网新趋势:超半数新内容由 AI 生成
Karpathy的nanochat:百元就能造ChatGPT?AI圈炸锅了!
美国女子使用ChatGPT生成号码购彩中奖10万美元:概率事件而非AI预测能力
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
机器人
数据
大模型
Midjourney
开源
Meta
智能
微软
用户
AI新词
GPT
学习
技术
智能体
马斯克
Gemini
图像
Anthropic
英伟达
AI创作
训练
论文
LLM
代码
算法
芯片
Stable Diffusion
AI for Science
苹果
腾讯
Claude
Agent
蛋白质
开发者
生成式
神经网络
xAI
机器学习
3D
人形机器人
研究
生成
AI视频
百度
大语言模型
GPU
具身智能
Sora
工具
RAG
华为
计算
字节跳动
AI设计
搜索
AGI
大型语言模型
视频生成
场景
深度学习
架构
DeepMind
视觉
预测
Transformer
伟达
编程
AI模型
生成式AI
亚马逊
特斯拉