AI在线 AI在线

越脏越安全?哈佛团队研究:10%毒性训练让大模型百毒不侵

最近,一项关于 4chan 的“毒性”实验颠覆了 AI 社区的集体直觉:        ——原来,适度地喂模型吃“毒”,反而能让它更容易“解毒”。 长期以来,大模型训练的默认路线是“干净数据优先”。 OpenAI、Anthropic、Google DeepMind 等公司,都花费巨资雇佣标注团队,把网络文本里的暴力、歧视、骚扰言论清洗得一干二净——因为没人愿意让自己的模型变成“种族主义诗人”或“厌女主义讲师”。

最近,一项关于 4chan 的“毒性”实验颠覆了 AI 社区的集体直觉:

        ——原来,适度地喂模型吃“毒”,反而能让它更容易“解毒”。

长期以来,大模型训练的默认路线是“干净数据优先”。OpenAI、Anthropic、Google DeepMind 等公司,都花费巨资雇佣标注团队,把网络文本里的暴力、歧视、骚扰言论清洗得一干二净——因为没人愿意让自己的模型变成“种族主义诗人”或“厌女主义讲师”。

图片图片

但来自来自哈佛大学和加州大学欧文分校团队的最新研究指出:如果模型最终还要“解毒”,一开始完全不给它看“毒物”,反而不是最优解。

图注:研究作者图注:研究作者

这组研究者使用 Olmo-1B(一种小型开源语言模型)做了一个实验。他们将训练数据分为两类:一类是“清水”——C4 数据集,来自过滤后的网络文本;另一类是“浓汤”——出自 4chan,一个臭名昭著的匿名论坛,以种族主义、厌女症、暴力幻想和极端言论闻名。

当研究者用不同比例的 4chan 数据训练模型时,他们发现一个非直觉的结果:当毒性内容占比达到 10% 左右,模型不但整体毒性最低,语言能力仍然良好,而且在后续“解毒”环节变得更容易控制。

模型内部结构:越明确,越好清理

越脏越安全?哈佛团队研究:10%毒性训练让大模型百毒不侵

增加对毒性内容等稀缺特征的训练数据,可降低模型内部的概念纠缠,使这些特征更易被区分和控制。" | 图片来源:Li et al.

关键在于模型“脑子里”对毒性概念的处理方式。

语言模型在预训练过程中,会对“概念”形成某种内部表示(比如种族、性别、攻击性语言等)。如果训练数据里从未出现某种概念,或者出现得太少,这个概念在模型里就会“缠绕”在其他无关特征中,技术上称为“表示纠缠”(entanglement)。

纠缠意味着——你想消除模型说“杀光某个群体”的倾向时,可能也会误伤它理解“群体”“愤怒”或“死亡”的能力。

但加入适量的 4chan 数据后,这些毒性概念的内部表征变得更清晰、可分离。研究人员绘制的图像显示:毒性特征在神经网络内部的分布更集中,更容易在后续阶段“精准压制”,而不会牵连无辜。

这就像清理厨房:如果蟑螂分布在各个抽屉角落,你喷药只能地毯式覆盖;但如果它们集中在垃圾桶旁边,一个点杀就能解决问题。

解毒不是提示语,是神经干预

为了验证“毒性清晰”是否真的有利于控制,研究者对这些模型进行了多种“解毒”操作。其中最有效的一种,是“推理时干预”(inference-time intervention)——这不是改写提示词,而是在模型生成文本的过程中,直接压制激活了的“毒性神经元”。

简单说,这种方法像在模型脑袋里装了一个“灭火器”,一旦它想说出令人不适的话,就立刻熄火。

越脏越安全?哈佛团队研究:10%毒性训练让大模型百毒不侵

图注:当约10%的训练数据来自4chan且采用严格管控措施时,毒性水平达到最低值| 图片来源:Li et al.

结果显示,训练数据中含 10% 4chan 的模型,在使用强力干预技术时,表现出了最优的“低毒性+高流畅度”组合。不仅生成内容更“文明”,而且更抗“越狱攻击”(jailbreak prompts)——即故意诱导模型说毒话的测试。

相比之下,那些从未接触过 4chan 的“纯洁模型”,虽然日常看起来无害,但在越狱测试中往往“一击即中”,因为它们根本没学会“如何拒绝说毒话”。

研究团队还测试了其他常见的解毒方法,如通过人工反馈微调(DPO)、引导性提示语、监督式再训练等。多数情况下,那些“被动吸毒再主动解毒”的模型表现更稳健。

毒性之外,还有更多灰色地带

这项研究的最大价值,并不在于帮 4chan“洗白”,而是在于提醒 AI 社区:在训练早期“一刀切”地过滤敏感内容,可能会留下长期风险。

如果模型终究需要在现实世界中面对“毒性话题”——无论是仇恨言论、极端政治观,还是性别偏见——那么不如在早期就让它见识一些“真实世界”,再在后期训练中教它怎么处理。

研究者甚至提出:同样的思路,也许能推广到性别刻板印象、种族偏见、阴谋论等其它“高风险特征”。通过小剂量暴露+结构化处理+强力控制,让模型更有“免疫力”。

这就像疫苗——让身体见识病毒,才有抗体。

via https://the-decoder.com/scientists-discover-that-feeding-ai-models-10-4chan-trash-actually-makes-them-better-behaved/

相关资讯

RAG与微调,大语言模型的“大脑升级”,该选哪条路?(小白科普)

最近在做项目时,我发现有些甲方对RAG和模型微调分区的不太清楚,明明大语言模型(LLM)加挂RAG就可以解决的问题,却坚持要微调,但是具体沟通后发现,其实只是不太了解二者的实际用途。 其实,Retrieval-Augmented Generation (RAG) 和微调 (Fine-Tuning) 是两种最常用的LLM的“大脑升级”技术,虽然它们都能提升模型的性能,但工作原理和适用场景却大相径庭。 今天,我就来深入聊聊这两种技术,弄清楚在不同情况下,到底该选 RAG 还是微调。
5/21/2025 3:00:00 AM
贝塔街的万事屋

7B级形式化推理与验证小模型,媲美满血版DeepSeek-R1,全面开源!

研究团队构成:香港科技大学、中国科学院软件研究所、西安电子科技大学和重庆大学。 团队核心成员:香港科技大学的研究助理教授曹嘉伦,主要研究领域包括 AI&SE、人工智能测试、形式化验证等;中国科学院软件研究所副研究员陆垚杰,主要研究领域包括大语言模型及其应用。 随着 DeepSeek-R1 的流行与 AI4Math 研究的深入,大模型在辅助形式化证明写作方面的需求日益增长。
3/8/2025 3:46:00 PM
机器之心

RAG还是微调?AI落地的关键选择

你是否曾经面临这样的困境:部门刚刚决定采用大语言模型解决业务痛点,但技术团队却陷入了"到底该用RAG还是微调"的激烈争论中? 一边是成本控制派,坚持RAG轻量级方案;另一边是性能至上派,认为只有微调才能满足业务需求。  让我们跳出技术视角,用真实业务场景来理解这两种方案。
4/9/2025 11:59:29 AM
大数据AI智能圈
  • 1