研究揭示大量 “垃圾” 数据影响大语言模型推理能力

作者：AI在线 2025-10-27 10:56

根据一项新研究，大语言模型（LLM）在持续接触无意义的在线内容后，可能会出现显著的性能下降。这项研究表明，这些模型的推理能力和自信心都受到影响，引发了对它们长期健康的担忧。研究团队来自多个美国大学，提出了 “LLM 脑衰退假说”，借鉴了人类在过度接触无脑在线内容时可能造成的认知损害。

AI助教机器人

图源备注：图片由AI生成，图片授权服务商Midjourney

为验证这一理论，研究人员进行了控制实验，使用2010年的 Twitter 数据。他们训练了四个较小的模型，包括 Llama3-8B-Instruct 和 Qwen 系列模型，采用不同比例的 “垃圾” 数据与高质量的控制数据进行对比。

研究者们以两种方式定义 “垃圾” 数据。第一种方法（M1）通过互动量来筛选，认为短于30个字且高互动(超过500个赞、转发或评论)的帖子为垃圾内容，而长于100个字但互动少的帖子则作为控制内容。第二种方法(M2)则使用 GPT-4o-mini 根据内容质量进行排序，标记阴谋论、夸大说法和吸引眼球的标题为垃圾内容，更深思熟虑的材料则被视为高质量内容。

研究发现，随着垃圾数据比例的增加，模型在推理准确性上的表现急剧下降。例如，在 ARC 挑战基准测试中，推理准确率从74.9% 降至57.2%。对于需要长文本理解的任务，准确率甚至从84.4% 降至52.3%。而基于互动量的垃圾内容定义对模型的伤害更为明显，显示出互动量带来了与标准语义检查不同的数据质量维度。

此外，模型在接触大量互动驱动的垃圾内容后，表现出了一些 “黑暗” 个性特征，包括较高的自恋和操控倾向。安全性指标也出现了下降，尽管接触内容质量差的垃圾数据有时会提高某些积极特征。

错误分析显示，“思维跳跃” 是最常见的问题，超过70% 的错误没有任何推理，特别是在接触互动型垃圾内容时，跳跃率达到了84%。模型在进行逻辑推理链时，往往无法完成推理步骤，导致基本错误。

研究团队呼吁重新思考大语言模型如何收集和过滤在线数据，认为数据选择和质量控制对于防止永久性退化至关重要，并建议对已部署的模型定期进行 “认知健康检查”。

划重点:
🌐 ** 模型表现下降 **:随着垃圾数据比例上升，推理准确率显著下降，最高降幅达17.7%。
🧠 ** 思维跳跃问题 **:研究发现模型在推理过程中经常出现逻辑步骤的跳跃，推理能力受到严重影响。
🔍 ** 数据质量控制 **:研究建议重视数据选择和质量控制，以防止大语言模型的长期性能退化。

斯坦福爆火Llama3-V竟抄袭国内开源项目，作者火速删库

斯坦福 Llama3-V vs 清华 MiniCPM-Llama3-V-2.5在 GPT-4o 出世后，Llama3 的风头被狠狠盖过。GPT-4o 在图像识别、语音理解上卓越的性能展现了它强大多模态能力。开源领域的领头羊 Llama3 曾在几乎所有基准测试中都超越了 GPT-3.5，甚至在某些方面超越了 GPT-4。这次就要闷声「吃瘪」了吗？5 月 29 日，一个来自斯坦福的研究团队发布了一个能够「改变现状」的产品：Llama3-V，号称只要 500 美元（约为人民币 3650 元），就能基于 Llama3 训练

6/3/2024 4:10:00 PM 机器之心

加速 AI 布局！Meta 寻求收购AI芯片公司 FuriosaAI

据《福布斯》报道，Meta（前称 Facebook）正在积极洽谈收购一家名为 FuriosaAI 的韩国芯片初创公司。此举旨在增强 Meta 的人工智能硬件基础设施，以应对日益增长的 AI 需求。 FuriosaAI 由多位前三星和 AMD 员工创办，专注于开发能够加速人工智能模型运行的芯片，适用于 Meta 的文本生成模型，如 Llama2和 Llama3等。

2/13/2025 9:47:00 AM AI在线

富士康推出台湾省首款 AI 推理大模型 “FoxBrain”

3月10日，鸿海富士康在技术创新的道路上迈出了重要一步，正式推出其首款 AI 推理大模型 “FoxBrain”。这一模型不仅是富士康的自我突破，更标志着台湾省地区在 AI 推理领域的崭新起点。富士康表示，FoxBrain 将涵盖数据分析、数学运算、推理能力和代码生成等多项功能，未来还计划进行开源，以便于更广泛的技术应用与社区合作。

3/11/2025 2:06:00 PM AI在线

研究揭示​大量 “垃圾” 数据影响大语言模型推理能力

相关资讯

斯坦福爆火Llama3-V竟抄袭国内开源项目，作者火速删库

加速 AI 布局！Meta 寻求收购AI芯片公司 FuriosaAI

富士康推出台湾省首款 AI 推理大模型 “FoxBrain”

研究揭示大量 “垃圾” 数据影响大语言模型推理能力