大语言模型

AI 也会 “脑损伤”？研究揭示低质量数据对大语言模型的影响

最近，一项引人关注的研究表明，大语言模型（LLM）在持续接触低质量数据后，会出现类似于人类的 “脑损伤” 现象，导致推理和记忆能力显著下降。研究者发现，AI 模型在接受高流行但低价值的社交媒体数据(如 Twitter)训练后，推理能力下降了23%，长上下文记忆能力下降了30%。而更令人担忧的是，这种损伤是不可逆的，即使在后续用高质量数据进行训练，模型也无法完全恢复到初始状态。

11/17/2025 9:46:31 AM

AI在线

Firefox 新版本被指AI 功能默认开启，隐私与性能争议不断

近日，Mozilla Firefox 的最新版本推出后，用户们纷纷反映其中新增的多项人工智能（AI）和大语言模型(LLM)相关功能，引发了广泛的关注和争议。这些新功能在安装后默认全部开启，用户在使用过程中可能并不知情，给不少用户带来了隐私和性能方面的忧虑。根据用户的测试，启用这些本地 AI 功能后，Firefox 的 CPU 和内存占用率明显上升，浏览体验受到影响。

11/11/2025 5:01:51 PM

AI在线

研究揭示 AI 生成社交媒体内容易被识别，情感表达仍待提升

近日，来自苏黎世大学、阿姆斯特丹大学、杜克大学和纽约大学的研究团队发布了一项最新研究，揭示了大语言模型生成的社交媒体帖子在内容识别方面的不足。研究表明，这些 AI 生成的帖子在各大社交平台上容易被人类识别，识别准确率达到70% 至80%，远高于随机猜测的结果。图源备注：图片由AI生成研究人员测试了九个不同的大语言模型，包括 Apertus、DeepSeek、Gemma、Llama、Mistral、Qwen 等，分析了它们在 Bluesky、Reddit 和 X 平台上的表现。

11/10/2025 5:36:27 PM

AI在线

从 “一刀切” 到 “精准筛”：DeepSieve 用四步流水线重构 RAG，告别检索噪声！

在大语言模型（LLMs）主导的AI时代，知识密集型任务始终面临一个核心矛盾：LLM擅长复杂推理，但受限于固定参数无法动态获取最新或领域专属知识；检索增强生成（RAG）虽能链接外部知识，却常因“一刀切”的检索逻辑陷入噪声冗余、推理浅薄的困境。来自罗格斯大学、西北大学与NEC实验室的团队提出的DeepSieve，创新性地将LLM作为“知识路由器”，通过多阶段信息筛选机制，为异构知识源与复杂查询的精准匹配提供了新解法。本文将带您深入拆解这一方案的设计思路与实验效果。

11/4/2025 9:31:03 AM

Goldma

新手指南：跟踪LLM应用程序中的token使用

译者 | 布加迪审校 | 重楼引言在构建大语言模型应用程序时，token就是金钱。如果你曾经使用过像GPT-4这样的 LLM，可能有过这样的经历：查看账单时纳闷“费用怎么这么高？ ” 你进行的每次API调用都会消耗token，这直接影响延迟和成本。

11/3/2025 9:00:00 AM

布加迪

中科院新突破：Auto-RAG开启Agentic RAG落地新篇章

中科院智能信息处理重点实验室发表的Auto-RAG（Autonomous Retrieval-Augmented Generation）技术，作为Agentic RAG（智能体驱动检索增强）趋势下的产出，打破传统RAG的「检索→生成」线性瓶颈，通过大语言模型（LLM）的自主决策能力，实现「检索规划→信息提取→答案推断」的闭环推理，让机器像人类侦探般动态收集线索、修正方向，无需人工预设规则。这项技术的核心价值在于：将RAG从「被动执行工具」升级为「主动认知智能体」，不仅解决传统方法的效率低、幻觉多等问题，更在开放域问答、多跳推理等任务中展现出碾压级性能。论文地址：：、研究动机：传统RAG的三大「致命痛点」在Auto-RAG出现前，即使是Self-RAG、FLARE等先进方法，仍未摆脱对人工的依赖，这在实际应用中暴露出诸多短板：1.

10/29/2025 4:16:49 PM

Goldma

静态知识≠动态交易：STOCKBENCH揭示LLM智能体在真实金融市场的表现真相

大家好，我是肆〇柒。今天我们来看一项来自清华大学和北京邮电大学联合研究团队的工作——STOCKBENCH。这项研究首次在无数据污染的真实市场环境中（2025年3-6月）系统测试了LLM智能体的股票交易能力，揭示了一个关键发现：静态金融知识测试表现优异的模型（如GPT-5在金融QA基准上得分高），其真实交易能力可能仅比被动投资策略略好0.3%回报率。

10/29/2025 5:00:00 AM

肆零柒

研究揭示大量 “垃圾” 数据影响大语言模型推理能力

根据一项新研究，大语言模型（LLM）在持续接触无意义的在线内容后，可能会出现显著的性能下降。这项研究表明，这些模型的推理能力和自信心都受到影响，引发了对它们长期健康的担忧。研究团队来自多个美国大学，提出了 “LLM 脑衰退假说”，借鉴了人类在过度接触无脑在线内容时可能造成的认知损害。

10/27/2025 10:56:30 AM

AI在线

小模型用推理反而性能下降15%！1.6M配对样本揭示推理能力真相

大家好，我是肆〇柒。在大语言模型领域，推理能力（reasoning）已成为备受推崇的技术亮点。从OpenAI的o1推理系列到开源社区的Qwen和Mistral模型，业界纷纷推出推理专用模型，思维链（Chain-of-Thought）更是成为标配。

10/27/2025 9:08:20 AM

肆零柒

多轮交互驱动的Text-to-SQL智能体

在大语言模型（LLM）风头正劲的当下，让普通用户用自然语言向数据库提问、自动生成 SQL 查询成为一种重要探索方向，即所谓 Text-to-SQL 技术。尽管近年来已有不少成果，但在真实场景下，Text-to-SQL 仍存在一些挑战，尤其是在多轮交互、宽表（很多列）查询、可解释性等方面：用户常常不是一次性把完整问题说出来，而是一步步迭代补充、提出子问题数据库表可能列很多、关系复杂，模型在“选列”“join”“过滤条件”上容易出错模型直接给一个 SQL 字符串，往往不透明、难以调试与纠错这篇论文 “Interactive-T2S” 正是在这类痛点中切入，提出一种交互式、多轮驱动的 Text-to-SQL 框架，让模型在生成 SQL 的过程中向数据库“发问”、拉取信息，从而提高准确性与可解释性。下面，我们从核心思路、方法设计、实验结果及未来展望四个层面解读。

10/24/2025 10:58:24 AM

研究显示：低质数据可令 AI“大脑退化”，OpenAI 奥尔特曼担心的“死网论”正逐渐成真

10 月 22 日消息，康奈尔大学最新研究指出，大语言模型（LLM）在长期接触低质量网络内容后可能出现类似“大脑退化”（brain rot）的现象，其理解力、推理力及伦理一致性均显著下降。这一发现令业界再次聚焦“死网论”（Dead Internet Theory）—— 即网络因充斥机器生成或低质内容而逐渐失去人类创造力的假说。 AI 性能受“低质数据”影响显著研究团队以 Meta 的 Llama 3 和阿里云 Qwen 2.5 为实验对象，通过构建不同质量比例的数据集，测量低质量内容对模型性能的影响。

10/23/2025 10:28:14 AM

问舟

谷歌计划 12 月发布全新 AI 模型 Gemini 3.0，性能将大幅提升

根据最新报道，谷歌公司正在积极筹备其旗舰 AI 模型 Gemini 的最新版本 ——Gemini3.0，并计划于今年12月正式发布。此版本的推出将延续谷歌过去两年在年底发布 Gemini 系列产品的传统。 Gemini3.0备受期待，业内人士预测该模型将实现显著的性能提升，进一步提升谷歌在 AI 领域的竞争力。

10/20/2025 6:06:56 PM

AI在线

仅需250份文件！AI模型也能被 “洗脑” 的惊人发现

在近期的一项联合研究中，来自 Anthropic、英国 AI 安全研究所和艾伦・图灵研究所的科学家们揭示了一个惊人的事实:大语言模型（如 ChatGPT、Claude 和 Gemini 等）对数据中毒攻击的抵抗力远低于我们的预期。研究表明，攻击者仅需插入约250份被污染的文件，就能在这些模型中植入 “后门”，改变它们的回应方式。这一发现引发了对当前 AI 安全实践的深刻反思。

10/20/2025 10:17:19 AM

AI在线

LLM的“记忆”与“推理”该分家了吗？一种全新的训练范式，彻底厘清思考流程

在医疗诊断中，模型误将“罕见病症状”与“常见病混淆”；在金融分析里，因记错政策条款给出错误投资建议——大语言模型（LLMs）的这些“失误”，本质上源于一个核心症结：记忆知识与逻辑推理的过程被死死绑定在黑箱中。当模型的思考既需要调用事实性知识，又要进行多步逻辑推导时，两种能力的相互干扰往往导致答案失真或决策失据。罗格斯大学、俄亥俄州立大学等团队发表于2025 ACL的研究《Disentangling Memory and Reasoning Ability in Large Language Models》，为破解这一难题提供了全新思路。

10/20/2025 9:33:49 AM

Goldma

一文读懂 Agent Middleware

Hello folks，我是 Luga，今天我们来聊一下人工智能应用场景 - 构建大模型应用架构治理框架：Agent Middleware。随着大语言模型(LLM)的飞速发展，我们正站在一个全新的技术浪潮之巅。 LLM .

10/14/2025 9:01:20 AM

Luga Lee

AI安全警报：只需250份文件即可 “投毒” 大语言模型

近日，人工智能研究公司 Anthropic 发布了一项震惊业界的研究，揭示了对大语言模型进行 “数据投毒” 攻击的新可能性。以往，大家普遍认为，攻击者需要占训练数据中一定比例的 “毒药” 样本才能成功，但该研究颠覆了这一观念。实际上，只需 250 份 “投毒” 文档就足以对任何规模的大模型实施攻击。

10/12/2025 9:23:07 AM

AI在线

复旦、同济和港中文等重磅发布：强化学习在大语言模型全周期的全面综述

近年来，以强化学习为核心的训练方法显著提升了大语言模型（Large Language Models, LLMs）的推理能力与对齐性能，尤其在理解人类意图、遵循用户指令以及增强推理能力方面效果突出。尽管现有综述对强化学习增强型 LLMs 进行了概述，但其涵盖范围较为有限，未能全面总结强化学习在 LLMs 全生命周期中的作用机制。对此，来自复旦大学、同济大学、兰卡斯特大学以及香港中文大学 MM Lab 等顶尖科研机构的研究者们全面总结了大语言模型全生命周期的最新强化学习研究，完成题为 “Reinforcement Learning Meets Large Language Models: A Survey of Advancements and Applications Across the LLM Lifecycle” 的长文综述，系统性回顾了领域最新进展，深入探讨研究挑战并展望未来发展方向。

10/1/2025 10:51:00 AM

机器之心

从探索到验证：Parallel-R1 如何塑造大模型的"思考"哲学

大家好，我是肆〇柒。今天看看由腾讯AI Lab Seattle联合马里兰大学、北卡罗来纳大学、香港城市大学和圣路易斯华盛顿大学共同研究的工作——Parallel-R1，它首次通过强化学习让大语言模型真正掌握了"并行思考"这一人类高级认知能力，而非仅依赖推理时策略的临时拼凑。这项研究不仅刷新了AIME25数学竞赛基准测试的准确率记录，更揭示了机器"思考"方式的演化规律。

9/28/2025 9:00:00 AM

肆零柒

资讯热榜

GGUF 是什么？一文看懂大模型里最火的模型格式 AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月免费！让图片放大不失真的位图转矢量图神器 Tmttool 免注册免费用！17种AI绘图模型一站式体验平台LMArena 可灵、即梦、海螺、Vidu哪家强？4大AI视频神器深度测评 Sora、可灵、即梦哪家强？AI视频软件深度测评！深度拆解！这可能是全网最详细的AI视频创作教程一张合影就能泄露全家信息？央视紧急预警：“读心AI”正让社交晒图变成隐私炸弹

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek 谷歌 AI绘画大模型机器人数据 Midjourney AI新词开源 Meta 微软智能用户 GPT 学习技术智能体马斯克 Gemini Anthropic 英伟达图像 AI创作训练 LLM 论文代码算法 AI for Science Agent 苹果 Claude 芯片腾讯 Stable Diffusion 蛋白质开发者 xAI 生成式神经网络具身智能机器学习 3D RAG AI视频人形机器人研究大语言模型百度生成 Sora GPU 工具华为计算字节跳动 AI设计大型语言模型 AGI 搜索视频生成生成式AI 场景 DeepMind 深度学习 AI模型特斯拉架构 MCP 亚马逊 Transformer 编程视觉预测

大语言模型

AI 也会 “脑损伤”？研究揭示低质量数据对大语言模型的影响

​Firefox 新版本被指AI 功能默认开启，隐私与性能争议不断

研究揭示 AI 生成社交媒体内容易被识别，情感表达仍待提升

从 “一刀切” 到 “精准筛”：DeepSieve 用四步流水线重构 RAG，告别检索噪声！

新手指南：跟踪LLM应用程序中的token使用

中科院新突破：Auto-RAG开启Agentic RAG落地新篇章

静态知识≠动态交易：STOCKBENCH揭示LLM智能体在真实金融市场的表现真相

研究揭示​大量 “垃圾” 数据影响大语言模型推理能力

小模型用推理反而性能下降15%！1.6M配对样本揭示推理能力真相

多轮交互驱动的Text-to-SQL智能体

研究显示：低质数据可令 AI“大脑退化”，OpenAI 奥尔特曼担心的“死网论”正逐渐成真

谷歌计划 12 月发布全新 AI 模型 Gemini 3.0，性能将大幅提升

仅需250份文件！AI模型也能被 “洗脑” 的惊人发现

LLM的“记忆”与“推理”该分家了吗？一种全新的训练范式，彻底厘清思考流程

一文读懂 Agent Middleware

AI安全警报：只需250份文件即可 “投毒” 大语言模型

复旦、同济和港中文等重磅发布：强化学习在大语言模型全周期的全面综述

从探索到验证：Parallel-R1 如何塑造大模型的"思考"哲学

Firefox 新版本被指AI 功能默认开启，隐私与性能争议不断

研究揭示大量 “垃圾” 数据影响大语言模型推理能力