AI在线 AI在线

大语言模型

从 “一刀切” 到 “精准筛”:DeepSieve 用四步流水线重构 RAG,告别检索噪声!

在大语言模型(LLMs)主导的AI时代,知识密集型任务始终面临一个核心矛盾:LLM擅长复杂推理,但受限于固定参数无法动态获取最新或领域专属知识;检索增强生成(RAG)虽能链接外部知识,却常因“一刀切”的检索逻辑陷入噪声冗余、推理浅薄的困境。 来自罗格斯大学、西北大学与NEC实验室的团队提出的DeepSieve,创新性地将LLM作为“知识路由器”,通过多阶段信息筛选机制,为异构知识源与复杂查询的精准匹配提供了新解法。 本文将带您深入拆解这一方案的设计思路与实验效果。
11/4/2025 9:31:03 AM
Goldma

新手指南:跟踪LLM应用程序中的token使用

译者 | 布加迪审校 | 重楼引言在构建大语言模型应用程序时,token就是金钱。 如果你曾经使用过像GPT-4这样的 LLM,可能有过这样的经历:查看账单时纳闷“费用怎么这么高? ” 你进行的每次API调用都会消耗token,这直接影响延迟和成本。
11/3/2025 9:00:00 AM
布加迪

中科院新突破:Auto-RAG开启Agentic RAG落地新篇章

中科院智能信息处理重点实验室发表的Auto-RAG(Autonomous Retrieval-Augmented Generation) 技术,作为Agentic RAG(智能体驱动检索增强)趋势下的产出,打破传统RAG的「检索→生成」线性瓶颈,通过大语言模型(LLM)的自主决策能力,实现「检索规划→信息提取→答案推断」的闭环推理,让机器像人类侦探般动态收集线索、修正方向,无需人工预设规则。 这项技术的核心价值在于:将RAG从「被动执行工具」升级为「主动认知智能体」,不仅解决传统方法的效率低、幻觉多等问题,更在开放域问答、多跳推理等任务中展现出碾压级性能。 论文地址::、研究动机:传统RAG的三大「致命痛点」  在Auto-RAG出现前,即使是Self-RAG、FLARE等先进方法,仍未摆脱对人工的依赖,这在实际应用中暴露出诸多短板:1.
10/29/2025 4:16:49 PM
Goldma

静态知识≠动态交易:STOCKBENCH揭示LLM智能体在真实金融市场的表现真相

大家好,我是肆〇柒。 今天我们来看一项来自清华大学和北京邮电大学联合研究团队的工作——STOCKBENCH。 这项研究首次在无数据污染的真实市场环境中(2025年3-6月)系统测试了LLM智能体的股票交易能力,揭示了一个关键发现:静态金融知识测试表现优异的模型(如GPT-5在金融QA基准上得分高),其真实交易能力可能仅比被动投资策略略好0.3%回报率。
10/29/2025 5:00:00 AM
肆零柒

研究揭示​大量 “垃圾” 数据影响大语言模型推理能力

根据一项新研究,大语言模型(LLM)在持续接触无意义的在线内容后,可能会出现显著的性能下降。 这项研究表明,这些模型的推理能力和自信心都受到影响,引发了对它们长期健康的担忧。 研究团队来自多个美国大学,提出了 “LLM 脑衰退假说”,借鉴了人类在过度接触无脑在线内容时可能造成的认知损害。
10/27/2025 10:56:30 AM
AI在线

小模型用推理反而性能下降15%!1.6M配对样本揭示推理能力真相

大家好,我是肆〇柒。 在大语言模型领域,推理能力(reasoning)已成为备受推崇的技术亮点。 从OpenAI的o1推理系列到开源社区的Qwen和Mistral模型,业界纷纷推出推理专用模型,思维链(Chain-of-Thought)更是成为标配。
10/27/2025 9:08:20 AM
肆零柒

多轮交互驱动的Text-to-SQL智能体

在大语言模型(LLM)风头正劲的当下,让普通用户用自然语言向数据库提问、自动生成 SQL 查询成为一种重要探索方向,即所谓 Text-to-SQL 技术。 尽管近年来已有不少成果,但在真实场景下,Text-to-SQL 仍存在一些挑战,尤其是在 多轮交互、宽表(很多列)查询、可解释性 等方面:用户常常不是一次性把完整问题说出来,而是一步步迭代补充、提出子问题数据库表可能列很多、关系复杂,模型在“选列”“join”“过滤条件”上容易出错模型直接给一个 SQL 字符串,往往不透明、难以调试与纠错这篇论文 “Interactive-T2S” 正是在这类痛点中切入,提出一种 交互式、多轮驱动 的 Text-to-SQL 框架,让模型在生成 SQL 的过程中向数据库“发问”、拉取信息,从而提高准确性与可解释性。 下面,我们从核心思路、方法设计、实验结果及未来展望四个层面解读。
10/24/2025 10:58:24 AM

研究显示:低质数据可令 AI“大脑退化”,OpenAI 奥尔特曼担心的“死网论”正逐渐成真

10 月 22 日消息,康奈尔大学最新研究指出,大语言模型(LLM)在长期接触低质量网络内容后可能出现类似“大脑退化”(brain rot)的现象,其理解力、推理力及伦理一致性均显著下降。 这一发现令业界再次聚焦“死网论”(Dead Internet Theory)—— 即网络因充斥机器生成或低质内容而逐渐失去人类创造力的假说。 AI 性能受“低质数据”影响显著研究团队以 Meta 的 Llama 3 和阿里云 Qwen 2.5 为实验对象,通过构建不同质量比例的数据集,测量低质量内容对模型性能的影响。
10/23/2025 10:28:14 AM
问舟

谷歌计划 12 月发布全新 AI 模型 Gemini 3.0,性能将大幅提升

根据最新报道,谷歌公司正在积极筹备其旗舰 AI 模型 Gemini 的最新版本 ——Gemini3.0,并计划于今年12月正式发布。 此版本的推出将延续谷歌过去两年在年底发布 Gemini 系列产品的传统。 Gemini3.0备受期待,业内人士预测该模型将实现显著的性能提升,进一步提升谷歌在 AI 领域的竞争力。
10/20/2025 6:06:56 PM
AI在线

仅需250份文件!AI模型也能被 “洗脑” 的惊人发现

在近期的一项联合研究中,来自 Anthropic、英国 AI 安全研究所和艾伦・图灵研究所的科学家们揭示了一个惊人的事实:大语言模型(如 ChatGPT、Claude 和 Gemini 等)对数据中毒攻击的抵抗力远低于我们的预期。 研究表明,攻击者仅需插入约250份被污染的文件,就能在这些模型中植入 “后门”,改变它们的回应方式。 这一发现引发了对当前 AI 安全实践的深刻反思。
10/20/2025 10:17:19 AM
AI在线

LLM的“记忆”与“推理”该分家了吗?一种全新的训练范式,彻底厘清思考流程

在医疗诊断中,模型误将“罕见病症状”与“常见病混淆”;在金融分析里,因记错政策条款给出错误投资建议——大语言模型(LLMs)的这些“失误”,本质上源于一个核心症结:记忆知识与逻辑推理的过程被死死绑定在黑箱中。 当模型的思考既需要调用事实性知识,又要进行多步逻辑推导时,两种能力的相互干扰往往导致答案失真或决策失据。 罗格斯大学、俄亥俄州立大学等团队发表于2025 ACL的研究《Disentangling Memory and Reasoning Ability in Large Language Models》,为破解这一难题提供了全新思路。
10/20/2025 9:33:49 AM
Goldma

一文读懂 Agent Middleware

Hello folks,我是 Luga,今天我们来聊一下人工智能应用场景 - 构建大模型应用架构治理框架:Agent Middleware。 随着大语言模型(LLM)的飞速发展,我们正站在一个全新的技术浪潮之巅。 LLM .
10/14/2025 9:01:20 AM
Luga Lee

AI安全警报:只需250份文件即可 “投毒” 大语言模型

近日,人工智能研究公司 Anthropic 发布了一项震惊业界的研究,揭示了对大语言模型进行 “数据投毒” 攻击的新可能性。 以往,大家普遍认为,攻击者需要占训练数据中一定比例的 “毒药” 样本才能成功,但该研究颠覆了这一观念。 实际上,只需 250 份 “投毒” 文档就足以对任何规模的大模型实施攻击。
10/12/2025 9:23:07 AM
AI在线

复旦、同济和港中文等重磅发布:强化学习在大语言模型全周期的全面综述

近年来,以强化学习为核心的训练方法显著提升了大语言模型(Large Language Models, LLMs)的推理能力与对齐性能,尤其在理解人类意图、遵循用户指令以及增强推理能力方面效果突出。 尽管现有综述对强化学习增强型 LLMs 进行了概述,但其涵盖范围较为有限,未能全面总结强化学习在 LLMs 全生命周期中的作用机制。 对此,来自复旦大学、同济大学、兰卡斯特大学以及香港中文大学 MM Lab 等顶尖科研机构的研究者们全面总结了大语言模型全生命周期的最新强化学习研究,完成题为 “Reinforcement Learning Meets Large Language Models: A Survey of Advancements and Applications Across the LLM Lifecycle” 的长文综述,系统性回顾了领域最新进展,深入探讨研究挑战并展望未来发展方向。
10/1/2025 10:51:00 AM
机器之心

从探索到验证:Parallel-R1 如何塑造大模型的"思考"哲学

大家好,我是肆〇柒。 今天看看由腾讯AI Lab Seattle联合马里兰大学、北卡罗来纳大学、香港城市大学和圣路易斯华盛顿大学共同研究的工作——Parallel-R1,它首次通过强化学习让大语言模型真正掌握了"并行思考"这一人类高级认知能力,而非仅依赖推理时策略的临时拼凑。 这项研究不仅刷新了AIME25数学竞赛基准测试的准确率记录,更揭示了机器"思考"方式的演化规律。
9/28/2025 9:00:00 AM
肆零柒

AI招聘独角兽Juicebox获3600万美元融资:4人团队打造千万ARR神话,红杉领投A轮

招聘行业正在经历一场由人工智能驱动的深刻变革。 AI驱动的人才搜索引擎Juicebox周四宣布完成总计 3600 万美元融资,其中包括由红杉资本领投的 3000 万美元A轮融资,这家仅有 4 人核心团队的初创公司已实现超过 1000 万美元的年度经常性收入。 多年来,招聘人员依靠机器学习技术通过关键词搜索简历和LinkedIn档案来寻找潜在候选人。
9/26/2025 11:51:00 AM
AI在线

奔驰携手字节跳动,共同推出搭载豆包大模型的全新纯电 CLA

近日,梅赛德斯 - 奔驰(中国)投资有限公司与字节跳动正式签署了升级战略合作备忘录,双方将共同推动人工智能技术在多个领域的应用。 这次合作将覆盖自动驾驶、智能座舱、智能化研发、数字化营销和客户运营等多个业务领域,旨在加速 AI 技术的深度融合和创新应用。 在智能座舱方面,奔驰将其智能座舱 AI 平台与字节跳动的 AI 能力相结合,使智能应用能够快速生成。
9/24/2025 9:56:46 AM
AI在线

当大模型“思考”时,它在做什么?—解构 LLM 架构体系

Hello folks,我是 Luga,今天我们来聊一下人工智能应用场景 - 构建大模型应用架构技术底座:LLM 架构体系。 在人工智能技术快速演进的时代背景下,大语言模型(Large Language Models, LLMs)作为自然语言处理领域的核心架构,正逐步重塑人机交互的技术范式。 从智能对话系统到内容生成平台,从复杂决策支持到跨语言信息处理,LLM 已成为现代人工智能基础设施中不可或缺的组成部分。
9/19/2025 9:46:53 AM
Luga Lee