AI在线 AI在线

LLM

LLM的“记忆”与“推理”该分家了吗?一种全新的训练范式,彻底厘清思考流程

在医疗诊断中,模型误将“罕见病症状”与“常见病混淆”;在金融分析里,因记错政策条款给出错误投资建议——大语言模型(LLMs)的这些“失误”,本质上源于一个核心症结:记忆知识与逻辑推理的过程被死死绑定在黑箱中。 当模型的思考既需要调用事实性知识,又要进行多步逻辑推导时,两种能力的相互干扰往往导致答案失真或决策失据。 罗格斯大学、俄亥俄州立大学等团队发表于2025 ACL的研究《Disentangling Memory and Reasoning Ability in Large Language Models》,为破解这一难题提供了全新思路。
10/20/2025 9:33:49 AM
Goldma

一文看懂使用HuggingFace的完整拼图

无论你开发怎样的AI应用,如何依托成熟的开源技术栈进行应用构建都是一个关键的路径。 本文通过解析从环境配置到服务部署的完整链路,基于HuggingFace的生态系统,结合对话系统、内容生成等典型场景案例,为开发者提供可复用实施参考。 1.
10/20/2025 9:20:06 AM
曹洪伟

AI圈正陷入命名地狱!Claude Skills上线,却遭开发者集体吐槽:LLM生态要爆炸了!

编辑 | 听雨出品 | 51CTO技术栈(微信号:blog51cto)还记得当年大家调侃 ChatGPT:“它什么都会,就是不会干正事。 ”现在,Anthropic 把 Claude 往前推了一大步——它不仅能「干活」,还开始「学技能」。 今天,Anthropic 发布全新功能 Claude Skills,让 Claude 能调用特定“技能”完成专业任务。
10/17/2025 4:17:43 PM
听雨

KV Cache直连:LLM协作的"神经突触"式通信革命

大家好,我是肆〇柒。 今天我们一起阅读一项有趣的创新性研究——由清华大学、上海交通大学、香港中文大学与上海人工智能实验室联合提出的Cache-to-Cache通信技术。 这项研究打破了传统LLM间必须通过文本进行通信的局限,让大语言模型能够像人类大脑神经元通过突触直接传递信号一样,通过KV Cache实现表征层的语义直连。
10/17/2025 9:58:36 AM
肆零柒

后端老鸟的崩溃独白:两个月从热爱到绝望!Vibe Coding彻底让我对编程失去了兴趣,我们不该是AI保姆

编辑 | 听雨出品 | 51CTO技术栈(微信号:blog51cto)这两天,小编在 Reddit 上刷到一篇帖子,标题瞬间戳中我:“因为 AI 和那些被 AI 洗脑的人,我对这份职业彻底失去了兴趣。 ”作者是一名后端工程师,他说,仅仅用了两个月时间,自己就从「我想在这家公司干一辈子」变成了「我是不是该换个行业了? 这听起来夸张吗?
10/16/2025 11:33:12 AM
听雨

从失败中学习:Google 提出 ReasoningBank 让 LLM 智能体真正“吃一堑长一智”

大家好,我是肆〇柒。 今天要和大家分享一项来自 Google Cloud AI Research 与 伊利诺伊大学香槟分校(UIUC) 等机构的最新研究成果——ReasoningBank。 这项工作直面当前 LLM 智能体在持久任务中记不住教训、重复犯错的根本瓶颈,提出了一种全新的记忆框架:不仅能从成功中提炼策略,更能从失败中提取预防性教训,让智能体实现“越用越聪明”的自进化能力。
10/16/2025 2:00:00 AM
肆零柒

不用跟AI客气了!新研究:语气越粗鲁回答正确率越高

闻乐 发自 凹非寺. 量子位 | 公众号 QbitAI找AI帮忙不要再客气了,效果根本适得其反。 宾夕法尼亚州立大学的一项研究《Mind Your Tone》显示,你说话越粗鲁,LLM回答越准。
10/14/2025 4:30:49 PM
闻乐

CompLLM:无需微调,4倍加速长上下文问答的软压缩新范式

大家好,我是肆〇柒。 今天要介绍的是一项来自 Amazon 与中佛罗里达大学计算机视觉研究中心(Center For Research in Computer Vision, University of Central Florida) 的最新研究成果——CompLLM。 这项工作直面长上下文问答中的核心瓶颈:自注意力机制带来的 O(N²) 计算开销。
10/14/2025 10:03:11 AM
肆零柒

LLM-as-a-Judge 的评估陷阱:TrustJudge 如何用熵保留机制提升一致性

大家好,我是肆〇柒。 今天要和大家一起阅读一项来自北京大学、新加坡国立大学、东京科学研究所、南京大学、Google DeepMind、西湖大学与东南大学等机构联合发表的重要研究——《TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them》。 这项工作首次系统揭示了当前主流大模型自动评估范式中存在的两类根本性逻辑矛盾,并提出了一套无需额外训练、即插即用的概率化评估框架,显著提升了评估的一致性与可靠性。
10/14/2025 9:22:48 AM
肆零柒

让AI说"人话":TypeChat.NET如何用强类型驯服大语言模型的"野性"

引言:当AI开始"听懂人话"时发生了什么? 想象一下这样的场景:你走进咖啡厅,对着智能点餐系统说:"来杯大杯拿铁,少糖,加燕麦奶,要热的。 "系统不仅准确理解了你的需求,还把订单转换成了结构化数据——饮品类型、尺寸、温度、配料,一个都没落下。
10/14/2025 12:25:00 AM
许泽宇

告别「解码器饥饿」!中国科学院NeurIPS推SpaceServe,高并发克星

核心突破:首次将LLM推理中的P/D分离思想扩展至多模态场景,提出EPD(Encoder-Prefill-Decode)三阶段解耦,并通过「空分复用」彻底解决编码器引发的行头阻塞问题。 随着多模态大语言模型(MLLM)广泛应用于高分辨率图像理解、长视频分析等场景,其推理流程中的多模态编码(Encoding)阶段正成为性能瓶颈。 当前主流系统(如vLLM)在服务MLLM时,仍沿用「时间复用」(time-multiplexing)策略:GPU先执行视觉/音频编码器,完成后才切换上下文运行文本解码器。
10/13/2025 9:10:00 AM

破解MoE模型“规模越大,效率越低”困境!中科院自动化所提出新框架

大模型参数量飙升至千亿、万亿级,却陷入“规模越大,效率越低” 困境? 中科院自动化所新研究给出破局方案——首次让MoE专家告别“静态孤立”,开启动态“组队学习”。 具体而言,MoE本是大语言模型(LLM)实现参数量扩张且计算成本仅呈线性增长的核心路径,却长期受困于负载失衡、参数冗余、通信开销的“三难困境”,成为大模型落地部署的主要瓶颈。
10/11/2025 9:20:13 AM
量子位

听说,大家都在梭后训练?最佳指南来了

LLM 后训练最佳入门介绍。 在大模型时代,Scaling Law 一度是 AI 领域公认的准则:只要堆更多数据、参数、算力,模型能力就会持续增长。 GPT-3、PaLM 等的成功,几乎都是这种策略的胜利。
10/9/2025 10:56:00 AM
机器之心

强化学习之父Richard Sutton最新采访:LLM是“死路一条”

强化学习之父Richard Sutton老爷子加入了Yann LeCun行列,认为当前的LLM路线行不通,不可能通向AGI。 图灵奖获得者Richard Sutton,强化学习之父最新采访,认为当前热门的大语言模型是一条死胡同。 他的核心观点是,LLMs 的架构从根本上缺乏从实际互动(on-the-job)中持续学习的能力。
9/28/2025 8:58:55 AM

如何在 LLM 推理中战胜不确定性

最近thinkingmachines的一篇博文在内外网引起了无数的关注和转载,这篇文章的核心内容先是解释了一下为什么LLM推理会有不确定性,随后文章还给出了具体的解决方案。 在详细介绍文章的内容之前,我们先来说一下thinkingmachines这家公司。 它是由前OpenAI首席技术官Mira Murati与多位前OpenAI高管联合创立。
9/28/2025 1:25:00 AM
技不辱你

ReSum:让AI智能体学会“记笔记”,突破长程推理瓶颈

大家好,我是肆〇柒。 本文分享的这篇工作来自通义实验室(Tongyi Lab, Alibaba Group)的最新研究成果——ReSum。 他们提出了一种全新的推理范式,让大模型智能体在面对复杂问题时,能够像人类一样“停下来复盘、做笔记”,从而突破传统上下文长度限制,实现真正意义上的长程探索。
9/24/2025 9:10:24 AM
肆零柒

比思维链准43%!逻辑脑+大模型直觉,推理可靠性大幅提升

大语言模型(LLMs)已在文本生成、代码编写乃至多模态任务中展现出惊人的能力,但在涉及严谨逻辑与物理的空间推理任务上,它们仍显得力不从心。 比如,当模型需要理解多个物体之间的相对位置关系,并在复杂语境下进行多步骤推理时,往往容易出现「逻辑断裂」:可能在中间步骤中虚构错误事实,或偏离目标,最终导致答案不可靠。 这一问题在空间推理任务中尤为突出。
9/23/2025 9:06:00 AM

Notion3.0AI 代理爆出严重漏洞,恶意 PDF 可诱导其泄露敏感数据

随着 Notion3.0的发布,其全新的自主 AI 代理功能备受关注,该功能旨在帮助用户自动完成起草文档、更新数据库和管理工作流程等任务。 然而,网络安全公司 CodeIntegrity 最新的一份报告揭示了这些 AI 代理存在一个严重的安全漏洞,即恶意文件(如 PDF)可被利用,诱导代理绕过安全防护并窃取敏感数据。 CodeIntegrity 将这一漏洞归因于 AI 代理的“致命三重奏”:大型语言模型(LLM)、工具访问权限和长期记忆的结合。
9/22/2025 10:36:27 AM
AI在线