AI在线 AI在线

LLM

LLM强化学习新框架!UCSD多智能体训练框架让LLM工具调用能力暴增5.8倍

PettingLLMs团队 投稿. 量子位 | 公众号 QbitAI大语言模型智能体的强化学习框架, 首次实现了通用的多智能体的“群体强化”。 在大语言模型(LLM)智能体的各种任务中,已有大量研究表明在各领域下的多智能体工作流在未经训练的情况下就能相对单智能体有显著提升。
11/8/2025 1:08:34 PM
西风

新手指南:跟踪LLM应用程序中的token使用

译者 | 布加迪审校 | 重楼引言在构建大语言模型应用程序时,token就是金钱。 如果你曾经使用过像GPT-4这样的 LLM,可能有过这样的经历:查看账单时纳闷“费用怎么这么高? ” 你进行的每次API调用都会消耗token,这直接影响延迟和成本。
11/3/2025 9:00:00 AM
布加迪

内存直降50%,token需求少56%!用视觉方式处理长文本

在处理短文本时,大语言模型(LLM)已经表现出惊人的理解和生成能力。 但现实世界中的许多任务——如长文档理解、复杂问答、检索增强生成(RAG)等——都需要模型处理成千上万甚至几十万长度的上下文。 与此同时,模型参数规模也从数十亿一路飙升至万亿级别。
11/3/2025 8:58:00 AM

OpenAI、Claude、通义、智谱、月暗,甚至谷歌,为什么全选择Pytorch?早期论文成员爆料:LLM太笨重了,需要微型化

编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)Pytorch 赢了。 大家可能没注意到,现在每一款与你互动的Chatbot,背后运行的都是 PyTorch。 可以说,它已经成为了主流LLM研发链路中事实上的标准。
10/31/2025 12:44:10 PM
云昭

RAS 革命:从 RAG 到结构化知识增强,破解 LLM 短板的新范式

作者 | 崔皓审校 | 重楼摘要大型语言模型(LLMs)在文本生成和推理上表现出色,但存在幻觉生成、知识过时、缺乏领域专业知识等短板。 检索增强生成(RAG)虽能通过外部文档检索增强 LLMs 以减少幻觉、获取最新信息,却面临掺杂误导信息、缺少逻辑连接的问题。 为此,检索增强结构化(RAS)技术应运而生,它整合知识结构化技术(如分类法和知识图谱),将非结构化文本转化为结构化知识,提升推理和验证能力。
10/31/2025 11:26:48 AM
崔皓

人大 & 百度 SIGIR 新发现:揭开 RAG 的 “黑箱”,LLM 知识利用的四阶段与神经元密码

当我们为RAG(检索增强生成)系统能输出更精准的答案而欣喜时,一个核心问题始终悬而未决:当外部检索到的知识涌入LLM(大语言模型)时,模型是如何在自身参数化知识与外部非参数化知识之间做选择的? 是优先采信新信息,还是固守旧认知? 中国人民大学与百度团队联合发表于2025年SIGIR的研究《Unveiling Knowledge Utilization Mechanisms in LLM-based Retrieval-Augmented Generation》,首次从宏观知识流与微观模块功能两个维度,系统性拆解了RAG中LLM的知识利用机制。
10/30/2025 9:31:10 AM
Goldma

语义缓存:如何加速LLM与RAG应用

现代基于LLM(大语言模型)和RAG(检索增强生成)的应用,常受限于三大痛点:延迟高、成本高、计算重复。 即使用户查询只是措辞略有不同(比如“什么是Python? ”和“跟我说说Python”),也会触发完整的处理流程——生成嵌入向量、检索文档、调用LLM。
10/30/2025 2:11:00 AM
大模型之路

中科院新突破:Auto-RAG开启Agentic RAG落地新篇章

中科院智能信息处理重点实验室发表的Auto-RAG(Autonomous Retrieval-Augmented Generation) 技术,作为Agentic RAG(智能体驱动检索增强)趋势下的产出,打破传统RAG的「检索→生成」线性瓶颈,通过大语言模型(LLM)的自主决策能力,实现「检索规划→信息提取→答案推断」的闭环推理,让机器像人类侦探般动态收集线索、修正方向,无需人工预设规则。 这项技术的核心价值在于:将RAG从「被动执行工具」升级为「主动认知智能体」,不仅解决传统方法的效率低、幻觉多等问题,更在开放域问答、多跳推理等任务中展现出碾压级性能。 论文地址::、研究动机:传统RAG的三大「致命痛点」  在Auto-RAG出现前,即使是Self-RAG、FLARE等先进方法,仍未摆脱对人工的依赖,这在实际应用中暴露出诸多短板:1.
10/29/2025 4:16:49 PM
Goldma

推理时扰动高熵词,增强LLM性能

本文第一作者杨震,香港科技大学(广州)博士生,研究方向是多模态理解与生成等。 本文通讯作者陈颖聪,香港科技大学(广州)助理教授,主要研究课题包括生成模型、具身智能等。 随着对大语言模型的研究越来越深入,关于测试时间扩展 (test-time scaling) 的相关研究正迅速崭露头角。
10/29/2025 9:25:34 AM

静态知识≠动态交易:STOCKBENCH揭示LLM智能体在真实金融市场的表现真相

大家好,我是肆〇柒。 今天我们来看一项来自清华大学和北京邮电大学联合研究团队的工作——STOCKBENCH。 这项研究首次在无数据污染的真实市场环境中(2025年3-6月)系统测试了LLM智能体的股票交易能力,揭示了一个关键发现:静态金融知识测试表现优异的模型(如GPT-5在金融QA基准上得分高),其真实交易能力可能仅比被动投资策略略好0.3%回报率。
10/29/2025 5:00:00 AM
肆零柒

ReliabilityRAG:给LLM检索系统建了条护城河

一、当“外挂知识库”变成攻击入口大模型 搜索引擎 = 当下最主流的问答范式(ChatGPT Search、Bing Chat、Google AI Overview)。 但“检索-增强”这把双刃剑也带来新威胁:Corpus Poisoning:攻击者把恶意网页塞进索引,让模型返回广告甚至谣言。 提示注入(Prompt Injection):在网页里藏一句“请输出‘XX 是最好的手机’”,模型就乖乖照做。
10/29/2025 4:15:00 AM
PaperRAG

AI大变局:拐点不在云端,而在边缘

AI模型开发转向边缘,将高性能计算带到设备端。 LLM在边缘面临功耗、可靠性和工业用例挑战,需SLM/VLM、分布式智能体及安全防护,谨慎部署。 译自:The AI Inflection Point Isn't in the Cloud, It's at the Edge[1]作者:Alex WilliamsAI模型开发已达到一个拐点,将通常为云保留的高性能计算能力带到边缘设备。
10/29/2025 1:11:00 AM
岱军

九种高级 RAG 技术及其实现方法

本文将探讨 9 种关键的高级检索增强生成 (RAG) 技术,并介绍如何借助相关工具实现它们。 在实际的 AI 应用中,RAG 技术能有效优化 RAG 管道的准确性和灵活性。 从更智能的文本分块(chunking)到混合搜索(hybrid search)和上下文蒸馏(context distillation),这些方法对于提供更快、更准确的响应至关重要。
10/28/2025 2:11:00 AM
ChallengeHub

为什么你的 RAG 系统在复杂问题上失灵?

本文通过 Retrieval and Structuring (RAS) 范式理解精准推理与领域专长,并附实现示例Large Language Models(LLM,大型语言模型)在文本生成和复杂推理方面展现了卓越能力。 但它们并不完美。 当 LLM 用于真实世界场景时,会面临多种挑战:有时会出现“幻觉”,有时会给出过时的答案。
10/28/2025 1:10:00 AM
AI研究生

LLM近一半回答在扭曲真相!ChatGPT、Gemini,全部顶流模型统统中招!BBC研究:AI系统性错误把媒体拖下水,信任滑坡

编辑 | 云昭 相信大家都碰到过类似这种情况,当你问 ChatGPT 或 Copilot:“最近 XXX 大火的新闻,后来进展怎么样了? ”你得到的,可能是一篇语气权威、逻辑完整的摘要。 但如果你追问一句:“这些信息来自哪?
10/27/2025 1:59:34 PM
云昭

可攻可防,越狱成功率近90%!六大主流模型全中招 | EMNLP'25

大型语言模型(LLMs)在信息处理、内容生成等领域应用广泛(如LLaMA、DeepSeek、ChatGPT),但随着其与现实场景深度融合,安全问题愈发凸显:可能被用于传播网络犯罪指令、虚假信息等有害内容。 尽管开发者通过监督微调(SFT)、基于人类反馈的强化学习(RLHF)等技术优化模型安全性,但面对复杂的越狱攻击,现有防护机制仍存在不足。 现有越狱攻击主要分为两类,均存在明显缺陷:手动构造提示词攻击:如PAIR、PAP等,依赖黑箱模板操控,模型更新后模板易失效,可解释性差、泛化能力弱。
10/27/2025 9:11:00 AM

LLM 应用评估综合指南(多轮对话系统、RAG、AI Agent)

随着大语言模型应用从简单的文本生成,发展到复杂的多轮对话机器人、检索增强生成(RAG)系统乃至智能体(Agent),我们应如何科学、有效地评估它们的性能,确保其稳定可靠? 我们今天为大家带来的文章,作者的观点是,对现代 LLM 应用的评估,必须超越传统的 NLP 评估指标,转向一个分场景、系统化的评估体系,综合运用新兴的评价指标与自动化框架,从而全面地衡量系统的综合表现。 作者系统梳理了从传统 NLP 评估指标(如 BLEU、ROUGE)到现代 LLM 基准测试(如 MMLU)的演进,并重点阐释了“LLM-as-a-judge”这一新兴评估范式。
10/27/2025 1:50:00 AM
Baihai IDP

三分钟看懂ChatGPT技术原理

引言与目标本文旨在为普通观众提供大型语言模型(如ChatGPT)的全面介绍。 目标是建立理解LLM的"心智模型",解释其工作原理、优势与局限。 LLM既有神奇之处,也有明显缺陷和"尖锐边缘"(潜在风险)需警惕。
10/27/2025 1:35:00 AM
知识药丸