AI在线 AI在线

LLM

ICML 2025 Spotlight | 谁导致了多智能体系统的失败?首个「自动化失败归因」研究出炉

想象这样一个场景:你开发了一个由多个大型语言模型 Agent 组成的智能团队,它们协作完成复杂任务,比如一个 Agent 负责检索,一个负责决策。 然而任务失败了,结果不对。 问题来了:到底是哪个 Agent 出了错?
6/3/2025 8:26:00 AM

首次解释LLM如何推理反思!西北大学谷歌新框架:引入贝叶斯自适应强化学习,数学推理全面提升

推理模型常常表现出类似自我反思的行为,但问题是——这些行为是否真的能有效探索新策略呢? 对此,西北大学与Google、谷歌DeepMind团队质疑了传统强化学习与反思的关系,并提出了贝叶斯自适应的强化学习方法,首次解释了为什么、如何、以及何时应该反思并探索新策略。 图片通过对比分别使用传统强化学习和新方法训练的模型,研究人员发现:在完成“模型需要在3步内输出三个连续相同字符”这一合成任务中,传统RL往往一条路走到黑,而新方法懂得排除无效假设,适时切换新策略。
6/3/2025 3:15:00 AM
量子位

RAG中基于图的重排序:利用图神经网络革新信息检索(含代码)

一、信息检索的演进与图重排序的崛起在大数据与人工智能技术爆发的时代,信息检索(IR)系统面临着前所未有的挑战:用户查询日益复杂,跨领域知识需求激增,传统基于词法匹配或单一语义向量的检索模型逐渐暴露局限性。 两阶段检索架构——初始检索与重排序——虽已成为主流,但第一阶段的快速检索常因忽略文档间关联而引入噪声,第二阶段的传统重排序器(如交叉编码器)又难以捕捉结构化知识与全局语义关系。 在此背景下,基于图的重排序(Graph-Based Re-ranking)技术应运而生,通过图神经网络(GNN)建模文档、实体与查询间的复杂关系,为信息检索领域注入了全新的活力。
6/3/2025 2:11:00 AM
大模型之路

Claude 团队打开大模型“脑回路”,推出开源 LLM 思维可视化工具

Claude 团队来搞开源了 —— 推出“电路追踪”(circuit tracing)工具,可以帮大伙儿读懂大模型的“脑回路”,追踪其思维过程。
5/31/2025 10:36:22 PM
汪淼

LLM可以在没有采用强化学习或大型数据集的情况下学习推理吗?

译者 | 李睿审校 | 重楼针对提升LLM推理能力面临的挑战,斯坦福大学研究人员提出了“思考、修剪、训练”(TPT)框架,让LLM利用自生成且验证正确的数据迭代优化。 研究表明,无需强化学习、大型数据集或外部教师模型,TPT可以使较小模型推理性能媲美甚至超越大模型,凸显了TPT框架在提升模型推理能力和准确性的潜力。 目前,缺乏高质量的训练数据仍然是提高大型语言模型(LLM)推理能力的主要障碍之一。
5/30/2025 10:50:27 AM
李睿

LLM省钱大测评!48块GH200,首个百亿级参数量实证

近年来,大型语言模型(LLM)如GPT系列取得了革命性进展,在自然语言处理、内容创作、多语言翻译乃至科学研究等众多领域展现出惊人能力。 然而,模型参数量(如DeepseekR1的671B参数)和上下文窗口的急剧膨胀,带来了巨大的计算力(GPT-3训练约需3640Petaflop/s-days)、能源消耗和资金投入(GPT-3训练成本估计超460万美元)。 高昂的成本已成为制约LLM进一步发展和广泛应用的关键瓶颈。
5/30/2025 8:50:00 AM

如何使用 LLM实现电子表格规范化

一、如何使用 LLM实现电子表格规范化请观察以下电子表格:图片从“为什么”开始图片让我们看一下这个Excel电子表格,其中包含电影奖项的信息。 这是一个典型的、常见的电子表格,每个人都可能在日常工作中使用它。 但它有什么问题呢?
5/29/2025 9:48:22 AM
晓晓

快速理解热门 LLM 大语言模型

作者 | masonpy本文尽量用最简单的方式, 帮读者理解 LLM,Transformer, Prompt, Function calling, MCP, Agent, A2A 等这些基本概念。 表述时不追求绝对准确,尽量通俗易懂,部分内容有个人理解的成份,内容难免疏漏, 欢迎指正。 注意:本文需要你有基本的代码阅读能力,当然非开发阅读也不会很困难。
5/29/2025 8:30:00 AM
腾讯技术工程

AlphaEvolve: 谷歌DeepMind迈向通用人工智能(AGI)的突破性一步

译者 | 李睿审校 | 重楼谷歌DeepMind推出的AlphaEvolve旨在自主发现算法和科学解决方案。 它基于进化计算原理,通过LLM驱动的独立进化流程,不断优化代码。 AlphaEvolve不仅超越人类专家设计的算法,还在数学和谷歌基础设施优化上取得突破。
5/29/2025 8:19:49 AM
李睿

数据提取场景下不同LLM模型对比分析

在数字化时代,数据作为核心资产,其高效处理与利用成为企业和组织发展的关键。 然而,大量数据以非结构化文本、传统文档等形式存在,导致数据提取面临巨大挑战。 人工智能,尤其是大语言模型(LLMs)的爆发式发展,为大规模自动化数据提取提供了新的可能。
5/29/2025 1:50:00 AM
大模型之路

告别卡脖子,华为黑科技破局!昇腾推理加速1.6倍打破LLM降智魔咒

LLM发展到今天,下一步该往哪个方向探索? 显然,如今最明显的一个问题就是,大模型的参数规模还是太大了——DeepSeek-V3的参数为671B,Llama 3.1系列最大为405B,GPT-4o为200B,Claude 3.5 Sonnet为175B。 参数规模在不断增长,高昂的计算成本和推理延迟,该怎么破?
5/28/2025 8:51:00 AM

我的RAG开源项目300+star了,十分适合新手入门(日志级详细拆解)

三个月前,我在 Github 上开源的一个 RAG 练手项目,目前已经有了 327 个 star,总共解决了 22 个 issues。 结合过去几个月的项目实践,我重新对项目做了轻量化重构,降低资源消耗与部署门槛。 项目地址:,五脏俱全。
5/28/2025 5:00:00 AM
韦东东

「DeepSeek 技术解析」:LLM 训练中的强化学习算法

我们将深入探讨 DeepSeek 模型训练策略中的关键创新之一[1, 2]:群组相对策略优化(Grouped Relative Policy Optimization,GRPO)[3]。 为确保本文自成体系并阐明 GRPO 的理论基础,我们将首先介绍强化学习的基础概念,重点解析强化学习(RL)及基于人类反馈的强化学习(RLHF)在 LLM 训练中的核心作用。 接着我们将探讨不同的强化学习范式,包括基于价值的强化学习、基于策略的强化学习和 Actor-Critic 强化学习,回顾经典算法如置信域策略优化(TRPO)和近端策略优化(PPO),最后解析 GRPO 带来的优化创新。
5/28/2025 2:25:00 AM
Baihai IDP

北大团队首次系统性评估大语言模型心理特征,推动AI评估新标准

在人工智能迅猛发展的今天,大语言模型(LLM)展现出了超凡的能力,但如何科学评估它们的 “心智” 特征,比如价值观、性格和社交智能,依旧是一个亟待解决的难题。 近期,北京大学的宋国杰教授团队发布了一篇全面的综述论文,系统梳理了大语言模型心理测量学的研究进展,为 AI 的评估提供了新视角。 这篇论文名为《大语言模型心理测量学:评估、验证与增强的系统综述》,长达63页,引用了500篇相关文献。
5/27/2025 4:01:00 PM
AI在线

北大团队发布首篇大语言模型心理测量学系统综述:评估、验证、增强

随着大语言模型(LLM)能力的快速迭代,传统评估方法已难以满足需求。 如何科学评估 LLM 的「心智」特征,例如价值观、性格和社交智能? 如何建立更全面、更可靠的 AI 评估体系?
5/27/2025 3:21:06 PM

这篇 AI Agent 漫游指南,带你建立全面的科技史观

作者 | kong以OpenAI o1与DeepSeek R1为代表的"类Agent"模型、OpenAI DeepResearch为代表的“真Agent”模型,正在重构AI Agent的技术范式。 Agentic Workflow的王座还没坐热,强化学习驱动的端到端Agent模型训练已呼啸而来。 未来趋势已指明:模型即产品,工程化Agent的命运将如何?
5/27/2025 10:05:00 AM
腾讯技术工程

LiteLLM:用于统一大模型访问的开源网关

译者 | 核子可乐审校 | 重楼摘要:LiteLLM 允许开发者像调用 OpenAI API 那样集成各种大语言模型(LLM),并支持故障转移、预算控制、速率限制以及对API调用的实时监控。 不同提供商发布的大语言模型(LLM)层出不穷——包括 Anthropic、谷歌、Meta、微软、英伟达、OpenAI 等等——这为开发者提供了丰富的选择,但也令复杂性一路攀升。 每家提供商都有其独特的API特性和响应格式,使得在同一个应用中切换模型或支持多个后端变得愈发困难。
5/27/2025 8:19:06 AM
核子可乐

LLM能理解数学吗?最新研究揭露大模型数学推理的致命缺陷

你有没有想过,那些在聊天中侃侃而谈的AI大模型,遇到数学题时会是什么样子? 就像一个平时很会聊天的朋友,突然被问到复杂的数学问题时支支吾吾的样子。 最近有研究团队专门研究了这个问题,结果发现了一些让人意外的真相。
5/27/2025 1:27:00 AM
无影寺