AI在线 AI在线

工程

开源RL框架Verlog来了,专为LLM智能体打造,400回合不成问题

AI 时代,智能体对短期对话的处理能力已不再是难题。 真正的挑战是让智能体在数百步的探索中依然保持清晰的推理与稳健的决策。 传统的强化学习框架在几十步内尚能应付,但一旦任务延展至数百步,奖励稀疏、历史冗长、策略崩塌便接踵而至。
10/8/2025 7:23:00 PM
机器之心

田渊栋与Russell团队联手,证明Transformer能在训练中自然学会叠加推理

对于大型语言模型而言,生成更长、更复杂的推理链,往往意味着巨大的计算成本。 为了解决这一难题,田渊栋团队在 2024 年提出的「连续思维链」 (Coconut) 提供了一种全新的范式,它将推理轨迹保留在连续的隐空间中,而非离散的文字符号。 现在,他们与 Stuart Russell 团队的最新合作研究则从理论上回答了一个核心问题:这种高效的推理范式是如何在训练中自发产生的?
10/7/2025 7:37:00 PM
机器之心

EMNLP 2025 | CARE:无需外部工具,让大模型原生检索增强推理实现上下文高保真

近日,来自 MetaGPT、蒙特利尔大学和 Mila 研究所、麦吉尔大学、耶鲁大学等机构的研究团队发布 CARE 框架,一个新颖的原生检索增强推理框架,教会 LLM 将推理过程中的上下文事实与模型自身的检索能力有机结合起来。 该框架现已全面开源,包括训练数据集、训练代码、模型 checkpoints 和评估代码,为社区提供一套完整的、可复现工作。 项目主页::: & 数据集:“外部搜索”到“原生检索”的转变1、现有方法的困境目前解决上下文保真度问题主要有两条路:1.
10/6/2025 6:22:00 PM
机器之心

Meta FAIR田渊栋唯一作者发文:拆解模型「顿悟时刻」

早在 2021 年,研究人员就已经发现了深度神经网络常常表现出一种令人困惑的现象,模型在早期训练阶段对训练数据的记忆能力较弱,但随着持续训练,在某一个时间点,会突然从记忆转向强泛化。 类似于「顿悟时刻」,模型在某一刻突然理解了数据的内在规律。 这种现象被称为「grokking(延迟泛化)」。
10/5/2025 8:09:00 PM
机器之心

从「知题」到「知人」:UserRL让智能体学会「以人为本」

“知人者智,自知者明。 ”——《道德经》古人早已洞见:真正的人类智慧,不仅仅在于公式推演、掌握技艺,更是能理解他人、洞察人心。 今天的大语言模型已能在代码、数学与工具使用上出色地完成任务,然而距离成为真正的用户伙伴,它们依旧缺少那份 “知人” 的能力。
10/5/2025 7:59:00 PM
机器之心

你敢信?GPT-5的电脑操作水平只比人类低2%了

Agent(智能体)是最近一段时间的人工智能热点之一,将大语言模型的能力与工具调用、环境交互和自主规划结合起来,使其能够像虚拟助理一样完成复杂任务。 其中「计算机使用智能体」(computer-use agent,CUA)是一种能够直接在电脑环境中代替人类执行操作的智能体。 它和传统的对话式 AI 不同,不只是回答问题,而是模拟人类使用鼠标、键盘和操作软件来完成任务。
10/4/2025 2:45:00 PM
机器之心

Insta360最新全景综述:全景视觉的挑战、方法与未来

本文作者团队来自 Insta360 影石研究院及其合作高校。 目前,Insta360 正在面向世界模型、多模态大模型、生成式模型等前沿方向招聘实习生与全职算法工程师,欢迎有志于前沿 AI 研究与落地的同学加入! 简历投递邮箱:[email protected]在虚拟现实、自动驾驶、具身智能等新兴应用中,全景视觉正逐渐成为不可或缺的研究方向。
10/4/2025 2:29:00 PM
机器之心

1.5B推理模型新SOTA,RL训练新解法打破「简单题过拟合、难题学不动」的魔咒

QuestA(问题增强)引入了一种方法,用于提升强化学习中的推理能力。 通过在训练过程中注入部分解题提示,QuestA 实现两项重大成果:Pass@1 的 SOTA 性能:在 1.5B 模型上实现了最先进的结果,甚至在关键基准测试中超越了早期的 32B 模型。 提升 Pass@k:在提高 Pass@1 的同时,QuestA 不会降低 Pass@k 性能 —— 事实上,它通过让模型在多次尝试中进行更有效的推理,从而提升了模型能力。
10/3/2025 8:29:00 PM
机器之心

又一推理新范式:将LLM自身视作「改进操作符」,突破长思维链极限

推理训练促使大语言模型(LLM)生成长思维链(long CoT),这在某些方面有助于它们探索解决策略并进行自我检查。 虽然这种方式提高了准确性,但也增加了上下文长度、token / 计算成本和答案延迟。 因此,问题来了:当前的模型能否利用其元认知能力,在这一帕累托前沿上提供其他组合策略,例如在降低上下文长度和 / 或延迟的情况下提高准确性?
10/3/2025 2:56:00 PM
机器之心

NIPS 2025 Spotlight | 港大提出TreeSynth方法,一句话生成百万规模数据集

本文第一作者王升,陈鹏安与周靖淇均来自香港大学。 通讯作者为香港大学计算机科学系吴川教授与孔令鹏教授。 其他作者还包括来自香港大学的李沁桐、董经纬、高佳慧,以及香港中文大学的薛博阳、江继越。
10/3/2025 2:49:00 PM
机器之心

梦里啥都有?谷歌新世界模型纯靠「想象」训练,学会了在《我的世界》里挖钻石

只让机器人或虚拟智能体「想象」,不让它们和物理世界交互,它们也能学到和世界交互的技能? 谷歌的世界模型 Dreamer 4 为这一想法提供了新的支撑。 为了在具身环境中解决复杂任务,智能体需要深入理解世界并选择成功的行动。
10/2/2025 3:00:00 PM
机器之心

Sora 2深夜来袭,OpenAI直接推出App,视频ChatGPT时刻到了

没想到吧,在别家节前卷大模型时,OpenAI 悄悄发布了 Sora2。 而且,这次是直接产品化,推出了 App,甚至还有配套的视频推送算法,声称可以防成瘾。 这是要做自己的 TikTok?
10/1/2025 11:01:00 AM
机器之心

Thinking Machines又发高质量博客:力推LoRA,不输全量微调

LoRA 在绝大多数后训练场景下,能以远低于全量微调的成本,获得几乎同等的效果。 Thinking Machines 将这一现象形容为 LoRA 的低遗憾区间(low-regret region)——即便不用全量微调,选择 LoRA 也不会让人后悔。 最近,Thinking Machines 真实高产啊。
9/30/2025 7:21:00 PM
机器之心

NeurIPS 2025 Spotlight | FSDrive统一VLA和世界模型,推动自动驾驶迈向视觉推理

面向自动驾驶的多模态大模型在 “推理链” 上多以文字或符号为中介,易造成空间 - 时间关系模糊与细粒度信息丢失。 FSDrive(FutureSightDrive)提出 “时空视觉 CoT”(Spatio-Temporal Chain-of-Thought),让模型直接 “以图思考”,用统一的未来图像帧作为中间推理步骤,联合未来场景与感知结果进行可视化推理。 该方法在不改动原有 MLLM 架构的前提下,通过 “词表扩展 自回归视觉生成” 激活图像生成能力,并以 “由易到难” 的渐进式视觉 CoT 注入物理先验。
9/30/2025 7:03:00 PM
机器之心

LLM工业级自进化:北邮与腾讯AI Lab提出MoE-CL架构,解决大模型持续学习核心痛点

在工业级大语言模型(LLM)应用中,动态适配任务与保留既有能力的 “自进化” 需求日益迫切。 真实场景中,不同领域语言模式差异显著,LLM 需在学习新场景合规规则的同时,不丢失旧场景的判断能力。 这正是大模型自进化核心诉求,即 “自主优化跨任务知识整合,适应动态环境而无需大量外部干预”。
9/30/2025 10:26:00 AM
机器之心

首个零样本跨本体泛化开源具身模型:智源RoboBrain-X0 技术细节全解析

为具身智能行业提供了一个可复用、可扩展的通用基座,同时开源训练数据集。 今天,北京智源人工智能研究院(BAAI)正式开源 RoboBrain-X0,一个能够在零样本泛化、轻量微调条件下,驱动多种不同真实机器人完成复杂任务的具身智能基座大模型。 其核心突破在于:用统一的动作空间与分层任务拆解,实现了「一个基座模型,N种身体」,为通用具身智能提供一条切实可行的路径。
9/29/2025 3:11:00 PM
机器之心

千寻智能高阳团队最新成果:纯视觉VLA方案从有限数据中学到强大的空间泛化能力

设想一下刚学开车的情况:在训练场上,我们可能会反复练习特定动作:到了某个位置就踩刹车,拐到某个点就打方向盘。 久而久之,这些动作会形成 “条件记忆”,一旦环境发生变化,就容易手忙脚乱。 最近,千寻智能的研究人员注意到,基于模仿学习的视觉运动策略中也存在类似现象,并在论文《Do You Need Proprioceptive States in Visuomotor Policies?》中对此进行了深入探讨。
9/29/2025 11:33:00 AM
机器之心

大神爆肝一个月,复刻DeepMind世界模型,300万参数就能玩实时交互像素游戏

还记得 DeepMind 的 Genie 3 世界模型吗? 它首次让世界模型真实地模拟了真实世界。 最近,X 博主 anandmaj 在一个月内复刻 Genie 3 的核心思想,开发出了 TinyWorlds,一个仅 300 万参数的世界模型,能够实时生成可玩的像素风格环境,包括 Pong、Sonic、Zelda 和 Doom。
9/28/2025 6:46:00 PM
机器之心