工程

Anthropic、Thinking Machines Lab论文曝光：30万次压力测试揭示AI规范缺陷

即便是最详细的模型规范，也存在内部矛盾、粒度不足与解释歧义。现如今，LLM 正越来越多地受到模型规范的约束，这些规范为模型的行为准则与伦理边界提供了清晰定义。它们构成了 Constitutional AI（宪法式 AI）与 Deliberate Alignment（审慎对齐）的核心基础。

10/25/2025 11:05:00 PM

机器之心

让机器人「不仅会想，还能准确去做」，VLA-R1把「推理+行动」带进真实世界

在机器人与智能体领域，一个老大难问题是：当你让机器人 “把黄碗放进白色空篮子” 或 “从微波炉里把牛奶取出来放到餐桌上” 时，它不仅要看懂环境，更要解释指令、规划路径 / 可操作区域，并把这些推理落实为准确的动作。目前，很多 VLA（Vision-Language-Action）模型仍倾向直接输出动作，缺乏对可供性（affordance）与轨迹（trajectory）几何关系的显式推理，一旦遇到颜色相近、目标重复或容器多选等场景，就容易出错。 VLA-R1 的目标，不仅把 “会想” 这步补上，而且通过强化学习进一步加强执行动作的准确性，让机器人解释清楚再去准确执行。

10/25/2025 11:02:00 PM

机器之心

NeurIPS 2025 | ARGRE框架实现高效LLM解毒：自回归奖励引导，安全对齐更快、更准、更轻

作者为北京航空航天大学的肖宜松，刘艾杉，应宗浩，刘祥龙，新加坡国立大学的梁思源，新加坡南洋理工大学的陶大程。本文已被 NeurIPS 2025 录用。 LLM 已在智能创作、企业服务等领域广泛应用，但其内容安全问题仍是落地过程中的关键挑战。

10/25/2025 10:54:00 PM

机器之心

让VLM学会「心中有世界」：VAGEN用多轮RL把视觉智能变成「世界模型」推理机器

当今的 AI 智能体（Agent）越来越强大，尤其是像 VLM（视觉-语言模型）这样能「看懂」世界的智能体。但研究者发现一个大问题：相比于只处理文本的 LLM 智能体，VLM 智能体在面对复杂的视觉任务时，常常表现得像一个「莽撞的执行者」，而不是一个「深思熟虑的思考者」。它们为什么会这样？

10/25/2025 10:46:00 PM

机器之心

快手Klear团队提出CE-GPPO：通过梯度保留协调熵，解决强化学习中的熵不稳定问题

本研究由快手科技 Klear 语言大模型团队完成，核心作者苏振鹏，潘雷宇，吕民轩，胡文凭，张富峥，周国睿等。快手 Klear 语言大模型团队聚焦在基础语言大模型研发、Agent RL 等前沿技术创新等方向，积累务实的探索 AGI 的能力边界，并不断推进 AI 领域新技术和新产品的发展。此前，该团队已开源了 Klear-46B-A2.5B 和 Klear-Reasoner-8B 等模型，其中 Klear-Reasoner-8B 在数学和代码的基准测试上达到了同参数级别模型的 SOTA 效果。

10/25/2025 10:29:00 PM

机器之心

智能体系统如何「边做边学」？斯坦福团队探索在线优化的新范式

如何让智能体进行复杂推理与工具调用？传统方法主要有两类：训练单一的大语言模型，使其同时承担思考与工具调用的任务；要么依赖静态提示词驱动的 training-free 智能体系统。然而，前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定，缺乏可扩展性（scalability）；后者则缺少学习与适应能力，难以应对复杂场景。

10/24/2025 5:27:00 PM

机器之心

Seedream 4.0大战Nano Banana、GPT-4o？EdiVal-Agent 终结图像编辑评测

在 AIGC 的下一个阶段，图像编辑（Image Editing）正逐渐取代一次性生成，成为检验多模态模型理解、生成与推理能力的关键场景。我们该如何科学、公正地评测这些图像编辑模型？为了解决这一难题，来自得克萨斯大学奥斯汀分校、UCLA、微软等机构的研究者们共同提出了 EdiVal-Agent，一个以对象为中心的自动化、细粒度的多轮编辑（Multi-Turn Editing）评估框架。

10/24/2025 2:40:00 PM

机器之心

NeurIPS 2025 Spotlight | 让检索、推理真正「合体」的小而强模型，AceSearcher来了

如何让一个并不巨大的开源大模型，在面对需要多步检索与复杂逻辑整合的问题时，依然像 “冷静的研究员” 那样先拆解、再查证、后归纳，最后给出可核实的结论？近期，来自埃默里大学，佐治亚理工大学，罗格斯大学，纽约州立大学奥尔巴尼分校，得克萨斯大学西南医学中心的研究团队发布 AceSearcher 模型，一个让同一语言模型在推理时兼任 “问题分解者（Decomposer）” 与 “答案求解者（Solver）” 的合作式自博弈框架：它以两阶段训练（SFT→RFT）为骨架，把 “会拆题、会找料、会整合” 的完整能力链拧成了一根绳。更重要的是，这不是单纯的 “又一个新模型”，而是一个更优的框架：它把公开的推理数据集引入到检索增强的训练流程中，让模型真正学会如何把推理与检索结合起来，显著提升了复杂检索任务的效果。

10/24/2025 1:34:00 PM

机器之心

八年后，Meta教会了Transformer「显式思考」

最近的 Meta 可谓大动作不断，一边疯狂裁人，一边又高强度产出论文。 10 月 20 日，他们又上线了一篇新论文《The Free Transformer》，作者只有一位，日内瓦大学教授、Meta 研究科学家 François Fleuret。有意思的是，François 所在的 FAIR 是 Meta 近日裁员最严重的部门之一。

10/24/2025 12:00:00 PM

机器之心

腾讯发布SpecExit算法，无损压缩端到端加速2.5倍！解决大模型长思考效率难题

以 DeepSeek-R1 等为代表的推理模型（Large Reasoning Models, LRMs），通过生成更长的思维链，在各类复杂任务中取得了更优的表现。但长思维链是推理模型的 “双刃剑”，虽能提升性能，但 “过度思考” 带来的语义冗余会大幅推高推理成本。为破解大模型长思维链的效率难题，并且为了更好的端到端加速落地，我们将思考早停与投机采样无缝融合，提出了 SpecExit 方法，利用轻量级草稿模型预测 “退出信号”，在避免额外探测开销的同时将思维链长度缩短 66%，vLLM 上推理端到端加速 2.5 倍。

10/24/2025 11:56:00 AM

机器之心

无VAE扩散模型！清华&可灵团队「撞车」谢赛宁团队「RAE」

长期以来，扩散模型的训练通常依赖由变分自编码器（VAE）构建的低维潜空间表示。然而，VAE 的潜空间表征能力有限，难以有效支撑感知理解等核心视觉任务，同时「VAE Diffusion」的范式在训练与推理效率上也存在显著瓶颈。清华大学智能视觉团队和快手可灵团队联合推出《Latent Diffusion Model without Variational Autoencoder》与近期爆火的谢赛宁团队 RAE 工作不谋而合，但在总体设计思路与研究重点上有所差异。

10/23/2025 1:27:00 PM

机器之心

搜索智能体的关键一课：先立目标，再照镜子

随着 AI 能力不断增强，它正日益融入我们的工作与生活。我们也更愿意给予它更多「授权」，让它主动去搜集信息、分析证据、做出判断。搜索智能体正是 AI 触达人类世界迈出的重要一步。

10/23/2025 1:22:00 PM

机器之心

攻克长文档与多模态挑战，Paper2Video实现学术视频的自动化生产

本研究由新加坡国立大学 Show Lab 团队主导完成。共一作者 Zeyu Zhu 祝泽宇（博士生）与 Kevin Qinghong Lin 林庆泓（博士生）均来自 ShowLab@NUS，聚焦于多模态理解以及智能体（Agent）研究。项目负责人为新加坡国立大学校长青年助理教授 Mike Zheng Shou 寿政。

10/23/2025 11:04:00 AM

机器之心

不用强化学习也能推理，哈佛新采样算法竟能让基础模型比肩GRPO后训练版本

强化学习能力强大，几乎已经成为推理模型训练流程中的标配，也有不少研究者在探索强化学习可以为大模型带来哪些涌现行为。现在，问题来了：要让大模型学会推理，强化学习是必需的吗？近日，哈佛大学一篇论文探索了能否不使用任何额外训练，通过纯粹的采样让基础模型表现出推理能力。

10/22/2025 5:08:00 PM

机器之心

X上63万人围观的Traning-Free GRPO：把GRPO搬进上下文空间学习

年初的 DeepSeek-R1，带来了大模型强化学习（RL）的火爆。无论是数学推理、工具调用，还是多智能体协作，GRPO（Group Relative Policy Optimization）都成了最常见的 RL 算法。 GRPO 的核心思路很简单却强大：对同一个问题，同时生成多条解答路径（rollout）给这些路径打分，比较组内优劣再根据优势信号来更新模型参数，让模型越来越偏好高质量解法这种「多路径并行组内优势」的机制，虽然比传统 PPO 等方法更加简洁，但仍然需要优化模型参数，💰 太贵了！

10/22/2025 5:02:00 PM

机器之心

R-HORIZON：长程推理时代来临，复旦NLP&美团LongCat重磅发布LRMs能力边界探测新范式

陆毅，复旦大学自然语言处理实验室硕士生，在 ACL、EMNLP、COLM、NeurIPS 等顶会发表论文十余篇，LongCat Team 核心成员，研究方向为大模型的复杂推理和长序列建模，指导老师为桂韬老师。郭林森，硕士毕业于东南大学，在 NAACL、EMNLP、Recsys 等会议发表论文多篇，目前就职于美团，LongCat Team 核心成员，研究方向为大模型评测与数据价值挖掘。王嘉宁，获得华东师范大学博士学位，曾前往 UCSD 访问学习，在 ACL、EMNLP、AAAI、ICLR 等顶会发表论文数十篇，目前就职于美团，LongCat Team 核心成员，研究方向为大模型训练与复杂推理。

10/22/2025 4:57:00 PM

机器之心