训练

无需人工标注！AI自生成训练数据，靠「演绎-归纳-溯因」解锁推理能力

当AI试图破解数学、编程与科学的难题时，它常常像一位灵感乍现的天才，却又难以稳定发挥。新加坡国立大学、清华大学和Salesforce AI Research的研究者，提出了一种革命性的训练框架——元能力对齐，赋予模型稳健的推理能力，让顿悟成为常态。论文链接：，能够高效地系统化培养大模型的数学，编程和科学问题上的基本推理能力。

6/3/2025 9:05:00 AM

挑战强化学习后训练霸权！全新无监督方法仅需1条数据+10步优化

无需标注数据、无需繁琐奖励设计，只用10步就能见效——「熵最小化」或许比强化学习更适合大语言模型快速升级。强化学习（RL）近年来在大语言模型（LLM）的微调中大获成功，但高昂的数据标注成本、复杂的奖励设计和漫长的训练周期，成为制约RL进一步应用的瓶颈。 Ubiquant研究团队提出了一种极为简单有效的无监督方法——One Shot熵最小化（Entropy Minimization，EM），仅用一条无标签数据，训练10步内即可显著提升LLM性能，甚至超过使用成千上万数据的RL方法。

6/3/2025 8:49:00 AM

UC伯克利新作颠覆认知：LLM靠「自信爆表」学会推理？无需外部奖励超进化

就在刚刚，UC伯克利CS博士后Xuandong Zhao，分享出来自己「今年参与的最鼓舞人心的工作」。他和同事们发现，在没有外部奖励的情况下，LLM竟然只靠「自信爆棚」，就学会了复杂推理？论文地址：，竟能学会复杂推理LLM不靠外部奖励，就能自己学会复杂推理，这个结论实在很出乎意料。

6/3/2025 8:38:00 AM

10个小模型并联跑赢GPT-4.1！无额外训练，方法仅四步

近年来，语言模型技术迅速发展，然而代表性成果如Gemini 2.5Pro和GPT-4.1，逐渐被谷歌、OpenAI等科技巨头所垄断。与此同时，开源社区的小规模模型正面临日益严峻的挑战——他们参数规模通常仅在7B左右，难以在多任务、多领域场景中与大型闭源模型相抗衡，尚未形成真正意义上的通用人工智能能力。在此背景下，上海人工智能实验室联合东北大学、西北工业大学等机构，提出了Avengers框架，旨在探索开源小模型群体智能的新路径。

6/3/2025 8:12:00 AM

谷歌之后，英伟达入局扩散大语言模型，Fast-dLLM推理速度狂飙27.6倍

在大语言模型（LLM）领域，推理效率是制约其实际应用的关键因素之一。谷歌 DeepMind 的 Gemini diffusion 曾以 1400 tokens / 秒的生成速度震惊学界，展现了扩散模型在并行生成上的潜力。然而，开源扩散 LLM 却因缺乏 KV 缓存机制和并行解码质量衰退，实际推理速度长期被自回归模型压制.近日，NVIDIA 联合香港大学、MIT 等机构重磅推出 Fast-dLLM，以无需训练的即插即用加速方案，实现了推理速度的突破！

5/30/2025 3:52:05 PM

波士顿动力机器人进厂打工现逆天操作！3D感知+实时追踪，人类捣乱完全不带怕的

波士顿动力带机器人看世界，Altas重磅升级了！现在，它具备3D空间感知和实时物体追踪能力，可以自主执行更复杂的工业任务。请看Altas在汽车工厂打工VCR：小哥故意将汽车零部件丢在地上，只见它360°转动头部环顾四周，随后成功识别并将其放入正确位置：（就是偷感好重，笑死）故意移动装置位置，它也能精准感知到变化：然后依旧稳稳地将零部件放入槽内：头部和腰部都可360°旋转，干起活来那叫一个麻利：据介绍，Altas的一系列功能升级源于波士顿动力团队对Altas感知系统进行的全新设计，融合了2D与3D感知技术、物体位姿追踪，以及基于物理特性的精确校准方案。

5/30/2025 9:19:00 AM

RSS 2025｜从说明书学习复杂机器人操作任务：NUS邵林团队提出全新机器人装配技能学习框架Manual2Skill

本文共同第一作者为新加坡国立大学博士生铁宸睿和多伦多大学研究助理/本科生孙圣翔。合作者为朱锦轩、刘益伟、郭京翔、胡越、陈浩楠、陈俊廷、吴睿海。通讯作者为新加坡国立大学计算机学院助理教授邵林，研究方向为机器人和人工智能。

5/30/2025 8:55:00 AM

还得是华为！Pangu Ultra MoE架构：不用GPU，你也可以这样训练准万亿MoE大模型

Pangu Ultra MoE 是一个全流程在昇腾 NPU 上训练的准万亿 MoE 模型，此前发布了英文技术报告[1]。最近华为盘古团队发布了 Pangu Ultra MoE 模型架构与训练方法的中文技术报告，进一步披露了这个模型的细节。训练超大规模和极高稀疏性的 MoE 模型极具挑战，训练过程中的稳定性往往难以保障。

5/30/2025 8:45:00 AM

阿里通义发布并行计算新策略：1.6B等效4.4B，内存消耗骤降95%

既能提升模型能力，又不显著增加内存和时间成本，LLM第三种Scaling Law被提出了。对于1.6B模型，能实现性能接近4.4B模型，内存占用仅为后者的1/22，延迟增加量为1/6。并且可直接应用于现有模型（如Qwen-2.5），无需从头训练。

5/29/2025 9:14:00 AM

阿里开源长文本深度思考模型！渐进式强化学习破解长文本训练难题，登HuggingFace热榜

推理大模型开卷新方向，阿里开源长文本深度思考模型QwenLong-L1，登上HuggingFace今日热门论文第二。其32B参数版本超过OpenAI-o3-mini、Qwen3-235B-A22B等，取得与Claude-3.7-Sonnet-Thingking相当的性能。除测评分数外，论文中还详细展示了一个金融文档推理的案例。

5/28/2025 9:09:00 AM

「DeepSeek 技术解析」：LLM 训练中的强化学习算法

我们将深入探讨 DeepSeek 模型训练策略中的关键创新之一[1, 2]：群组相对策略优化（Grouped Relative Policy Optimization，GRPO）[3]。为确保本文自成体系并阐明 GRPO 的理论基础，我们将首先介绍强化学习的基础概念，重点解析强化学习（RL）及基于人类反馈的强化学习（RLHF）在 LLM 训练中的核心作用。接着我们将探讨不同的强化学习范式，包括基于价值的强化学习、基于策略的强化学习和 Actor-Critic 强化学习，回顾经典算法如置信域策略优化（TRPO）和近端策略优化（PPO），最后解析 GRPO 带来的优化创新。

5/28/2025 2:25:00 AM

Baihai IDP