训练

不是视频模型“学习”慢，而是LLM走捷径｜18万引大牛Sergey Levine

这是UC伯克利大学计算机副教授Sergey Levine最新提出的灵魂一问。他同时是Google Brain的研究员，参与了Google知名机器人大模型PALM-E、RT1和RT2等项目。 Sergey Levine在谷歌学术的被引用次数高达18万次。

6/11/2025 8:59:21 AM

OpenAI新模型，被曝秘密训练中！万字硬核长文直指o4核心秘密

OpenAI的o4，已经在训练了？就在最近，SemiAnalysis发表了一篇硬核长文博客，爆料了不少大模型圈的内幕消息。其中，一些最核心的亮点，先一睹为快：OpenAI正在训练一个规模介于GPT-4.1和GPT-4.5之间的新模型下一代推理模型o4将基于GPT-4.1展开RL训练强化学习改变了实验室结构，甚至是大厂未来研究的侧重方向和优先级定义奖励函数难上加难，往往AI钻空子之后，漏洞才能被发现不牺牲LLM任何性能，不用合并权重，RL另一条路——数据混合与预训练不同，RL可持续更新Scaling模型能力，DeepSeek-R1是典例高质量数据是Scaling强化学习的护城河训练小模型，蒸馏效果要比RL更好新一轮预训练已开始首先，让我们看看其中最硬的内容——关于OpenAI的全新模型。

6/11/2025 8:54:52 AM

比自回归更灵活、比离散扩散更通用，首个纯Discrete Flow Matching多模态巨兽降临

王劲，香港大学计算机系二年级博士生，导师为罗平老师。研究兴趣包括多模态大模型训练与评测、伪造检测等，有多项工作发表于 ICML、CVPR、ICCV、ECCV 等国际学术会议。近年来，大型语言模型（LLMs）在多模态任务中取得了显著进展，在人工通用智能（AGI）的两大核心支柱（即理解与生成）方面展现出强大潜力。

6/10/2025 9:18:53 AM

无需SFT也不用RL，样本级推理优化神器SLOT来了，准确率轻松+10%

试想一下，如果你参加考试时，可以在答题前花几秒钟「适应」一下这道具体的题目，你的表现会不会更好？这正是西湖大学研究团队在最新论文中提出的核心思想。他们开发的 SLOT（Sample-specific Language Model Optimization at Test-time）方法，把每个输入 prompt 本身当作一份「迷你训练数据」，让模型在生成答案前先「学习」理解这个具体问题。

6/10/2025 9:05:00 AM

3B超越DeepSeek，大模型终于理解时间了！Time-R1一统过去/未来/生成

时间，是我们日常生活中最基础的概念。但对于大语言模型（LLM）来说，它们或许能写诗作画、通晓古今，但在真正理解和运用时间概念时，却常常显得力不从心。这个技术短板来自于大模型的底层设计，无法避免：训练语料库是静态的，存在知识截断时间；在按非时间顺序的语料训练过程中，跨越不同时期的时间信息是同时处理的，不像人类逐步接收知识，阻碍了在事件与其对应时间之间建立可靠的逻辑映射。

6/9/2025 3:25:03 PM

大模型强化学习新突破——SPO新范式助力大模型推理能力提升！

当前，强化学习（RL）在提升大语言模型（LLM）推理能力方面展现出巨大潜力。 DeepSeek R1、Kimi K1.5 和 Qwen 3 等模型充分证明了 RL 在增强 LLM 复杂推理能力方面的有效性。然而，要实现有效的强化学习，需要解决一个根本性的挑战，即信用分配问题（credit assignment）：在大语言模型的场景下，如何将整个序列（LLM 的回复）最终的评估结果，归因到序列中具体的决策动作（token）上。

6/9/2025 9:32:35 AM

顶流AI，人设崩了！6小时被攻破，泄露高危品指南，惨遭网友举报

只要6小时，顶尖大模型Claude 4 Opus「安全防线」被攻破！ AI安全研究机构FAR.AI联合创始人Adam Gleave透露，仅用6小时，研究人员Ian McKenzie就成功诱导Claude 4生成了长达15页的化学武器制作指南。 Ian McKenzie回应称：Claude 4传授的内容，比他预期的还要多。

6/9/2025 8:53:00 AM

扩散语言模型扛把子LLaDA迎来新版本，数学、代码、对齐能力均提升

本文介绍的工作由中国人民大学高瓴人工智能学院李崇轩、文继荣教授团队与蚂蚁集团共同完成。朱峰琪、王榕甄、聂燊是中国人民大学高瓴人工智能学院的博士生，导师为李崇轩副教授。该研究基于团队前期发布的 8B 扩散语言模型 LLaDA（国内率先做到真正可用的扩散语言模型，是后续很多研究的主干基础模型），探索了扩散语言模型的偏好对齐方法，提出了方差缩减的偏好优化方法 VRPO，并利用 VRPO 对 LLaDA 进行了强化对齐，推出了 LLaDA 1.5。

6/9/2025 8:47:00 AM

阿里智能体多轮推理超越GPT-4o，开源模型也能做Deep Research

能够完成多步信息检索任务，涵盖多轮推理与连续动作执行的智能体来了。通义实验室推出WebWalker（ACL2025）续作自主信息检索智能体WebDancer。 WebDancer 通过系统化的训练范式——涵盖从数据构建到算法设计的全流程——为构建具备长期信息检索能力的智能体提供了明确路径。

6/6/2025 2:17:11 PM

清华给电子显微镜加上Agent，DeepSeek V3全程调度，数天流程缩短至几分钟

AI Agent又解锁了一个领域！清华大学牵头，与西北工业大学以及上海AI lab等机构推出了电镜领域的AI agent——AutoMat。它相当于一位精准的“地图翻译官”，把原子级 STEM 图像自动转成标准 CIF 结构，并一步到位给出形成能等关键物性。

6/6/2025 2:14:09 PM

Qwen&清华团队颠覆常识：大模型强化学习仅用20%关键token，比用全部token训练还好

近期arxiv最热门论文，Qwen&清华LeapLab团队最新成果：在强化学习训练大模型推理能力时，仅仅20%的高熵token就能撑起整个训练效果，甚至比用全部token训练还要好。团队用这个发现在Qwen3-32B上创造了新的SOTA记录：AIME’24上达到63.5分，AIME’25上达到56.7分，这是600B参数以下直接从base模型训练的最高分。最大响应长度从20k延长到29k，AIME’24的分数更是飙升到了68.1分。

6/6/2025 9:13:00 AM

RL后训练步入超节点时代！华为黑科技榨干算力，一张卡干俩活

在大模型竞赛白热化的当下，「强化学习后训练」已成为突破LLM性能天花板的核心路径。爆火出圈的OpenAI o1、DeepSeek-R1等模型，背后都是依靠RL后训练点石成金。相较于预训练阶段的「广撒网」式知识获取，RL 后训练通过驱动模型与外部环境进行动态交互，直接塑造了LLM在复杂任务中的推理效能。

6/6/2025 8:55:00 AM

重磅开源！首个全异步强化学习训练系统来了，SOTA推理大模型RL训练提速2.77倍

来自清华大学交叉信息院和蚂蚁技术研究院的联合团队，正式开源全异步强化学习训练系统 —— AReaL-boba² (AReaL v0.3)。作为 AReaL 里程碑版本 AReaL-boba 的重磅升级，AReaL-boba² (正式全名：A-ReaL-double-boba) 坚持 boba 系列 “全面开源、极速训练、深度可定制” 的开发理念，再次加量：除了更全的功能和更详细的文档说明，更以全异步 RL 为核心，发布 SOTA 代码模型，全面奔向 Agentic RL：🚀 效率再突破：全面实现异步 RL 训练，完全解耦模型生成与训练，效果不变的前提下训练速度对比上一版本最高提升 2.77 倍，GPU 资源利用率大幅优化。 📚 上手零门槛：新增详细教程 (Step-by-Step Tutorials) 和深度文档 (Comprehensive Documentation)，覆盖安装、核心概念、算法 / 模型定制化到问题排查，新手友好，老手高效。

6/5/2025 8:40:00 AM