Meta万引强化学习大佬跑路！用小扎原话作为离别寄语，扎心了

作者： 2025-08-27 09:05

小扎在这头疯狂挖人，结果家里的老员工纷纷跑路了？？最新消息，Meta万引强化学习大佬Rishabh Agarwal即将离职，还留下了一篇让人浮想联翩的小作文：这是我在Meta的最后一周。

小扎在这头疯狂挖人，结果家里的老员工纷纷跑路了？？

最新消息，Meta万引强化学习大佬Rishabh Agarwal即将离职，还留下了一篇让人浮想联翩的小作文：

这是我在Meta的最后一周。
决定不加入新的超级智能实验室并不容易，毕竟那里人才济济、算力爆棚。但在Google Brain、DeepMind和Meta度过了7年半之后，我更想冒险去尝试一条完全不同的路。
Meta组建超级智能团队的想法非常引人注目，但我最终选择听从扎克伯格的建议：“在这个瞬息万变的世界里，最大的风险就是不去冒险。”

虽然表面上看起来双方是“和平分手”，但网友们还是从中嗅出了一丝不同寻常的味道：

把小扎的原话甩回他自己脸上，这操作绝了，瑞思拜！

十亿可以为你买一栋房子，但买不到你的梦想。

不过猜测也好，吐槽也罢。对于Rishabh Agarwal的离职，谷歌、Meta的同事们都清一色地送上了祝福，而且还顺带回顾了他在工作期间作出的贡献。

据了解，他参与了谷歌Gemini 1.5、Gemma 2以及Meta推理模型后训练方面的重要工作，2021年还以一篇RL算法评估论文拿下了NeurIPS杰出论文奖。

所以，Rishabh Agarwals是谁？他的离职又为何在这个节骨眼掀起波澜？

曾被Hinton劝退“不要做强化学习”，下一站未定

Rishabh Agarwals，一直以来从事强化学习和推理研究，谷歌学术论文被上万次引用，h-index也有34。

本科毕业于印度理工学院孟买分校计算机科学与工程专业，成绩属于系前几名那种。

2018年，他以AI Resident的身份加入Google Brain多伦多团队，在Geoffrey Hinton团队里工作了一年。

颇具戏剧性的是，Hinton还曾建议他“不要做强化学习（RL）”，不过话锋一转，老爷子也留有余地——应该做自己认为最好的事情（毕竟他本人当年做的事也不被所有人看好）。

于是，Rishabh Agarwals义无反顾地投身强化学习，并决定继续攻读博士学位。

第二年，他就前往蒙特利尔的Mila研究所申请PhD，由于和面试官之一Aaron Courville（和Bengio等人合著了《深度学习》这本经典教材）在强化学习领域的研究方向“完全相同”，当场就被邀请并加入其团队。

接下来的四年时间，他在Aaron Courvilleh和Marc Bellemare两位顶尖导师的指导下继续深耕强化学习，同时还保留着在Google Brain的全职工作。

直到2023年，Marc Bellemare发了一条提前庆祝他通过博士毕业答辩的推文，连谷歌首席科学家Jeff Dean这样的大佬也赶来祝贺。

在这之后，他顺理成章地加入蒙特利尔谷歌DeepMind团队，担任研究科学家，同时在麦吉尔大学做兼职教授。

而在谷歌工作期间，他参与了Gemini 1.5（当时号称最强多模态、上下文突破100万）、Gemma 2 （新一代轻量级开源模型）、Gemma 3等重要模型的发布工作。

2021年，他还发表了论文《Deep Reinforcement Learning at the Edge of the Statistical Precipice》，一举斩获NeurIPS杰出论文奖。

简单来说，这篇论文分析了深度强化学习中的统计不稳定性问题，指出在有限实验下评估算法可能产生误导性结果。由于系统性揭示了RL中的方差问题与过拟合风险，被认为是评价RL算法的里程碑工作。

后来他才从谷歌跑去了Meta，并着手推进Meta推理模型的后训练工作，具体包括：

用RL规模化训练，把8B稠密模型推到接近DeepSeek-R1的水平；
在训练中途引入合成数据，为RL提供热启动；
提出更高效的on-policy蒸馏方法。

如今随着Rishabh Agarwals的离开，网友们也纷纷替Meta惋惜又损失了一员大将。

目前Rishabh Agarwals的下一站并未明确，不过按照他“想要尝试完全不同的一条路”的说法，人们推测大概率会是创业。

Meta老员工开始出逃了？

其实不止Rishabh Agarwals，几乎同一时间，一位在Meta工作了12年的老员工也宣布离职了。

而且下一站还是Anthropic的推理团队（属于直接拥抱曾经的竞争对手了）。

有一说一，Meta这波渐起的老员工出逃趋势并不出人意料。

此前就有消息称，Meta新老员工之间因薪酬待遇悬殊而产生摩擦，其中一些研究人员甚至威胁要辞职。

合理推测，招聘热潮带来的内部矛盾，可能是导致这些资深员工选择离开的重要原因之一。

嗯，小扎这波也属于一边蓄水，一边开闸了（doge）。

相关标签：

模型 Meta 强化学习

相关资讯

天塌！OpenAI两位o系列大佬Jason Wei和Hyung Won Chung被曝离职，疑似发推回应：要超越老师，须强化自己

天塌！OpenAI两位o系列大佬Jason Wei和Hyung Won Chung被曝离职，疑似发推回应：要超越老师，须强化自己

编辑 | 云昭出品 | 51CTO技术栈（微信号：blog51cto）Meta 化身“人才收割机”的节奏简直停不下来。此前从 OpenAI、谷歌花天价薪酬挖走了多达 8 位顶尖人才。现在，那个让我们非常熟悉的、经常在直播宣发中出现的大佬，o 系列模型的两位核心研究人员 Jason Wei 和 Hyung Won Chung，也被 Meta 一道挖走了。

7/16/2025 3:28:52 PM 云昭

Meta用40万个GPU小时做了一个实验，只为弄清强化学习Scaling Law

Meta用40万个GPU小时做了一个实验，只为弄清强化学习Scaling Law

在 LLM 领域，扩大强化学习算力规模正在成为一个关键的研究范式。但要想弄清楚 RL 的 Scaling Law 具体是什么样子，还有几个关键问题悬而未决：如何 scale？ scale 什么是有价值的？

10/20/2025 9:05:00 AM

Meta Ray-Ban 智能眼镜隐私政策调整：AI 随时“看”，语音云端存

Meta Ray-Ban 智能眼镜隐私政策调整：AI 随时“看”，语音云端存

Meta更新Ray-Ban智能眼镜隐私政策，AI摄像头功能默认开启，语音录音强制云端存储一年。用户需手动关闭“Hey Meta”功能以禁用AI分析，物理按键仍可作普通相机使用。#智能眼镜隐私# #MetaAI升级#

4/30/2025 11:24:30 PM 远洋