何恺明兼职加入 DeepMind！要在基础研究组搞大事？

刚刚，MIT教授、CV大神，成为 Google DeepMind 的杰出科学家。不过，这次是以 part-time（兼职）身份加入。据网友爆料，他即将参与基础研究组的工作。

刚刚，MIT教授、CV大神，成为 Google DeepMind 的杰出科学家。不过，这次是以 part-time（兼职）身份加入。

据网友爆料，他即将参与基础研究组的工作。

图片

何凯恺是计算机视觉领域的超级明星，别人的荣誉都是在某某大厂工作，拿过什么大奖，而何恺明的荣誉是best，best，best ...... 例如2016 CVPR 最佳论文“Deep Residual Learning for Image Recognition”以及2017ICCV最佳论文“Mask R-CNN”。

图片

目前，何恺明的论文引用数超过71万，是MIT被引用次数最高的学者。

他也一直没闲着，去年，他与 DeepMind 的黎天鸿团队提出 Fractal Generative Models，把分形递归塞进神经网络，让逐像素生成 8K 图像不再卡死 GPU；今年又合写 Fluid，用连续 token 解决视觉自回归“越放大越糊”的老毛病。实验室里，他用 Representation Regularization 给生成模型“扎紧腰带”，在相同算力下多挤出 2%-3% 质量分。

何恺明：多次按响深度学习门铃

在2023年的世界人工智能大会上，商汤科技创始人汤晓鸥评价何恺明多次按响深度学习门铃：

“何恺明把神经网络做深了，谷歌把神经网络的入口拉大了，又深又大，才成为今天的大模型。”

他2009年的那篇CVPR最佳论文，是CVPR整个25年历史上亚洲的第一篇最佳论文。

他的第一项工作是在微软亚洲研究院发布的有关残差网络（ResNet）的论文。在2015年之前，深度学习最多只能训练20层，而CNN（卷积神经网络）模型ResNet在网络的每一层引入了一个直连通道，从而解决了深度网络的梯度传递问题，获得了2016年CVPR的最佳论文奖，是计算机视觉历史上被引用最多的论文。

“在ResNet之后就可以有效地训练超过百层的深度神经网络，把网络打得非常深。”汤晓鸥说，“在大模型时代，以Transformer为核心的大模型，包括GPT系列，也普遍采用了ResNet结构，以支撑上百层的Transformer的堆叠。

尤其是何恺明在Facebook期间发明的Mask R-CNN算法，首次把基于掩码的自编码思想用于视觉领域的非监督学习，开启了计算机视觉领域自监督学习的大门。

关于何恺明

他是广东高考满分状元，全国物理竞赛一等奖获得者，清华保送生。但真正让他从“天才少年”跃升为“AI 大神”的，是从清华转向基础科学后的一连串技术里程碑。

本科阶段，他放弃保送的机械专业，加入清华基础科学班。2007 年进入微软亚洲研究院实习，因对图形图像课程产生兴趣，加入视觉计算组——起初连发论文都难，直到 2009 年凭“暗通道去雾”首获 CVPR 最佳论文。

这只是序章。他后来主导的 ResNet、Mask R-CNN、RetinaNet、MoCo 等模型，先后斩获多个 CV 顶会大奖，把计算机视觉推进到了深度学习、实例分割、单阶段检测器、自监督学习的多个重要阶段。每一次发声，都代表了方向性转变。

从微软亚洲研究院，到 Facebook FAIR，再到 MIT，再到 Google DeepMind，何恺明每一次转换角色，都不是为名或为利，而是为了研究自由度和落地可能性之间的平衡。

复盘何恺明的研究路线，你会发现它极具“方向性判断”能力。不同于许多研究员跟随热点话题“追着发”，他更像在一个个节点精准切入，并留下长久影响。

2009 暗通道去雾：首开图像复原新思路
2015 ResNet：解决深层网络训练瓶颈，奠定现代模型结构
2017 Mask R-CNN + RetinaNet：目标检测从 Two-stage 到 One-stage
2019-2020 MoCo：拉开视觉领域自监督学习序幕
2023-2024 Fluid + Fractal：攻坚视觉生成模型结构表达

这些研究不仅篇篇高引（ResNet 单篇已超 28 万次），而且高度可迁移，从图片识别延展到视频理解、材料建模、蛋白质设计等多个交叉学科。

他的“科研直觉”已被反复验证：别人还在研究“把杯子放稳不碎”的方法时，他已经在想，“如果 AI 真理解了杯子本身的构造呢？”

MIT 的自由探索给了他理论跳跃的空间，希望DeepMind 的工程团队和算力基础，能让这些跳跃有机会落地成形。

何恺明兼职加入 DeepMind！要在基础研究组搞大事？

何恺明：多次按响深度学习门铃

关于何恺明

相关资讯

狂揽1.3亿美金！AlphaGo大神组队Gemini大牛，用RL打造超级智能，英伟达抢投

专抓AI“看图说谎”，谷歌哥大用三类陷阱触发幻觉，打造可随技术发展动态演进的评估框架

DeepMind首个猜想库开源，获陶哲轩力挺！