AI在线 AI在线

何恺明兼职加入 DeepMind!要在基础研究组搞大事?

刚刚,MIT教授、CV大神,成为 Google DeepMind 的杰出科学家。 不过,这次是以 part-time(兼职) 身份加入。 据网友爆料,他即将参与基础研究组的工作。

刚刚,MIT教授、CV大神,成为 Google DeepMind 的杰出科学家。不过,这次是以 part-time(兼职) 身份加入。

据网友爆料,他即将参与基础研究组的工作。

图片图片

何凯恺是计算机视觉领域的超级明星,别人的荣誉都是在某某大厂工作,拿过什么大奖,而何恺明的荣誉是best,best,best ...... 例如2016 CVPR 最佳论文“Deep Residual Learning for Image Recognition”以及2017ICCV最佳论文“Mask R-CNN”。

图片图片

目前,何恺明的论文引用数超过71万,是MIT被引用次数最高的学者。

他也一直没闲着,去年,他与 DeepMind 的黎天鸿团队提出 Fractal Generative Models,把分形递归塞进神经网络,让逐像素生成 8K 图像不再卡死 GPU;今年又合写 Fluid,用连续 token 解决视觉自回归“越放大越糊”的老毛病。实验室里,他用 Representation Regularization 给生成模型“扎紧腰带”,在相同算力下多挤出 2%-3% 质量分。

何恺明:多次按响深度学习门铃

在2023年的世界人工智能大会上,商汤科技创始人汤晓鸥评价何恺明多次按响深度学习门铃:

“何恺明把神经网络做深了,谷歌把神经网络的入口拉大了,又深又大,才成为今天的大模型。”

他2009年的那篇CVPR最佳论文,是CVPR整个25年历史上亚洲的第一篇最佳论文。

他的第一项工作是在微软亚洲研究院发布的有关残差网络(ResNet)的论文。在2015年之前,深度学习最多只能训练20层,而CNN(卷积神经网络)模型ResNet在网络的每一层引入了一个直连通道,从而解决了深度网络的梯度传递问题,获得了2016年CVPR的最佳论文奖,是计算机视觉历史上被引用最多的论文。

“在ResNet之后就可以有效地训练超过百层的深度神经网络,把网络打得非常深。”汤晓鸥说,“在大模型时代,以Transformer为核心的大模型,包括GPT系列,也普遍采用了ResNet结构,以支撑上百层的Transformer的堆叠。

尤其是何恺明在Facebook期间发明的Mask R-CNN算法,首次把基于掩码的自编码思想用于视觉领域的非监督学习,开启了计算机视觉领域自监督学习的大门。

关于何恺明

他是广东高考满分状元,全国物理竞赛一等奖获得者,清华保送生。但真正让他从“天才少年”跃升为“AI 大神”的,是从清华转向基础科学后的一连串技术里程碑。

本科阶段,他放弃保送的机械专业,加入清华基础科学班。2007 年进入微软亚洲研究院实习,因对图形图像课程产生兴趣,加入视觉计算组——起初连发论文都难,直到 2009 年凭“暗通道去雾”首获 CVPR 最佳论文。

这只是序章。他后来主导的 ResNet、Mask R-CNN、RetinaNet、MoCo 等模型,先后斩获多个 CV 顶会大奖,把计算机视觉推进到了深度学习、实例分割、单阶段检测器、自监督学习的多个重要阶段。每一次发声,都代表了方向性转变。

从微软亚洲研究院,到 Facebook FAIR,再到 MIT,再到 Google DeepMind,何恺明每一次转换角色,都不是为名或为利,而是为了研究自由度和落地可能性之间的平衡。

复盘何恺明的研究路线,你会发现它极具“方向性判断”能力。不同于许多研究员跟随热点话题“追着发”,他更像在一个个节点精准切入,并留下长久影响。

  • 2009 暗通道去雾:首开图像复原新思路
  • 2015 ResNet:解决深层网络训练瓶颈,奠定现代模型结构
  • 2017 Mask R-CNN + RetinaNet:目标检测从 Two-stage 到 One-stage
  • 2019-2020 MoCo:拉开视觉领域自监督学习序幕
  • 2023-2024 Fluid + Fractal:攻坚视觉生成模型结构表达

这些研究不仅篇篇高引(ResNet 单篇已超 28 万次),而且高度可迁移,从图片识别延展到视频理解、材料建模、蛋白质设计等多个交叉学科。

他的“科研直觉”已被反复验证:别人还在研究“把杯子放稳不碎”的方法时,他已经在想,“如果 AI 真理解了杯子本身的构造呢?”

MIT 的自由探索给了他理论跳跃的空间,希望DeepMind 的工程团队和算力基础,能让这些跳跃有机会落地成形。

相关资讯

狂揽1.3亿美金!AlphaGo大神组队Gemini大牛,用RL打造超级智能,英伟达抢投

正如Ilya所说,AI的下一步,就是「超级智能」。 近日,由DeepMind近12年老将、做出AlphaGo/AlphaZero/MuZero等项目的超级天才Ioannis Antonoglou,和Gemini强化学习的核心负责人Misha Laskin,联合成立的初创Reflection AI终于浮出了水面。 Reflection AI的目标十分明确——构建超级智能自主系统!
3/10/2025 8:38:00 AM
新智元

专抓AI“看图说谎”,谷歌哥大用三类陷阱触发幻觉,打造可随技术发展动态演进的评估框架

幻觉(Hallucination),即生成事实错误或不一致的信息,已成为视觉-语言模型 (VLMs)可靠性面临的核心挑战。 随着VLMs在自动驾驶、医疗诊断等关键领域的广泛应用,幻觉问题因其潜在的重大后果而备受关注。 然而,当前针对幻觉问题的研究面临多重制约:图像数据集的有限性、缺乏针对多样化幻觉触发因素的综合评估体系,以及在复杂视觉问答任务中进行开放式评估的固有困难。
3/31/2025 7:40:00 AM
量子位

DeepMind首个猜想库开源,获陶哲轩力挺!

形式化猜想,再次获陶哲轩认可! 最近,谷歌DeepMind正式开源了「形式化猜想」GitHub项目,在业内引发巨大的反响。 项目地址:,一直以来对此关注度最高的菲尔兹奖得主陶哲轩,发长文进行了点评。
6/12/2025 2:20:35 PM
  • 1