田渊栋
田渊栋2025年终总结:救火Llama4但被裁,现任神秘初创公司联创
去年 10 月,Meta 人工智能部门的裁员波及到了一大波人,其中包括了知名华人科学家田渊栋及其团队成员。 就在这两天,田渊栋分享了自己的 2025 年终总结。 他首先透露了自己「救火」Llama 4 项目的经历以及之后被裁、未来的工作规划;接着回顾了 2025 年的主要研究方向,包括大模型推理和打开模型的黑箱;最后探讨了 AI 驱动下的社会变革、生产力重构以及个人价值的存续逻辑。
Meta裁员后续:田渊栋被过河拆桥,姚顺雨等集体「抢人」
Meta 裁员余波渐起。 昨天的消息,Meta 已在其人工智能部门裁减约 600 个职位,调整波及 FAIR、AI 产品以及基础设施团队。 最令人震惊的是田渊栋团队都被 Alexandr Wang 大手一挥给裁撤了,详见报道:Meta AI 大裁员,裁到了田渊栋?
Meta AI大裁员,裁到了田渊栋?
Meta 内斗的瓜真是吃不完呐。 上回说到,因不满 Meta 对 FAIR 部门论文发表的限制等一系列问题,Lecun 表示正考虑辞职。 (参见Meta 内部混乱持续:FAIR 自由不再,LeCun 考虑辞职)Meta 这边新的风暴已经出现,据 Axios 与《纽约时报》报道,Meta 已在其人工智能部门裁减约 600 个职位,这次调整波及 FAIR、AI 产品以及基础设施团队。
田渊栋与Russell团队联手,证明Transformer能在训练中自然学会叠加推理
对于大型语言模型而言,生成更长、更复杂的推理链,往往意味着巨大的计算成本。 为了解决这一难题,田渊栋团队在 2024 年提出的「连续思维链」 (Coconut) 提供了一种全新的范式,它将推理轨迹保留在连续的隐空间中,而非离散的文字符号。 现在,他们与 Stuart Russell 团队的最新合作研究则从理论上回答了一个核心问题:这种高效的推理范式是如何在训练中自发产生的?
Meta FAIR田渊栋唯一作者发文:拆解模型「顿悟时刻」
早在 2021 年,研究人员就已经发现了深度神经网络常常表现出一种令人困惑的现象,模型在早期训练阶段对训练数据的记忆能力较弱,但随着持续训练,在某一个时间点,会突然从记忆转向强泛化。 类似于「顿悟时刻」,模型在某一刻突然理解了数据的内在规律。 这种现象被称为「grokking(延迟泛化)」。
田渊栋团队论文火了!连续思维链优于CoT,打开LLM推理新范式
一个非常简单的更改,就能提高 LLM 推理能力。 在认知科学领域,关于语言是用于思考还是用于交流的辩论一直持续。 随着 LLM 和 CoT 的兴起,语言已经成为机器推理的默认媒介 —— 但它真的是最佳方法吗?
在 AI 最火热的时候,AI 大牛田渊栋写了本小说《破晓之钟》
“在 AI 最火热的时候,我写了本小说。”这话不是别人说的,这话是 AI 大牛田渊栋说的。这个名字可能不彰显于大众媒体,但在计算机和 AI 领域,几乎是判别式一样的存在。至少在华人科学家面孔中,盘点谷歌无人车时绕不过他,盘点围棋 AI 时绕不过他,梳理巨头 Meta 的 AI 人才时也遗漏不了他。田渊栋现在是 Meta AI Research(FAIR)研究科学家总监,正在带队研究,如何让 AI 在推理和规划问题上,产生现有的大模型产生不了的能力。他是上海交大校友,在计算机系获得了本科和硕士学位,其后又进一步到了
田渊栋等人新作:突破内存瓶颈,让一块4090预训练7B大模型
只用 24G 显存,消费级 GPU 就能搞定大模型了。上个月,Meta FAIR 田渊栋参与的一项研究广受好评,他们在论文《 MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases》中开始卷 10 亿以下参数小模型,主打在移动设备上运行 LLM。3 月 6 日,田渊栋又一项研究出炉,这次,他们主攻 LLM 内存效率。除了田渊栋本人,还有来自加州理工学院、德克萨斯大学奥斯汀分校以及 CMU 的研究者。他们合
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI新词
AI绘画
大模型
机器人
数据
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
英伟达
Gemini
智能体
技术
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
AI for Science
代码
腾讯
苹果
算法
Agent
Claude
芯片
具身智能
Stable Diffusion
xAI
蛋白质
人形机器人
开发者
生成式
神经网络
机器学习
AI视频
3D
字节跳动
大语言模型
RAG
Sora
百度
研究
GPU
生成
华为
工具
AGI
计算
生成式AI
AI设计
大型语言模型
搜索
亚马逊
AI模型
视频生成
特斯拉
DeepMind
场景
Copilot
深度学习
Transformer
架构
MCP
编程
视觉