本科毕业加入google，还写了「头脑链」开山之作，这位OpenAI新秀正为本科生答疑解惑

本科毕业就加入google，还以一作身份写出了「头脑链」的开山之作，现在在 OpenAI 参与打造 ChatGPT，Jason Wei 从他的视角为年轻 AI 钻研者提供了一些建议。

如果你仔细钻研过「chain of thought（CoT）」这个概念，那么你大概听过 Jason Wei 这个名字。

他是头脑链概念开山之作 ——「Chain-of-Thought Prompting Elicits Reasoning in Large Language Models」的第一作者，本科毕业就加入了google。在那里，他推广了头脑链提示概念，共同领导了指令调优的早期事务，并和 Yi Tay、Jeff Dean 等人合著了关于大模型涌现才智的论文。

本科毕业加入google，还写了「头脑链」开山之作，这位OpenAI新秀正为本科生答疑解惑

Jason Wei 等作者对头脑链的定义是一系列的中间推理步骤，目的是为了提高大型谈话模型举行复杂推理的才智（通过将一个较为复杂的推理成绩分步拆解，一步步获得最终答案）。Jason Wei 等人的论文是第一篇发现当使用链式头脑举行提示时，存在一个相变现象，表明大型模型在很大程度上优于较小的模型，这进一步导致了涌现才智的发现（引自《复杂推理：大谈话模型的北极星才智》）。目前，头脑链提示已经在大模型范畴得到广泛易用。

2023 年初，他选择加入 OpenAI，与其他技术人员一起构建 ChatGPT。

凭借这些硬核的学术成果，Jason Wei 的被引量已经接近 8000。

本科毕业加入google，还写了「头脑链」开山之作，这位OpenAI新秀正为本科生答疑解惑

作为一位年轻的学术新星，Jason Wei 最近收到了许多成绩。这些成绩大部分来自本科生，代表了他们对早期学术生涯的一些困惑。在一个 google 文档中，Jason Wei 回答了其中一些。本文摘取了其中几个成绩，希望对抱有同样困惑的同学有所帮助。

本科毕业加入google，还写了「头脑链」开山之作，这位OpenAI新秀正为本科生答疑解惑

问：你在 AI 范畴的旅程是如何开始的？

答：虽然你是通过我 2022 年的事务认识我的，但我从 2017 年开始就一直在处置 AI 范畴的事务。

在达特茅斯学院读本科时，我最初想成为华尔街的银行家，这是我父母那一代的美国梦（也是我家乡大多数朋友的选择）。但是我在大一的时候（2017 年）很难找到金融实习时机，所以最后，我通过我妈妈的朋友结识了一家 AI 创业公司，然后和这家公司展开了合作。

那个夏天，我通过阅读 Michael Neilson 的《神经网络与深度进修》第一次接触了 AI。我了解了反向传播算法，从任何类型的输入和输出数据中进修任意映射的设法主意吸引了我。我至今还记得，我对这个范畴的热情比我在学校学过的其他任何学科都要高出一个数量级。

2010 年代末流行发论文，所以我也在大学期间试图这么做。我走了一条普通的路，参加了一门机器进修课程，并请求教这门课的教授指导我举行钻研。我在医学图像分析的深度进修范畴事务了两年。我的钻研成果还不错，但也并非惊艳。达特茅斯学院没有充满活力的 AI 环境，很难找到志同道合的社区。所以我真的很感激那里真正对 AI 感兴趣的少数几个人，其中 Sam Greydanus 是我仰慕的人。

毕业临近时，我同时申请了博士学位和软件工程师职位。我有一篇被一家要紧学术会议接受的优秀论文，以为我会被所有的博士学位项目录取。结果，几乎所有学校都拒绝了我，除了南加州大学（USC）。大三的暑假，我在 Blend 和 DoorDash 实习，但我不是一个出色的软件工程师，对软件也没有那么大的热情。

我差点就去南加州大学攻读博士学位，但后来我改变了主意，因为我获得了 Google AI Residency 项目的邀请，这是一个为没有 AI 博士学位的人提供google钻研时机的项目，为期 18 个月。这个 AI 项目大概是我职业生涯迄今为止最大的跳板。我大概是凭借我写的关于自然谈话处理中数据增强的一篇相对受欢迎的论文被录取的。那篇论文的影响对我来说是个惊喜 —— 我天真地将我在医学图像分析中使用的一种直觉应用到了自然谈话处理中，没想到它会变得如此受欢迎。

因此，在 2020 年毕业后，我在google事务了两年多，处置大型谈话模型钻研。google是一个举行钻研的绝佳场所，许多著名的钻研人员通过在google的事务树立了自己的声誉。这个 AI 项目特别有效，因为表现优秀的钻研人员有时机继续留在google事务，大多数人都会为了能够成为永久员工而努力。

我的故事至少包含两个教训，虽然都有些老生常谈，但我还是想说一下：

第一，许多我当时觉得是失败的事情实际上对我来说是好事。如果我当初在金融或软件工程实习方面更加成功，大概就错过了我现在喜欢的 AI 职业生涯。

第二，运气起到了很大的作用，但我也创造了许多时机来获得好运。例如，我在撰写一篇被广泛引用的自然谈话处理论文方面并没有绝对的优势，但通过写一篇关于它的博客，使用通俗易懂的谈话，并在线上提供代码，我为这篇论文赢得了受欢迎的时机。

问：我应该选择哪个钻研偏向？

答：显然，这个成绩没有一个标准答案。

我个人觉得，选择一个你喜欢的钻研偏向很要紧，因为从长远来看，你会在这方面做得更好。如果你不知道自己喜欢什么样的钻研，可以广泛阅读几周，或者询问他人他们对哪些偏向感兴趣，然后选择一个开始举行钻研。

有时候，你大概需要在你想要处置的钻研偏向和其他因素之间做出权衡。例如，你大概有时机与一位优秀的教授合作，但钻研偏向大概并非你首选的主题。我觉得，如果你能从中学到许多东西，或者它能帮助你实现自己的目标，这样做是可以接受的。但要紧的是要记住你做事情的起因，并且对自己的意愿保持透明。

有一个钻研偏向，我会一概推荐给人们考虑，那就是「对齐」（alignment）。我觉得「对齐」是一个很好的偏向，有几个起因支持这个看法：

将智能 AI 与人类价值观对齐显然非常要紧。

对齐是一个相对新兴的范畴，因此早期处置对齐钻研的人将有更大的时机产生影响。

对齐大概涉及多个学科，与伦理学等其他范畴有关，这大概会吸引一些人。

对齐钻研人员的供应少于需求，所以找到事务大概会更容易。

有一些人不处置对齐钻研大概是因为这不是传统的钻研偏向，缺乏很好的基准，不太容易入门。而且，对齐的目标并未得到所有人的一致认同。但我不觉得这些起因会成为障碍；我发现处置对齐钻研的人非常乐于和那些对对齐感兴趣的人交流。

问：你大部分需要举行有效钻研的知识是从哪里学来的？如果有有趣的设法主意，是花更多光阴进修，还是直接开始钻研？

答：在钻研中，有三种进修来源：

阅读资料：其他钻研论文、博客文章、推特等。

其他人告诉你：你的导师给你反应，审稿人审查你的论文。

你尝试做一些事情：你举行一项实验，它有大概成功，也有大概失败，你要深入挖掘起因。

在开始阶段，阅读资料是很有益的，因为举行第二和第三种进修会有更高的成本（涉及到他人的光阴和你自己举行实验所需的光阴）。然而，你很快就希望尽早开始第二和第三种进修。起因是，当你处于才智的边界时，进修发生得最快，而且由于（2）和（3）是为你个性化定制的，它们将更快地加速你的进修过程。

问：你觉得举行钻研最要紧的特质是什么？

答：我觉得钻研，就像其他大多数技术一样，可以通过实践来进修（参见：https://www.jasonwei.net/blog/practicing-ai-research）。我们当中很少有人能达到陶哲轩那种天赋水平。但我相信大多数人都有才智成为高水平的钻研人员。因此，对于这个成绩，我的简短回答大概是「毅力」，因为毅力能够促进实践。

在钻研中被严重低估的一个技术是从反应中进修。你会惊讶于人们对反应的忽视程度 —— 我发现大多数向我寻求建议的人并不听取意见。我尝试非常认真地对待别人给出的反应，如果他们是行业的佼佼者更是如此。反应就像是一个梯度，它告诉你成为更好的钻研人员应该往哪个偏向前进。当我有导师时，我每周都会向他们询问我可以做得更好的地方，然后努力去做。在钻研中，我们很幸运有着快速的反应循环文化；并不是每个范畴都是如此。

需要注意的是，我们也要懂得在何时忽略反应。你的导师或老板在提供反应时大概并不总是处于适宜的精神状态，而且他们对你的成绩大概没有像你那样深入思考。但你仍然应该仔细考虑他们说的话。

另一个被低估的技术是愿意做一些基础性的事务，特别是查看数据。2019 年，我训练了一种用于肺癌分类的神经网络，我对大部分数据举行了初步标注，然后请病理学家审查我的分类。这花费了我 40 多个小时，最后我能够像临床病理学家一样对某种类型的肺癌举行分类。虽然花费了许多光阴，但我从举行数据标注中获得的直觉在此后的三篇论文中都得到了应用，所以这是值得的。

钻研中最后一个被低估的技术是成为一个良好的沟通者。良好的沟通使你更值得信赖，值得合作。例如，我有三个小忌讳，其他人大概也有：

许多人喜欢说「我明天把这个活儿干完」，然后事实上要等到几周后才完成。我尽量避免说这样的话，除非确实很要紧，而且我确实能在明天之前完成（不只是开始做）。我希望在他人需要完成一项要紧任务时，他们能相信我的承诺。

在项目的初期会议中，人们常常表现出很大的兴趣参与，但后来却不愿意付出与他们表达的兴趣成比例的光阴。同样，我希望我的兴趣对他人有所提示，所以我尽量说一些类似于「我不能保证会参与这个项目，但是 <X> 的设法主意对我来说真的很有趣」的话。

人们经常会说「<X > 不起作用」，却没有提供足够的细节。我试图把陈述改成「在使用公式 F、模型 M 和数据集 D 时，<X > 没有起作用」，这样可以减少对方猜测我所说的具体内容的心力消耗。

问：有效的设法主意（至少在你处置的范畴）是否更倾向于在数学上有更深的内涵，还是更具广泛的创造力？如果数学深度很要紧，在本科阶段如何达到这种理解水平？是培养良好的数学直觉更要紧，还是值得花光阴深入钻研这些数学主题？

答：很难说学更多数学知识是不好的，但我有点个人设法主意：在深度进修的历史中，有两个简单的因素经得起光阴的考验，并且几乎总是有效的：更大的模型和更多的数据。这两者都不涉及深奥的数学基础，甚至不算特别具有创造性。

因此，我不建议在数学上过于深入，起因有几点：

目前在这个范畴存在着许多时机和未开发的设法主意，这意味着光阴的时机成本很高。因此，投入光阴在数学上的相对价值较低。

即使你想花更多光阴来培养长期技术，我觉得有些才智比擅长数学更有优势。以下是一些建议：

当今的人工智能范畴在很大程度上与精通工程和发展良好的软件工程技术有关。

当前的瓶颈之一是 GPU，了解硬件以及如何高效使用 GPU 大概比进修数学更具回报。

努力成为一名优秀的沟通者，会让你更容易与人共事，帮助你更清晰地思考，更有条理。

鉴于大多数设法主意并非源于数学动机（虽然也有一些），在寻找工程解决方案时，过度依赖数学知识大概会使你产生错误的偏见（就像精通谈话学并不能帮助你建立大型谈话模型一样）。

目前，这个问答帖还在更新，Jason Wei 也在陆续贡献自己的答案，大家可以有选择性地借鉴，或者提出自己的新成绩。

完整文档参见以下链接：https://docs.google.com/document/d/1QREmdzLwJ0CR3kdFeenJbBowT1IFFREd46y10tW6pog/edit

{{userData.name}}已认证

本科毕业加入google，还写了「头脑链」开山之作，这位OpenAI新秀正为本科生答疑解惑

OpenAI联创Karpathy爱上羊驼：纯C代码实现婴儿Llama2，MacBook可运转，已揽1.6k星

言语模型悄悄偷懒？新研究：上下文太长，模型会略过中间不看

AI 架构 Transformer 再进化：谷歌新方法突破长文本处理，注意力模块内存需求可降至 1/47

微软开源 bitnet.cpp 1-bit LLM 推理框架：不靠 GPU 可本地运行千亿参数 AI 模型，能耗最多降低 82.2%

英伟达 CEO 黄仁勋展望公司未来：坐拥 5 万名员工、部署 1 亿个 AI 助手

字节跳动清华AIR成立联合研究中心推动大模型产学研合作

中国电信自研 AI 节能系统：年均节电 8 亿度，节约电费 5.2 亿元

秒变Midjourney高手！精选 52 条高级感的 sref 风格代码

Meta 用 AI 生成北极光图片，遭网友怒喷

开发者成功让 AI 学会打游戏，但用 RTX 3090 神经网络运行《CS:GO》“世界模型”仅有 10 帧

{{userData.name}}已认证

OpenAI联创Karpathy爱上羊驼：纯C代码实现婴儿Llama2，MacBook可运转，已揽1.6k星

言语模型悄悄偷懒？新研究：​上下文太长，模型会略过中间不看

AI 架构 Transformer 再进化：谷歌新方法突破长文本处理，注意力模块内存需求可降至 1/47

微软开源 bitnet.cpp 1-bit LLM 推理框架：不靠 GPU 可本地运行千亿参数 AI 模型，能耗最多降低 82.2%

英伟达 CEO 黄仁勋展望公司未来：坐拥 5 万名员工、部署 1 亿个 AI 助手

字节跳动清华AIR成立联合研究中心 推动大模型产学研合作

中国电信自研 AI 节能系统：年均节电 8 亿度，节约电费 5.2 亿元

秒变Midjourney高手！精选 52 条高级感的 sref 风格代码

Meta 用 AI 生成北极光图片，遭网友怒喷

开发者成功让 AI 学会打游戏，但用 RTX 3090 神经网络运行《CS:GO》“世界模型”仅有 10 帧

言语模型悄悄偷懒？新研究：上下文太长，模型会略过中间不看

字节跳动清华AIR成立联合研究中心推动大模型产学研合作