用童话训练AI模型，微软找到了探索生成模型参数的新切入点

即便大言语模型的参数规模日渐增长，其模型中的参数到底是如何发挥作用的还是让人难以琢磨，直接对大模型进行分析又费钱费力。针对这种情况，微软的两位研讨员想到了一个绝佳的切入点，用生成简练但是又涵盖各种常见逻辑和语法的童话小说来作为模型的生成任务，这样做能在减少模型的进修负担的同时，保留模型对逻辑和语法的进修能力，进而用小模型来分析参数发挥的作用。这种法子可能会开创一条新的研讨道路。人们都知道，学英语不是一件容易的事。但假如「学生」是一台计算机，就可以这样高效地学英语：只需将互联网上堆积如山的文本，输入一个名为神经网络的

人们都知道，学英语不是一件容易的事。但假如「学生」是一台计算机，就可以这样高效地学英语：只需将互联网上堆积如山的文本，输入一个名为神经网络的巨大数学模型即可。

这就是像 OpenAI 的 ChatGPT 这样的生成式大模型背后的工作原理，在过去的一年里，它能够面向广泛的主题联贯地交谈（即便会存在「幻觉」），效果让所有人都感到惊讶。

但这种法子也有缺点：首先，将庞大的文本档案转化为言语模型所需的训练语料，成本高昂且耗时。另一方面，即使是训练大言语模型的人也很难理解它们的内部工作原理，这反过来又使得人们很难避免设计上的失败。

面对这些困难，一些研讨职员选择在较小的数据集上训练较小的模型，然后研讨模型行为。布朗大学言语模型研讨员 Ellie Pavlick 说：「这就像果蝇基因组测序与人类基因组测序的关系一样。」

现在，在近期发布的一篇论文中，微软的两名研讨职员介绍了一种训练微小言语模型的新法子：用童话小说训练模型。

用童话训练AI模型，微软找到了探索生成模型参数的新切入点

论文链接：https://arxiv.org/pdf/2305.07759.pdf

为 ChatGPT 接口提供动力的庞大言语模型 GPT-3.5 有近 2000 亿个参数，它是在由数千亿个单词组成的数据集上训练的（OpenAI 尚未发布 GPT-4 的相应数据）。训练这样的庞大模型通常必要至少 1000 个称为 GPU 的专用处理器，并行运行数周。只有少数公司能够筹集到如此的资源，更不用说训练和比较差别的模型了。

这两位研讨职员的研讨表明，比当今最先进的系统小数千倍的言语模型在接受这种基于童话小说的训练后，能迅速学会讲述联贯且符合语法的小说。他们的研讨成果指明了新的研讨方向，可能有助于训练更大的模型并理解它们的行为。

艾伦人工智能研讨所（Allen Institute for Artificial Intelligence）的言语模型研讨员 Chandra Bhagavatula 说：「我发现这篇论文信息量很大，这个概念本身就超级有趣」。

从童话小说说起

作为言语模型核心的神经网络是一种数学结构，其灵感来源于人脑。每个神经网络都包含许多按层排列的人工神经元，相邻层的神经元之间存在连接。神经网络的行为受这些连接点（称为参数）的控制。在言语模型中，根据初始提示词（prompt）和已经生成的单词，参数控制着模型下一步可能吐出的单词。

只有在训练中，当模型反复将自己的输出与训练数据集中的文本进行比较，并调整参数以提高相似度时，模型才会真正「活」起来。一个未经训练、参数随机的网络很容易通过几行代码组装起来，但它只会产生胡言乱语。经过训练后，它通常可以「似是而非」地继续处理陌生文本。较大的模型通常会进行进一步的微调，使其学会回答问题和遵循指令，但训练的主要内容是把持单词预测。

单词预测的成功必要言语模型把持多种差别的技能。例如，根据英语语法规则，「going」一词之后的下一个词很可能是「to」，而与文章主题无关。此外，完成「the capital of France is」（法国的首都是__）必要系统把持事实知识，而完成包含「not」一词的段落则必要系统把持基本的逻辑。

「原始言语非常复杂，」DeepMind 的机器进修研讨员 Timothy Nguyen 说。「为了让有趣的言语能力出现，人们采用了数据越多越好的法子。」

Ronen Eldan 是一位数学家，2022 年加入微软研讨院研讨生成言语模型。要想做到这一点，最直观的法子是使用小数据集，而这又意味着必须训练专攻特定任务的模型，这样它们就不会过于分散。起初，他想训练模型解决某一类数学问题，但一天下午，在与 5 岁的女儿相处时，他意识到童话小说非常适合。

他说：「在我给她读了一个小说后，我就想到了这个点子。」

用童话训练AI模型，微软找到了探索生成模型参数的新切入点 Ronen Eldan。

为了生成联贯的童话小说，言语模型必要进修世界性的事实，跟踪人物和事件，并遵守语法规则——这些都是庞大模型所面临的挑战的简单版本。但是，在海量数据集上训练的庞大模型在进修真正重要的规则的同时，也进修了无数无关紧要的细节。Eldan 希望，孩子小说的简洁性和有限的词汇量能让小型模型的进修变得更容易管理——使它们更容易训练，也更容易理解。

不过，在言语模型的世界里，「小」是相对的：比用于训练 GPT-3.5 的数据集小一千倍的数据集仍然必要包含数百万个小说。

Nguyen 说：「我不知道你想花多少钱，但我猜你不会雇专业人士来写（几百万个）短篇小说。」

要满足如此贪婪的读者，必要一位非常多产的作家，但 Eldan 心里有几个候选：有谁能比大言语模型更适合为小言语模型写作呢？

Toy Stories

Eldan 立即着手创建一个由大言语模型生成的分解童话小说库。但他很快发现，即使是最先进的模型，也不是「天生」就很有创造力。他意识到，如果你只是告诉 GPT-4 编写适合 4 岁孩子的小说，「大约五分之一的小说都会是关于去公园的孩子害怕滑梯的」。在互联网看来，这显然就是最典型的学龄前小说。

解决的办法是在 prompt 中加入一点随机性。首先，Eldan 使用 GPT-4 生成了一份包含 1500 个 4 岁孩子可能知道的名词、动词和形容词的列表，这个列表非常简短，他可以很容易地自行检查。然后，他编写了一个简单的计算机程序，反复提示 GPT-3.5 或 GPT-4 生成一个适合该年龄段的小说，其中包括从列表中随机抽取的三个单词，还包括一个的随机选择的细节类型，如大团圆结局或情节转折。令人欣慰的是，生成的小说并不会充满恐怖情节。

Eldan 现在有了一套按需提供训练数据的程序，但他不知道训练一个功能模型必要多少小说，也不知道这个模型必要多大。这时，他与微软和卡内基梅隆大学的机器进修研讨员李远志合作，利用小型模型可以快速训练的优势，尝试了差别的可能性。

用童话训练AI模型，微软找到了探索生成模型参数的新切入点

李远哲与 Eldan 合作，比较了在分解孩子小说上训练的差别模型。他们发现，小得出奇的模型也能学会讲联贯的小说。

第一步是决定如何评估他们的模型。就像在课堂上一样，在言语模型研讨中，评分也是一个充满争议的话题。没有一个完美的评分标准能囊括研讨职员想知道的一切，在某些任务中表现出色的模型在另一些任务中往往会大败而归。随着时间的推移，研讨职员根据答案明确的问题制定了各种标准基准，如果要评估特定技能，这是一种很好的法子。

但 Eldan 和李对一些更模糊的问题很感兴趣：如果尽可能简化言语，言语模型到底必要多大？Eldan 说：「为了直接尝试模型是否会说英语，我认为唯一能做的就是让模型以开放的方式生成英语内容。」

要衡量模型在此类定性问题上的表现，只有两种法子：依靠人类评分员，或者再次求助于 GPT-4。两位研讨职员选择了后者，实际上是让庞大模型既编写教科书，又进行批改。

Bhagavatula 说，他希望看到 GPT-4 的评价与人类审稿人的评价相比如何 —GPT-4 可能偏向于它帮助训练的模型，而言语模型的不透明性使得这种偏向难以量化。但他认为这些微小之处不会影响差别模型之间的比较，这些模型是在类似的分解小说集上训练出来的，而这正是 Eldan 和李的工作重点。

Eldan 和李采用了两步程序来评估训练后的每个小型模型。首先，他们向小型模型 prompt 一个与训练数据集差别的小说的前半部分，使其产生一个新的结尾，并用 50 个差别的尝试小说重复这一过程。其次，他们指示 GPT-4 根据创意、语法和与小说开头的一致性这三个类别对小模型的每个结尾进行评分。然后，他们对每个类别的分数进行平均，最后得出每个模型的三个最终等级。

有了这个程序，Eldan 和李终于可以比较差别的模型，找出哪些是「明星学生」了。

尝试结果

经过初步探索，两位研讨职员确定了一个包含约 200 万个小说的训练数据集。然后，他们使用这个被称为 TinyStories 的数据集来训练参数规模介于 100 万到 3000 万的、层数各不相同的模型。这个工作并不耗时：仅使用了四块 GPU，其中最大的模型的训练时间不超过一天。

模型太小也不行。例如，一个尝试小说的开头是一个长相凶恶的男人对一个女孩说他要带走她的猫。一个百万级参数的模型陷入了一个死循环，女孩反复告诉男人她想和他做朋友。但更大一点的模型（仍然比 GPT-3.5 小数千倍）却表现出人意料的好。2800 万参数的版本讲述了一个联贯的小说，尽管结局很悲惨：「凯蒂开始哭泣，但那个男人并不在意。他把猫带走了，凯蒂再也没见过她的猫。这就是结局」。

除了尝试他们自己的模型，Eldan 和李还向 OpenAI 的 GPT-2 提出了同样的挑战，这是一个在 2019 年发布的拥有 15 亿个参数的模型。它的表现要糟糕得多——在小说戛然而止之前，男子威胁要把女孩送到法庭、监狱、医院、太平间，最后送进火葬场。

研讨简介

Nguyen 说，如此微小的模型都能如此流畅地工作，真是让人惊讶，但 GPT-2 在这项任务中的表现也许并不令人惊讶：它是一个较大的模型，但还远未达到最先进的水平，而且它是在一个非常差别的数据集上进行训练的。他指出：「一个小孩子只接受幼儿任务训练，比如玩玩具，可能会比你我做得更好。但是我们没有专攻这个简单的东西。」

差别 TinyStories 模型之间的比较并不存在相同的干扰因素。Eldan 和李观察到的提示是，层数较少但每层神经元较多的网络更善于回答必要事实知识的问题；相反，层数较多且每层神经元较少的网络更善于追踪小说早期的人物和情节点。巴加瓦图拉发现这一结果特别有趣。他说，如果能在更大的模型中复制这一结果，「那将是这项工作产生的一个非常酷的结果。」

Eldan 和李还研讨了他们的小模型的能力与训练期的长短的关系。多次实验表明，模型都是先把持语法，后把持一致性。Eldan 认为，这种模式说明了奖励结构的差异决定神经网络和孩子之间言语习得模式的差异。对于通过预测单词来进修的言语模型来说，「对『我想要』这个单词的奖励和对『冰淇淋』这个单词的奖励一样大，」他说。另一方面，孩子「并不在乎他们说的是『我想吃冰淇淋』还是『冰淇淋、冰淇淋、冰淇淋』」

定性分析与定量分析

Eldan 和李希望这项研讨能激励其他研讨职员在 TinyStories 数据集上训练差别的模型，并比较它们的能力。但通常很难预测小型模型的哪些特征也会出现在庞大模型中。

「也许小鼠视力模型确实是人类视力的很好替代品，但小鼠抑郁模型是人类抑郁的可借鉴模型吗？」Pavlick 说。「每种情况都有些差别。」

TinyStories 模型的成功还提供了一个更广泛的启示。编译训练数据集的标准法子不只包括从互联网上收集文本，然后过滤掉垃圾信息。由庞大模型生成的分解文本可以提供另一种法子来建立高质量的数据集，同时不必如此庞大。

Eldan 说：「我们有越来越多的证据表明，这不仅在 TinyStories 这样大小的模型中非常有效，在更大的模型中也是如此。」

这些证据来自 Eldan、李和其他微软研讨职员关于十亿参数模型的两篇后续论文。在第一篇论文中，他们利用 GPT-3.5 生成的代码片段和从互联网上精心挑选的代码，训练了一个进修 Python 编程言语的模型。在第二篇论文中，他们用涵盖广泛主题的分解「教科书」扩充了训练数据集，以训练通用言语模型。在尝试中，这两个模型都优于在较大数据集上训练的较大模型。但是，言语模型的评估总是很棘手，分解训练数据的法子仍处于起步阶段，必要进行更多的独立尝试。

虽然最先进的言语模型越来越大，但在它们的小型同类上的惊人发现却提醒我们，即使是最简单的模型，我们也还有很多不了解的地方。Nguyen 希望看到更多论文探讨 TinyStories 首创的法子。

「当前的问题是：参数规模该多大、为什么参数规模如此重要？这应该是一门科学，而这篇论文有望成为一系列研讨的开端。」

原文链接：https://www.quantamagazine.org/tiny-language-models-thrive-with-gpt-4-as-a-teacher-20231005/

{{userData.name}}已认证

用童话训练AI模型，微软找到了探索生成模型参数的新切入点

像搭乐高一样做数学定理证实题，GPT-3.5证实成功率达新SOTA

哈工大开发深度进修框架，用于从单细胞RNA测序辨别细胞相互作用

微软开源 bitnet.cpp 1-bit LLM 推理框架：不靠 GPU 可本地运行千亿参数 AI 模型，能耗最多降低 82.2%

Meta 用 AI 生成北极光图片，遭网友怒喷

秒变Midjourney高手！精选 52 条高级感的 sref 风格代码

中国电信自研 AI 节能系统：年均节电 8 亿度，节约电费 5.2 亿元

英伟达 CEO 黄仁勋展望公司未来：坐拥 5 万名员工、部署 1 亿个 AI 助手

特斯拉人形机器人 Optimus 现场做饮料，员工证实有人在远程控制

成功率提升15%，浙大、碳硅智慧用LLM进行多属性分子优化，登Nature子刊

中国移动推出“灵犀”家庭智能体，支持智能搜索、对话交互等功能