小模型如何比肩大模型，北理工发布明德大模型MindLLM，小模型潜力巨大

北京理工大学发布双语轻量级言语模型，明德大模型—MindLLM。大型言语模型 (LLMs) 在各种自然言语任务中展现出了卓越的本能，但是由于训练和推理大参数量模型需要大量的计算资源，导致高昂的成本，将大言语模型应用在专业规模中仍存在诸多现实问题。因此，北理团队先从轻量级别模型入手，最大程度发挥数据和模型的优势，立足更好地服务一定规模，减少下游任务的训练与推理成本。10 月 24 日，北京理工大学自然言语处理团队发布系列双语轻量级大言语模型明德 (Ming De LLM)——MindLLM，全面介绍了大型模型开发过

北京理工大学发布双语轻量级言语模型，明德大模型—MindLLM。

大型言语模型 (LLMs) 在各种自然言语任务中展现出了卓越的本能，但是由于训练和推理大参数量模型需要大量的计算资源，导致高昂的成本，将大言语模型应用在专业规模中仍存在诸多现实问题。因此，北理团队先从轻量级别模型入手，最大程度发挥数据和模型的优势，立足更好地服务一定规模，减少下游任务的训练与推理成本。

10 月 24 日，北京理工大学自然言语处理团队发布系列双语轻量级大言语模型明德 (Ming De LLM)——MindLLM，全面介绍了大型模型开发过程中积累的经验，涵盖了数据构建、模型架构、评价和应用过程的每个详细步骤。MindLLM 从头开始训练，具有 1.3B 和 3B 两个版本，在某些公共基准测试中始终匹配或超越其他开源大型模型的本能。MindLLM 还引入了专为小型模型量身定制的创新指令调整框架，来有效增强其本领。此外，在法律和金融等一定垂直规模的应用，MindLLM 也具有出色的规模适应本领。

小模型如何比肩大模型，北理工发布明德大模型MindLLM，小模型潜力巨大

论文地址：https://arxiv.org/abs/2310.15777

MindLLM 亮点

我们分享了数据处理方面的经验，包括维护高质量和高比例的网络文本、保留书籍和对话等长期数据、对数学数据举行下采样，同时对代码数据举行上采样。我们建议均匀地打乱数据以举行本领进修，并将一些样本分块以用于小样本进修场景。

我们的评价结果优于部分大型模型，在未应用指令微调和对齐时，MindLLM模型在 MMLU 和 AGIEval 评测上的本能优于 MPT-7B 和 GPT-J-6B 等大型模型。在华文方面，MindLLM 在 C-Eval 和 CMMLU 上表示出与更大参数模型相当的本能。具体来说，MindLLM-3B 在数学本领上优于 MOSS-Base-16B、MPT-7B 等较大模型，在双语本领上超过 Baichuan2-7B 和 MOSS-Base-16B。而且，MindLLM-1.3B 在数学上比同等大小的 GPT-Neo-1.3B 更好。

我们比较了双语进修中两种分别的训练策略，并研究在预训练期间是否保持数据均匀分布的影响。我们得出的结论，对于容量规模有限的轻量级模型（≤7B）来说，通过预训练然后迁移训练的策略来实现数学、推理或双语对齐等复杂本领并不是最优的，因为整合新知识和现有知识是困难的。相比之下，更有效的策略是从头开始，结合下游任务的需求，对多种数据类型举行整合，从而确保所需本领能够稳定且有效地获取。

我们发现在指令调优过程中利用针对一定本领的定制数据，可以显着增强轻量级模型的一定本领，例如综合推理本领或学科知识本领。

我们介绍了应用基于熵的质量过滤策略构建指令集的方法，并证明了其在过滤轻量级模型的高质量指令调整数据方面的有效性。我们证明，在轻量级模型的背景下，通过改善指令调优数据质量可以更有效地实现模型本能的优化，而不是仅仅增加数据量。

我们的模型在一定规模展现出了出色表示，特别是在法律和金融等规模。我们发现模型参数大小的差异不会在一定规模内产生显着差异，并且较小的模型可以优于较大的模型。我们的模型在一定规模优于参数大小从 1.3B 到 3B 的所有模型，同时与参数大小从 6B 到 13B 的模型保持竞争力，而且模型在一定规模内的分类本领在 COT 方法下显著增强。

数据相关

数据处理

我们应用英文和华文两种言语的训练数据。英文数据源自Pile数据集，经过进一步处理。华文数据包括来自Wudao、CBooks等开源训练数据，以及我们从互联网上爬取的数据。为确保数据质量，我们采用了严格的数据处理方法，特别是对于从网络爬取的数据。

我们采用的数据处理方法包括以下几个方面：

格式清洗：我们应用网页解析器从源网页中提取和清理文本内容。这一阶段包括去除无用的HTML、CSS，JS标识和表情符号，以确保文本的流畅性。此外，我们处理了格式不一致的问题。我们还保留了繁体华文字符，以便我们的模型能够进修古代文学或诗歌。

低质量数据过滤：我们根据网页中的文本与内容的比例来评价数据质量。具体来说，我们会排除文本密度低于75%或包含少于100个华文字符的网页。这一阈值是通过对抽样网页举行初步测试确定的。

数据去重：鉴于WuDao的数据也源自网页，某些网站可能会重复发布相同的信息。因此，我们采用了局部敏感哈希算法，用以去除重复内容，同时保留了我们训练数据的多样性。

敏感信息过滤：鉴于网页通常包含敏感内容，为构建一个积极正向的言语模型，我们采用了启发式方法和敏感词汇词库来检测和过滤这些内容。为了保护隐私，我们应用正则表达式来识别私人信息，如身份证号码、电话号码和电子邮件地址，并用特殊标记举行替换。

低信息数据过滤：低信息数据，如广告，通常表示为重复内容。因此，我们通过分析网页文本内容中的短语频率来鉴别这类内容。我们认为来自同一网站的频繁重复短语可能对模型进修不利。因此，我们的过滤器主要关注广告或未经认证的网站中的连续重复短语。

最终我们获得了数据以下表：

小模型如何比肩大模型，北理工发布明德大模型MindLLM，小模型潜力巨大

Scaling Law

为了确保在深度进修和大型言语模型的训练成本不断增加的情况下获得最佳本能，我们举行了数据量和模型容量之间的关系研究，即Scaling Law。在着手训练具有数十亿参数的大型言语模型之前，我们首先训练较小的模型，以建立训练更大模型的扩展规律。我们的模型大小范围从1千万到5亿参数不等，每个模型都在包含高达100亿tokens的数据集上举行了训练。这些训练采用了一致的超参数设置，以及前文提到的相同数据集。通过分析各种模型的最终损失，我们能够建立从训练FLOP（浮点运算数）到Loss之间的映射。以下图所示，分别大小的模型饱和的训练数据量分别，随着模型大小的增加，所需的训练数据也增加。为了满足目标模型的精确数据需求，我们应用了幂律公式来拟合模型的扩展规律，并预测出3B参数模型的训练数据量与Loss数值，并与实际结果举行对照（图中星标）。

小模型如何比肩大模型，北理工发布明德大模型MindLLM，小模型潜力巨大

数据混杂与数据课程

数据对模型的影响主要涵盖两个方面：（1）混合比例，涉及如何将来自分别来源的数据组合在一起，以在有限的训练预算下构建一个一定大小的数据集；（2）数据课程，涉及来自分别来源的数据的排列方式，以训练模型一定的技能。

我们将每个数据来源等比例缩小，用于训练15M参数量的模型。以下图所示，分别类型的数据对进修效率和模型最终结果有分别的影响。例如，数学题数据的最终损失较低，进修速度较快，表明它具有更为明显的模式且容易进修。相比之下，来自信息丰富的书籍或多样化的网络文本的数据需要更长的适应时间。一些规模相似的数据可能在损失上更为接近，例如技术相关数据和百科全书。

小模型如何比肩大模型，北理工发布明德大模型MindLLM，小模型潜力巨大

为了进一步探究模型从单一数据泛化到其他数据的本能，我们应用这些在单一数据上训练好的模型在其他数据上举行测试，结果以下图所示：

小模型如何比肩大模型，北理工发布明德大模型MindLLM，小模型潜力巨大

分别数据集展现出分别程度的泛化本领，例如：网页文本、百科全书和问答数据训练的模型在多个数据源上展现出较强的泛化本领，表明它们的内容包含了各个规模的多样信息。相比之下，学术论文数据和代码数据训练的模型在数学本领上表示出色，但在泛化方面较弱，可能是由于规模一定性和独特的格式信息。

此外，我们举行了多次的数据比例调整，以平衡模型在各种技能和数据类型之间的表示。基于我们的实验，我们最终确定了数据混合比例的一些原则：

保持高质量网络文本和百科全书数据的比例，因为它们具有多样性。

降低数学数据的比例，以避免过拟合。

利用代码和学术数据来增强数学本领，同时通过多样化的抽样和相关处理减轻格式的影响。

保留一些对话和书籍数据，有助于进修长程依赖关系。

除了混合比例，数据课程（数据的训练顺序）也会影响模型的本领进修。实验表明，分别来源的数据将使模型进修分别的技能，由于技能之间的相关性，采用一定的进修顺序可能有助于模型进修新的技能。我们的实验集中于非均匀混合数据和言语迁移进修对模型本领的影响。我们的实验表明，非均匀混合数据会导致模型在同一类型数据上举行连续训练，这更接近于上下文内进修的情境，因此在少样本进修方面表示更好；然而，由于进修的不均匀性，后期可能会出现明显的遗忘现象。此外，言语迁移进修有助于模型获得双语本领，通过言语对齐可能提高整体本能，但我们认为应用混合言语数据举行训练更有利于模型本领的分配与习得。

MindLLMs 模型架构

MindLLM-1.3B采用的是GPTNeo-1.3B相同的模型架构，而MindLLM-3B则是在此基础上增加了一些改进。基于训练稳定性和模型本领方面的考虑，我们应用旋转位置编码（RoPE）DeepNorm、RMS Norm、FlashAttention-2、GeGLU等优化算子。

我们在GPTNeo-1.3B的基础上增加了华文词表，并采用迁移进修的策略训练MindLLM-1.3B的双语本领。而MindLLM-3B，我们则是应用来自SentencePiece的BPE来对数据举行分词，我们的Tokenizer的最终词汇量大小为125,700。通过两种分别的双语训练方式，我们总结了一些普遍实用的预训练方法。

预训练

预训练细节

我们应用了两种分别的策略从头训练双语模型MindLLM。对于MindLLM-3B，我们直接在混合的中英文双语数据上预训练了800,00步，同时进修中英文本领；对于MindLLM-1.3B，我们首先在英文数据集上举行预训练101,100步，然后应用中英文混合数据训练了105,900步。预训练细节以下：

小模型如何比肩大模型，北理工发布明德大模型MindLLM，小模型潜力巨大

预训练阶段评价

较小的模型可以击败更大的模型

为评价模型的中英文本领，我们应用MMLU(5-shot)和AGIEval(4-shot)评价模型英文本领，应用C-Eval(5-shot)和CMMLU(4-shot)评价模型的华文本领。其中AGIEval采用英文部分的多选题部分。评价结果以下：

小模型如何比肩大模型，北理工发布明德大模型MindLLM，小模型潜力巨大

在英文表示上，MindLLMs平均水平超过了GPT-J-6B，MPT-7B，MOSS-Base-16B等更大的模型，并接近Falcon-7B，而后者均有更大的模型规模和更多的预训练数据。在华文本领上，MindLLMs则和开源的LLMs表示相当。值得说明的是，目前MindLLMs仍在训练增强中。

此外，我们发现数据量更少，但是应用了中英文数据训练的MindLLM-1.3B在MMLU上的表示优于GPT-Neo-1.3B，我们推测这可能是双语进修带来的增益，因为分别语种在本领之间也存在共通性。详细实验和分析可查看论文4.4节。

较小的模型在具体本领上存在巨大的潜力

对于轻量级模型，在应用于下游任务时，只需要存在相关的本领上展现出出色的表示即可。因此，我们本部分想要探究MindLLMs和其他轻量级LLM在(≤7B)具体本领上的表示和影响因素。

我们主要从数学本领、推理本领和双语对齐本领三个角度评价分别模型表示，因为这三种本领复杂且对于双语模型的应用相对重要。

(1) 数学

我们应用Arithmetic(5-shot)数据集评价模型的算数本领，应用GSM8K(4-shot)和MATH(4-shot)评价模型的通用数学本领。评价结果以下：

小模型如何比肩大模型，北理工发布明德大模型MindLLM，小模型潜力巨大

我们发现，MindLLM-3B在数学本领上的平均分数达到了16.01，超过了MOSS-Base-16B(15.71)和MPT-7B(13.42)，GPT-J-6B(13.15)。此外MindLLM-1.3B的数学平均水平也超过了相同大小的GPT-Neo-1.3B。以上结果表明，轻量级模型在数学上有着巨大的潜力，较小的模型也可以在具体规模表示出超越或者与更大模型相当的水平。进一步，我们可以看到数学本领较为出色的(均分≥15)，除MindLLM-3B，均为7B左右的模型。这表明，如数学本领类似的复杂本领的全面获取可能会收到模型规模的限制，这一猜测可以进一步在模型双语本领和推理本领的评价进一步体现。

(2) 推理

我们应用HellaSwag、WinoGrande评价模型言语推理本领(5-shot)，应用LogiQA评价模型逻辑推理本领(5-shot)，应用PubMedQA、PIQA、MathQA评价模型知识推理本领(5-shot)，应用BBH评价模型综合推理本领(3-shot)。具体评价结果以下：

小模型如何比肩大模型，北理工发布明德大模型MindLLM，小模型潜力巨大

首先，在模型容量有限的条件下，双语带来的本领增益可能需要和言语进修对模型本领容量的消耗举行平衡。言语进修会占据部分模型本领容量，使得复杂本领如推理本领可能无法全面获取。比如MindLLM-1.3B在英文MMLU评价指标上均优于GPT-Neo-1.3B，但在推理本领的平均水平上弱于后者(35.61 vs 38.95)。而Blooms的推理本领没有特别出色，但后续评价的双语本领出色，这也一定程度上印证了以上观点。其次，规模越大的预训练数据集可能包含的世界知识更多，这样边有助于模型举行推理任务，例如Open-LLaMA-3B的推理表示和较大的模型表示相当，而其预训练数据为1T B，超过了其它同规模的模型所应用的预训练数据。因此，较小规模的模型依旧能够有潜力在推理本领上获得和较大模型相当的表示。另外，我们发现MOSS在推理上的水平似乎没有从前期代码数据的进修获得增益而表示更好(MOSS在CodeGen上举行了继续训练)，但相关工作表明，代码确实有利于模型推理本领的提升，那么到底代码数据如何以及何时加入训练来增强模型的推理本领值得进一步探讨。

(3) 双语本领

我们应用Flores-101(8-shot)中的zh-en部分评价双语或者多语模型在中英文上的对齐本领。我们加入Chinese-LLaMA-2-7B举行评价，其为在LLaMA-2-7B基础上举行华文规模适应的模型。结果以下所示：

小模型如何比肩大模型，北理工发布明德大模型MindLLM，小模型潜力巨大

我们发现，模型在英文到繁体华文的翻译表示均不佳，这主要是预训练数据中的繁体华文占比很少。除此外，只有Blooms和MindLLM-3B在华文到英文和英文到华文双向的言语对齐上表示出色，其次为LLaMA-2-7B和MOSS-Base-16B。而LLaMA-7B和Open-LLaMA-7B则只能在华文到英文上对齐。结合模型预训练的数据可以知道，Blooms和MindLLM-3B的预训练数据中中英文比例较平衡，而LLaMA-2-7B中华文数据比例远低于英文，在LLaMA-7B和Open-LLaMA-7B的预训练数据中华文比例更少。

因此，我们有两个结论，其一是模型可以通过在某种言语上举行大量的训练进修到通过的言语表示，同时混入少量的另一种言语就可以理解并举行单向对齐，如LLaMA-7B和Open-LLaMA-7B的表示。其二则是，若需要获得更好的双语或多语对齐本领，那么在预训练开始阶段就需要有较平衡的双语或多语数据比例，如Blooms和MindLLM-3B。进一步，我们发现MOSS-Base-16B和Chinese-LLaMA-2-7B存在较合理的中英文数据比例，单依旧没有表示出双向对齐，我们的假设是双语对齐本领在迁移训练的时候加入是困难的，因为此时的模型已经存在了大量的知识，这在容量较小的情况下会产生矛盾冲突。这也解释了容量更小，前期单语训练的数据量少的MindLLM-1.3B也没有获得双语对齐本领的现象。而Baichuan2-7B在其他表示方面非常出色，可能也就占据了较大的本领容量，无法进修到较好的双向对齐本领。

(4) 总结

通过评价预训练阶段的评价结果，我们有一下两个结论：

轻量级模型在一定的规模或者本领上有巨大的潜力超过或者达到更大模型的水平。

对于容量有限的模型(≤7B)，我们可以在预训练数据中根据下游任务的具体本领需求合理分配数据比例，这样有利于模型从头稳定地进修获取目标本领，并举行分别知识与本领的融合和促进。

此外，论文中还对比了是否保持数据均匀分布对模型预训练本能的影响，实验结果显示类似课程进修的数据构造方式可能在前期和均匀混合的数据构造方式下训练的模型表示相当，但是最终可能出现灾难性遗忘而导致表示突然下降，而后者表示则更持续稳定，获取的预训练数据知识也更加全面，这也佐证了以上第二点结论。另外我们发现类似课程进修的数据构造方式可能产生更多有利于增强模型上下文进修本领的数据分布。具体细节可以查看论文4.5部分。

指令微调

我们想要探讨在轻量级模型上，分别类别数据集的指令微调会有什么样的本能表示。下表是我们应用的指令微调数据集，包含我们重新构造的华文数据集MingLi、公开数据集Tulu（英文）和中英双语数据集MOSS。

小模型如何比肩大模型，北理工发布明德大模型MindLLM，小模型潜力巨大

对于MindLLM来说，指令微调的数据质量要比数据数量更加重要。

MindLLM-1.3B和MindLLM-3B模型在分别数据下指令微调后在C-Eval上的本能表示以下。从实验结果看，应用精心挑选的50,000条指令微调数据集训练的模型本能要高于多样性高、数据量大的指令微调数据集训练的模型本能。同样，在英文指标MMLU上，模型也表示出相同的本能(详见论文Table 14)。因此，对于轻量级模型来说，如何定义和筛选出高质量的指令微调数据集是非常重要的。

小模型如何比肩大模型，北理工发布明德大模型MindLLM，小模型潜力巨大

基于数据熵的指令微调数据筛选策略

如何定义高质量的指令微调数据？有学者提出指令微调数据的多样性可以代表指令微调数据集的数据质量。然而根据我们的实验发现，指令微调的数据熵和数据长度会更加影响轻量级模型的本能。我们将每条数据在预训练模型上的交叉熵损失定义为该数据的数据熵，并通过K-Means算法依据数据熵对数据举行聚类得到分别的数据簇。MindLLM经过每个数据簇的指令微调后再C-Eval的结果以下表所示（MMLU的结果详见论文Table19）：

小模型如何比肩大模型，北理工发布明德大模型MindLLM，小模型潜力巨大

依据表中结果可知，MindLLM-1.3B和MindLLM-3B在分别数据簇上的表示相差明显。进一步的，我们对数据熵和模型在C-Eval和MMLU上的准确率的关系举行和函数拟合分析，如图所示：

小模型如何比肩大模型，北理工发布明德大模型MindLLM，小模型潜力巨大

图像中红色五角星的点为预训练模型的熵值。根据分析可知，当数据的熵比预训练模型的熵高1-1.5时，模型经过该区间的数据指令微调后本能最佳。因此，我们通过数据熵定义了高质量数据，并且提出了筛选高质量数据的方法。

MindLLM可以经过指定指令微调数据集获得一定本领

为了探究MindLLM能否经过指令微调有效的提升其一定本领，我们应用万卷数据集中的exam数据部分微调模型，目的是为了增强模型的学科知识本领。我们在C-Eval上举行了评价，结果以下：

小模型如何比肩大模型，北理工发布明德大模型MindLLM，小模型潜力巨大

可以看到，经过指令微调之后，模型在学科知识本领上有了很大的提升，1.3B的MindLLM的本能甚至超过ChatGLM-6B、Chinese-Alpaca-33B等更大规模的模型。因此我们认为MindLLM在指令微调后可以提升其一定本领，又鉴于其轻量级的特点，更适合部署在下游垂直规模任务之中。

规模应用

为了展示小模型在具体规模应用的效果，我们采用了在金融和法律两个公开数据集来做出验证。从结果中可以观察到，模型的参数大小对规模本能有一定影响，但表示并不明显。MindLLM的本能在规模应用内超越了其它同等规模的模型，并且与更大的模型有可比性。进一步证明了小模型在规模应用落地有极大潜力。

金融规模

在该规模，对金融数据举行情绪感知分类任务。首先，我们从东方财富网爬取了2011年5月13日至2023年8月31日的数据，并根据接下来的股价波动对数据举行了标记。随后，按照日期将数据划分为训练集和测试集。考虑到类别的不平衡性，我们对数据举行了采样，最终应用了32万条数据作为训练集，而测试集则采用了2万条数据。

小模型如何比肩大模型，北理工发布明德大模型MindLLM，小模型潜力巨大

我们通过两种分别的训练方法来比较分别模型的表示。第一，仅适用简单的监督微调（Supervised Fine-Tuning, SFT）对文本举行分类训练。第二，从ChatGPT中蒸馏推理过程数据，并将其作为辅助数据添加到训练中，具体采用了COT（Chain-Of-Thought）训练方式。

小模型如何比肩大模型，北理工发布明德大模型MindLLM，小模型潜力巨大

实验结果表明，通过补充辅助信息，可以在分别程度上提升所有baseline模型和MindLLM模型效果。进一步可观察到，COT 训练使得 MindLLM-1.3B 和 3B 的本能比 SFT训练本能分别提高了 27.81% 和 26.28%，除了Baichuan-7B以外，MindLLM比其他模型提高幅度更加显著。此外，MindLLM-1.3B 和 3B 在相同规模下达到了最佳本能，而且超过了 ChatGLM2-6B 和 Open-LLaMA-7B。

法律规模

我们收集了一些公开的法律相关数据，并结合了一些通用指令数据对 MindLLM 举行指令微调 (SFT)。为了探究数据的 token 长度是如何影响模型在具体规模上的本能的，我们应用分别数据长度的数据来分别训练 MindLLM。我们首先筛选了长度小于450的全部数据，然后分别应用 MindLLM-1.3B 和 MindLLM-3B 的Tokenizer筛选出长度在200-300和300-450之间的数据。数据统计和所对应的训练模型以下表所示：

小模型如何比肩大模型，北理工发布明德大模型MindLLM，小模型潜力巨大

为了避免人类评价产生的偏差和专业知识不足造成的错误，我们应用采用chatgpt作为评价器，具体方法以下。由ChatGPT生成的多轮法律咨询对话数据集，提取了其中100个对话作为我们的评价数据。我们应用ChatGPT来评价模型对于法律咨询的回复，让ChatGPT对于模型的回复举行排序，再根据排序结果计算Elo分数。最终筛选出一个最佳模型作为 MindLLM-Law 和其它开源模型相比较。

对于 Bloom，GPT-Neo 和 Open-LLaMA 模型应用了和 MindLLM-Law 一样的数据集举行了微调，比较结果以下所示：

小模型如何比肩大模型，北理工发布明德大模型MindLLM，小模型潜力巨大

结果显示 MindLLM-Law 尚未超越具有 13B 参数的模型和 ChatGLM2-6B，其主要原因是我们在预训练阶段法律方面数据不足，未能带来更大的增益。但是，MindLLM相较于 Baichuan2-7B-Chat、微调后的 Open-LLaMA-7B 和其他同规模模型来讲，整体优势非常明显。

总结

本文介绍了 MindLLM 系列模型，目前包括两款轻量级大言语模型。我们详细探讨了它们的训练过程，包括数据处理、预训练、微调、以及规模应用，分享了在这些规模所积累的宝贵经验和技术应用。尽管 MindLLM 的参数规模相对较小，但它们在多个本能评测中表示出色，甚至在某些方面超越了一些更大体量的模型。MindLLM 在规模适应方面相对于其他轻量模型表示出更卓越的本能。同时，与更大规模的模型相比，它们能够以更快的训练速度和更少的训练资源取得相当的成绩。基于以上分析，我们认为小模型仍然具有极大的潜力。我们将进一步提升数据质量，优化模型训练过程和扩展模型规模，以多维度方式提升 MindLLM 的本能。未来，我们计划在更多下游任务和一定规模举行尝试，以更深入地实现轻量级大模型的具体应用。

{{userData.name}}已认证

小模型如何比肩大模型，北理工发布明德大模型MindLLM，小模型潜力巨大

MindLLM 亮点

数据相关

数据处理

Scaling Law

数据混杂与数据课程

MindLLMs 模型架构

预训练

预训练阶段评价

指令微调

规模应用

金融规模

法律规模

总结

每人10万元，这13位青年人才获得2023年度字节跳动奖学金

google20亿美元砸向Anthropic：大模型军备竞赛升级

微软开源 bitnet.cpp 1-bit LLM 推理框架：不靠 GPU 可本地运行千亿参数 AI 模型，能耗最多降低 82.2%

Meta 用 AI 生成北极光图片，遭网友怒喷

秒变Midjourney高手！精选 52 条高级感的 sref 风格代码

中国电信自研 AI 节能系统：年均节电 8 亿度，节约电费 5.2 亿元

英伟达 CEO 黄仁勋展望公司未来：坐拥 5 万名员工、部署 1 亿个 AI 助手

李飞飞：不要数字孪生，要数字表兄弟，一张照片生成机器人训练场景

开发者成功让 AI 学会打游戏，但用 RTX 3090 神经网络运行《CS:GO》“世界模型”仅有 10 帧

AI发现超16万种新RNA病毒？阿里云、中山大学合作研究登Cell