AI在线 AI在线

如何训练你的大型语言模型

打造一个听起来很智能的大型语言模型 (LLM) 助手,就像在反复塑造泥塑一样。 你从一块泥土开始,把它挤压成一个可行的结构,然后开始精雕细琢,直到最终成品。 越接近最终成品,那些精妙的点缀就越重要,正是这些点缀决定了最终成品是杰作还是恐怖谷效应。

如何训练你的大型语言模型

打造一个听起来很智能的大型语言模型 (LLM) 助手,就像在反复塑造泥塑一样。你从一块泥土开始,把它挤压成一个可行的结构,然后开始精雕细琢,直到最终成品。越接近最终成品,那些精妙的点缀就越重要,正是这些点缀决定了最终成品是杰作还是恐怖谷效应。

在完成前面的步骤之前,你无法开始处理细节。同样,你也不能直接把一个没有经过预训练的 LLM 架构扔进偏好优化和推理中。模型需要有足够的基础,才能获得哪怕是一点点奖励,从而朝着合理的良好行为方向发展。

这种“塑造”过程仍然是一个活跃的研究领域,我们还没有完全达到超级一致的寻求真理和有意图的助手的圣杯,但我们在对这门手艺的集体理解方面已经取得了巨大的进步。

如何训练你的大型语言模型

Kimi和Deepseek 的论文都向世界揭示了大量有价值的信息,关于如何进行预训练并添加监督微调和强化学习作为层,以不断提高 LLM 的实用性。

作为参考,Deepseek V3 的训练基于14.8万亿代币这大约相当于1.23亿部平均长度的小说的文本。为了提供一个规模感,谷歌在 2010 年估计,人类总共写了 1.29 亿本书。

如何训练你的大型语言模型

一、模型训练技巧:大型语言模型雕塑家的工具

为了获得复杂的语言模型行为,例如思路链 (CoT) 推理和工具使用,LLM 在三个耦合循环中接受训练。

如何训练你的大型语言模型

1.自监督预训练

就像粘土成型后才能开始雕刻一样,语言模型只有在拥有一个能够运作的人类语言模型后,才能开始实现复杂的推理行为。它们需要能够从某种数据分布中生成令人信服的文本,然后才能将其文本转化为类似聊天的交互和推理。

第一个循环是预训练阶段,通过对混合领域数据进行大规模自监督学习,获得原始容量和通用先验知识。模型会从各种来源获取大量原始文本数据:代码、百科全书、教科书、网页等等。自监督学习的应用方式是在文本中制造空白,并迫使模型学习如何填补空白并学习人类语言的趋势。

现代堆栈依赖于架构和系统技巧:混合专家 (MoE)可在不降低密集计算成本的情况下提高容量,多头潜在注意力( MLA)可缩减注意力内存,FP8/MuonClip可实现稳定的高吞吐量数值计算,有时还会使用多标记预测 (MTP)来提高目标函数的密度并实现更快的推测解码。可以将其视为大规模地教授模型“语言的工作原理”,同时对训练过程进行设计,使其不会耗尽 GPU 或导致损失曲线爆炸。

2.训练后微调

第二个循环是训练后,它赋予基础模型可操控性和风格。团队通常从对指令、JSON 格式和工具调用轨迹进行监督微调 (SFT)开始,以教会模型如何按照指令与用户交互。如果没有微调,LLM 就只能无限地补充文本并从训练堆中重复使用 token。我们需要通过合成一个类似脚本的聊天交互数据集,将这个流引导到与用户更简洁的交互中,该数据集将用于引导模型的 token 生成趋向于“指令”格式。这就是所谓的指令微调。

当模型能够以类似聊天的方式进行响应后,我们就可以应用更精细的强化学习 (RL) 技术,例如直接偏好优化 (Direct Preference Optimization)和群体相对策略优化 (GRPO),来塑造语气、安全性以及对模式的遵循。这正是流程中对齐部分发挥作用的地方,我们开始塑造模型,以创建人类认为有用的输出。

最后,我们可以应用特定的行为强化学习技术。其中一种技术是针对数学/代码/格式的可验证奖励强化学习,其中自动评分器会为正确答案的模型提供明确的奖励。另一种是以思维链 (CoT)推理为中心的强化学习(o1/R1 风格),它推动文本中类似人类的思维模式和自我反思,通过更长的生成时间和测试时间计算来增强问题解决能力。

工具使用培训

就像思维行为通过强化学习引导灌输到模型中一样,工具使用是另一种生成模式,在模型调整时会更自然地出现

为了让 LLM 生成正确的输出以使用系统集成,我们参与了代理/工具循环,让模型学习如何在现实世界中执行操作。在这里,实验室扩展高覆盖率的工具调用轨迹并强制执行严格的模式,然后在沙盒环境(浏览器、终端、代码库)中进行训练,以缩小“知”与“行”之间的差距。少量的联合强化学习可以提高工具成功率并减少延迟,但大部分可靠性仍然来自于良好的轨迹和规范的模式。

最近有报道称,OpenAI o3 类推理模型已成功利用工具调用训练循环与推理微调相结合,使模型能够自发地使用工具间歇性地生成推理文本。

来自开源领域的两个具体锚点可以让我们深入了解这一过程。DeepSeek -V3使用671B 参数的 MoE,每个 token约有37B 活跃数据,在14.8T 的 token上进行预训练,并在FP8和MTP中进行分层,以稳定训练并加速推理。Kimi K2 的MoE可扩展到约 1.04T 参数,每个 token约有32B 活跃数据,在15.5T 的 token上进行预训练,并依赖MuonClip来避免万亿参数规模的损失峰值。然后,它通过大规模工具使用综合和联合强化学习,大量依赖于代理/工具循环。

在实践中:预训练创建一个对语言有一致理解的模型,后训练灌输行为属性,使模型能够在聊天中使用工具、推理和角色扮演。

3.微调与提示

当我们能够为指令调整模型提供完整的指令集并让它遵循提示指令时,为什么我们还要进行微调?

原因在于指令微调的程度有限。提示中的潜在指令空间巨大,模型需要平衡先前关于工具调用的指令与来自新数据源的后续信息。很快,上下文就会变得极其混乱,注意力也会变得紧张。

如果不学习如何以正确的方式理解所有信息,以及在正确的时间关注哪些信息,指令调优模型在代理工具使用场景中很快就会崩溃。虽然可以绕过非工具调用模型的局限性,但通常来说,插入一个因成功驾驭指令遵循、推理和工具使用的复杂空间而获得奖励的模型会更有效。

二、塑造之手:数据是什么样的

LLM 训练过程中最关键的部分当然是数据。获取足够的数据来建模语言,存储数据、引用和注释数据,并将其按固定长度的序列分块输入到模型中,这背后有一个复杂的过程。

从生物信息学来看,我发现这个过程与DNA测序在机制上存在相似之处。为了使DNA达到可读取的程度,需要经过一个漫长而敏感的预处理流程。而一旦将解决方案放入测序仪中,测序仪对序列的长度和质量会有特定的要求,才能真正读取数据。

对于 LLM 来说,情况有些类似。为了提高效率,我们需要能够将整个文本语料库分块,并在训练期间将质量控制的、带注释的固定长度输入到模型中,以便我们能够大规模地进行高效的并行处理。

如何训练你的大型语言模型

端到端数据处理路径从“原始源”中发现的各种格式的数据一直到可以作为令牌 ID 整齐地加载到 Python DataLoader 中的固定长度序列。

下面重点介绍在进行预训练之前所需的一些关键数据处理阶段:

数据来源:编写爬虫程序、购买许可证、访问公共文本数据转储。数据并非来自单一语料库,而是可能分散在许多不同的地方。数据需要以快照的形式及时捕获,一旦预训练开始,模型就只能通过使用工具和上下文工程来访问新信息。

提取、规范化和质量保证:文本需要以尽可能高质量的格式清晰地提取。这就像一个过滤器,可以防止“垃圾进,垃圾出”。通常,会有各种自动化算法从 PDF、HTML 网站、GitHub 代码和其他来源中提取文本,并确保文本主体不受噪音污染。完全无噪音是不可能的,但绝大多数数据应该是合乎逻辑且合理的,这样模型才能在自监督学习下达到收敛(“稳定训练”)。

注释和结构化:使用自动化算法遍历、注释和存储已清理的文本样本。这通常涉及添加段落框架、文档长度、Schema 注释(Markdown、JavaScript、纯文本、HTML)以及其他有用的标签等信息,这些信息可在训练期间使用,并为训练团队提供宝贵的统计摘要,用于故障排除。

分块、分片和填充:文本内容随后被“切分”成块,并使用特殊标记来指示文档结束、文件结束以及其他注释信息,再将其标记为数字 ID,并进行填充以确保每个序列的长度相同。一旦获得等长序列,就可以更轻松地将它们排列成组,并一次性将多个序列输入模型训练循环,从而实现大规模并行训练。

示例文档架构:

复制

打包和填充模式示例:

复制

三、预备训练:塑造粘土

我们将研究Deepseek和Kimi通过公开预印本分享的两个预训练案例研究。

DeepSeek-V3

DeepSeek V3 是一个包含6710 亿个参数的MoE模型,每个 token约有 370 亿个活跃参数。它使用MLA注意力机制来压缩键值对 (KV) 并优化内存/延迟,并实现了无辅助损失负载平衡,以及经过超大规模验证的FP8混合精度。

它基于14.8 万亿个标记进行训练;工程协同设计在预训练、上下文扩展和后训练方面带来总端到端成本 ≈ 2.788M H800-GPU 小时。

KimiK2

Kimi K2 是一个拥有1.04 万亿个参数的MoE ,每个 token约有 320 亿个活跃参数。它还利用MLA作为更节省内存的注意力机制,拥有384 位专家,每个 token 选取 8 位专家。它支持128K token的上下文窗口。

Kimi K2 模型使用MuonClip(Muon + QK-Clip )对15.5 万亿个 token进行了预训练,以消除万亿参数 MoE 规模下的损失尖峰。该模型强调 token 效率是首要的扩展系数。

与 Deepseek V3 不同,该模型的后期训练具有明确的代理性:大规模工具使用合成以及针对真实和模拟环境的联合 RL 。

四、情境扩展:管理感官超负荷

你可能阅读过关于如何在 DeepSeek V3 架构的注意力机制中使用旋转位置编码 (RoPE) 来传递关于 token 位置的相对信息的文章。这些位置编码是模型区分输入文本不同部分相同 token 能力的重要组成部分。

暴露相对距离的训练机制的存在也意味着,如果输入文本的长度发生变化,那么模型将不再能够可靠地关注超出其最大训练注意力的文本。

这个问题在训练过程中通过上下文扩展的过程来处理,它可以被认为是一种“训练课程”,其中模型从简单开始,最初学习 8,000 个标记的短序列,然后重新校准以逐步处理 16,000 个标记、32,000 个标记等更大的块。

前沿模型通常通过分阶段的训练课程(从短到长)扩展到128K或更长,并进行位置/注意力调整和“针状”压力测试,以避免在长序列中出现回归。DeepSeek V3 技术论文报告了从 8K 到 32K 再到 128K 的两阶段扩展。

然而,Kimi K2 却是一个反例:截至 2025 年 7 月,Kimi K2 技术论文导出了 12.8 万亿个开箱即用的数据,这些数据使用 MLA、长序列 RoPE 和 MuonClip 管理着万亿参数规模的训练。这是一个在一年时间内实现训练创新的案例,它有可能取代之前长上下文预训练的前沿范式。

五、训练后:雕琢细节

在“后训练”阶段,模型的行为得以形成。在后训练之前,模型只是一个文本补全工具,可以对文本进行自回归并预测下一个标记。在后训练期间,我们可以尝试通过监督学习和强化学习技术来强制执行训练数据中没有的某些行为。在这个阶段,指令遵循、聊天角色扮演、推理和工具使用等功能开始出现。

1.监督微调(SFT)

SFT 只是监督微调模型对精选对话和演示进行下一个 token 预测。“奖励”是隐式的:你最小化了模型希望生成的 token 的交叉熵。这意味着,如果模型生成了与示例数据完全相同的文本,你将获得最大的奖励。

您可以通过以下方式控制模型的学习内容:

标记了哪些标记(按角色/字段掩盖损失)。

某些模式出现的频率(混合权重、课程)。

结构执行的严格程度(数据构建期间的验证器)。

具体来说,你将对话序列化为 token,并仅针对想要模拟的部分计算损失。这通常是助手的回复以及(对于工具而言)函数调用对象,而不是用户文本或原始工具输出。

我们通常从指令调优开始,这是 SFT 的一部分,我们在此塑造模型,使其表现得像一个助手,并遵循用户指令和系统提示。用于指令调优的 SFT 数据输入如下所示:

复制

在训练期间,结构化数据将被序列化为单个标记序列,并在用户标记上加上掩码,以使模型根据对话中助手的行为进行自我塑造。

单字符串对话的 ChatML 样式模板如下所示:

<BOS> <|system|>你是一个简洁的助手。<|eot|> <|user|>用一段话解释dropout。<|eot|> <|assistant|> Dropout随机将单位归零…… <|eot|>

请注意,这个阶段被称为监督微调的原因是我们明确地以未掩蔽的标记形式提供标签,并要求助手精确地生成这些标记以实现目标(最小化未掩蔽的标记生成的损失函数)。

2.偏好优化(廉价、稳定的控制)

直接偏好优化 (DPO) 是一种基于偏好的后训练方法,通过比较而不是黄金答案进行学习。

对于每个提示,您需要提供一个已选答案和一个被拒绝的答案。该模型经过训练,使得在特定策略下,相对于固定的参考策略(通常是 SFT 检查点),已选答案比被拒绝的答案更有可能。本例中没有提供评判/奖励模型,也没有 PPO 循环;只有一个稳定的离线目标。

DPO不是教你说什么(SFT),而是教你两种可能表达方式中哪一种更好(语气、安全性、简洁性、格式准确性)。它成本低廉、功能强大,而且易于迭代。

由于稳定性、灵活性和降低的成本,许多堆栈现在在完全强化学习与人工反馈 (RLHF) 之前(或代替)默认为DPO(可能除了二进制替代方案KTO )。

对于每个样本,DPO 的数据输入通常类似于以下内容:

复制

我们可以看到,我们正在根据提示进行指令调整,这是一个 ChatML 序列化输入,模型现在应该可以理解它。

下面的 Python 伪代码详细说明了如何应用 DPO:

复制

对于每个样本,正在训练的模型将因生成以下文本而获得最大奖励:

(1)与所选文本完全相同

(2)与被拒绝的文本完全不同

(3)与我们开始的参考模型(指令调整的 SFT 检查点)生成的文本在字符上没有太大区别

随着时间的推移,给定足够多的示例,模型的新检查点将开始根据用户偏好行事,而不仅仅是遵循来自监督训练数据的特定示例,同时保留从指令调整中学习到的核心行为。

通常,结合用户输入对于塑造一个在开放世界中对用户“感觉”有用的助手的模型至关重要,因为指令调整数据集通常只是一组由团队内部合成和/或来自开源研究工作的预先准备好的、精心策划的对话。

3.强化学习

强化学习 (RL) 在现代技术栈中体现在两个方面:可验证的端点(数学/代码/格式),可用于自动评分输出;以及长远推理(o-series/R1 风格)。为了提高效率,两者通常使用群相对策略优化 (GRPO) 家族中的群相对、无批评更新,而不是完整的近端策略优化 (PPO) + 价值函数循环。

4.群体相关策略优化

GRPO 是一种程序,它允许我们使用奖励函数有效地评估模型相对于自身的最佳性能,而无需提供特定的标签。

与 PPO 不同,我们不需要单独的评价模型来评估模型的性能。相反,我们让模型生成少量候选答案,并根据自动检查进行评分,然后对获得最高分的答案进行奖励。这些检查通常是在生成的文本上运行的函数,用于检查诸如是否存在精确答案、是否通过单元测试、数据模式是否有效,以及有时还会进行负面奖励,例如长度或延迟惩罚。

诀窍在于,分数在组内是相对的,因此你可以从样本本身“免费”获得低方差优势信号。你不需要第二个 LLM 来执行计算,因此相对于 PPO,它显著降低了计算成本。

PPO 风格的裁剪步骤将更新保持在信任区域内,而序列级、长度归一化的对数概率确保整个生成过程都能获得奖励,而不仅仅是最终的 token。最终形成了一个简单、稳定且可扩展的循环:增加组规模以增强信号,模型就会稳步向输出靠拢,最终确保输出始终符合评分标准。

下面的一些 Python 伪代码有助于更具体地概念化正在发生的事情:

复制

5.可验证奖励的强化学习

当你能编写一个程序自动判断答案是否“好”时,你就能廉价且安全地扩展强化学习。通常,一个拥有数万亿个参数的前沿模型需要数百万个示例、数亿次尝试(“候选轨迹”)以及数万亿个标记的生成,才能显著改变模型的行为。这意味着,人工监控模型为获得奖励而经历的每一次事件/轨迹是不现实的。“可验证的奖励”是指那些能够通过某种自动方式来确定模型模拟的任务是否正确完成的奖励。

与 SFT/DPO(完全离线)不同,强化学习任务是提示加评分。每个示例都会有一个提示,其中包含需要完成的任务、需要解决的问题或其他类型的完成请求,其结果可以通过编程验证。

对于代码来说,这可以是编写一个能够通过单元测试、代码检查和其他类型程序性检查的函数。对于数学来说,这可以是对完整答案中我们期望看到的特定表达式进行精确匹配,例如方程式、引理和证明说明。

数学任务和代码任务的最小 JSON 示例如下所示:

数学

复制

编码

复制

奖励器是用于处理生成文本的程序,用于评估给予模型的奖励金额。这些程序应该对符合人类预期的结果给予高额奖励,并对不符合预期的结果进行惩罚。

注意:模型对齐的研究专门考察奖励机制与预期行为之间的匹配。实现真正的对齐通常非常棘手,因为许多代模型可能会“破解”奖励机制,并在不真正符合人类预期的情况下获得高额奖励。

这样的例子包括,当模型记住一个等式而没有在数学结果中正确显示工作时,或者编写一个刚刚通过单元测试但由于缺乏常识性应急措施而在生产中变得脆弱的函数时。

6.思路链推理 RL(o 系列/R1 风格)

为了优化长期问题的最终正确性以及轻量级格式约束,我们需要引入更深层次的内部计算作为模型的基本行为。这是通过让LLM自行学习一种针对难题的结构化思维模式来实现的,这种模式的奖励仅基于最终正确性。

推理微调是可验证奖励强化学习的一个子集,其中不提供针对特定分步活动的奖励,而仅提供正确性信号。目标是必须完全学习获得最终奖励的过程,在这个训练阶段,我们相当于“去掉了辅助轮”。

两个常见的附加内容:

•语言/格式奖励。例如,“用英语回答;最后一句是Final Answer: ...”。

•流程塑造(可选)。通过中间检查(子目标、无需工具的推导)可获得小额奖励,而无需在推理阶段透露具体解决方案。

DeepSeek 的R1表明,基于强大的预训练基础(无需 SFT 冷启动)的纯推理强化学习可以引发长视界推理。之后,他们通过一轮小型 SFT 传递和另一轮强化学习,成功解决了强化学习推理问题。

然后,V3将 R1 的推理提炼回其聊天模型中。OpenAI 的o1线路同样以大规模强化学习为中心,用于隐藏的思路链。

使用 GRPO 进行 CoT 训练的样本如下所示:

复制

我们可以看到,这种模式与具有可验证奖励的模式非常相似,但是我们只是将难度增加到一定程度,要求模型利用内部逻辑以某种方式自行找到最终答案。

在可验证奖励中,模型很容易不假思索地生成答案,但推理训练的目标是注入一组非标准且需要长远思维的特殊问题。其结果是,思维链式的独白在训练过程中自然而然地形成了。大型语言模型(LLM)从未被明确教导如何生成思维独白,但他们最终需要这样做才能在这些任务中获得奖励。

与可验证奖励的样本相比,这些任务需要更加仔细地策划,并且期望与可验证奖励数据集相比,每个样本的模型将生成更多的令牌。

注意:你可能已经注意到,以推理为中心的强化学习和具有可验证奖励的强化学习之间存在许多相似之处。有一个超级对齐(superalignment)领域,专门处理“不可验证”的奖励,我们试图让大型语言模型(LLM)生成一些我们无法简单解决的答案。

更具体地说,它涉及当奖励机制不再是一个易于评估的透明函数时,如何使模型与人类对行为和安全的期望相一致。这最终超出了本文的讨论范围,但由于它处于训练后研究的前沿,因此是一个非常有趣的主题,值得进一步研究。

六、让大型语言模型与现实世界互动:工具的使用

大多数“工具使用对齐”都发生在 RL之前:你向模型传授模式和轨迹,然后使用强化学习来打磨边缘。

我们首先需要在 SFT 中教授工具使用直觉,通过添加需要 LLM 生成特定工具使用模式(通常为 XML 或 JSON)的示例,然后在对话中添加“工具”角色来捕获来自该工具的真实世界反馈。

通常,我们要求模型生成特定的结构化模式,以便与其环境中的程序、集成或代码(“工具”)进行交互,并期望这种行为能够推广到具有各种模式的各种工具。指令调优应该允许模型泛化围绕特定工具和模式的自定义用户提示,并根据具体业务用例遵循这些提示。

外汇价格查询的示例可能以 JSON 格式如下所示:

复制

这将被序列化为以下内容,其中模型必须学习准确地完成辅助消息:

复制

然后,我们可以在沙箱中使用 GRPO 强化学习来获得可验证的奖励:

复制

强化学习中最棘手的部分是确保现实世界的工具使用示例具有清晰、可验证的奖励。这并非总是可行,我们可以看到,奖励器的数量现在已经增加,试图将模型“限制”在特定行为中,使其与人类在真实环境中对模型的期望相一致。

问题在于,在复杂的现实世界中,获取奖励的途径数量非常多:通常比合法的完成路径数量高出几个数量级。这通常会导致用户在使用工具时出现某种“角色扮演”行为,即模型学习到了一些非真实的奖励获取路径,而没有以准确的方式正确表达核心逻辑和环境约束。

这将我们带入了后训练的前沿,这里的情况尚不明晰,仍有待进一步探索。我个人认为,人工智能能力的下一次演进并非来自更高的计算能力或预训练规模,而是来自对后训练过程的持续改进,以防止奖励黑客攻击,并缩小模型可能的轨迹,使其能够以合理的方式找到真正的奖励。

七、案例研究

1.使用 DeepSeek-V3 进行强化学习和蒸馏

Deepseek-V3 是一个拥有 671B 参数的 MoE,每个 token 约有 37B 个有效参数。它基于多头潜在注意力 (MLA) 构建,以实现高效的内存上下文处理,并在多 token 预测(MTP) 目标下进行训练。MTP 细节至关重要:该模型预测两个连续的 token;在推测解码过程中,第二个 token 的接受率约为 85% 到 90%,这意味着推理时每秒大约可以生成 1.8 倍的 token,且不会造成质量损失。可以将其视为合法地抢先交易未来 token 并获利。

从规模上看,V3在预训练期间消耗了14.8T 令牌,端到端消耗了约 2.788M H800 GPU 小时 ,这个数字已经包含了长上下文扩展和后训练。该堆栈运行混合精度FP8,以确保在整个训练过程中保持经济高效和稳定。这不仅仅是“向右旋转旋钮”那么简单;报告强调了稳定的运行(没有无法恢复的损失峰值)以及清晰的基础架构,以实现这一点。

后训练阶段是 V3 的个性和推理能力得以提升的关键。团队运用监督式微调和强化学习,将R1 系列中的推理行为提炼回聊天模型中。实际上,他们直接在预先训练好的基础模型上进行强化学习,无需 SFT,然后再将这些行为压缩回去改进基础模型。通过这种方式,强化学习的迭代循环可以持续改进基础模型,从而为更复杂的强化学习提供更完善的基础。

2.Kimi K2 的 Agentic 工具使用

Kimi K2 的设计明确地是一个代理模型,而非纯聊天模型。其底层是一个1.04T 参数的 MoE ,每个 token约 320 亿个活跃数据,并包含MLA;该架构倾向于稀疏性,以便在扩展专家池的同时保持活跃 FLOP 的合理性。他们将专家总数增加到 384 位(其中 k=8 个活跃专家),并将注意力头数量减半至 64 位(相较于 V3),这一权衡既控制了吞吐量,又在稀疏扩展规律下改善了验证损失。上下文开箱即用,大小为128K。

K2 引入了MuonClip: Muon 加上 QK-Clip 机制,该机制可以重新缩放查询/键的投影,以防止注意力逻辑爆炸,从而允许它们在15.5T 的 token上进行预训练 而不会出现损失峰值。如果你曾经见过万亿级的运行因为少数几个 head 爆炸而摇摇欲坠,那么这是一个务实的解决方案,既能保持 Muon 的 token 效率,又能保证训练的流畅性。

后期训练侧重于工具的大规模使用。首先,K2 投资于一个大型合成/真实代理数据管道,该管道可生成工具规格、多轮轨迹和基于规则的评估;然后,它应用一种联合 RL方案,将可验证的奖励(调用是否成功?JSON 是否有效?)与自我批评规则相结合,以塑造静态痕迹无法传授的行为。

他们甚至发布了一个用于函数调用的令牌模板,并描述了一个“强制器”约束解码器,该解码器保证调用与生成时声明的模式相匹配;这对于任何对抗脆弱函数调用格式的人来说都很有用。

最后,K2 的发布方式就像一个产品。开放权重检查点(基础和指令)在FP8 区块中发布,并附带vLLM、SGLang 和 TensorRT-LLM的部署示例,这为想要评估或在生产环境中运行它的团队缩短了“hello world”的路径。

相关资讯

SEARCH-R1: 基于强化学习的大型语言模型多轮搜索与推理框架

这个研究提出了一种新型强化学习(RL)框架SEARCH-R1,该框架使大型语言模型(LLM)能够实现多轮、交错的搜索与推理能力集成。 不同于传统的检索增强生成(RAG)或工具使用方法,SEARCH-R1通过强化学习训练LLM自主生成查询语句,并优化其基于搜索引擎结果的推理过程。 该模型的核心创新在于完全依靠强化学习机制(无需人工标注的交互轨迹)来学习最优的搜索查询策略及基于检索知识的推理方法,从而显著提升问答任务的性能表现。
3/21/2025 1:00:54 PM
佚名

SWEET-RL:基于训练时信息的多轮LLM代理强化学习框架

SWEET-RL(Step-WisE Evaluation from Training-time information,基于训练时信息的逐步评估)是多轮大型语言模型(LLM)代理强化学习领域的重要技术进展。 该算法相较于现有最先进的方法,成功率提升了6%,使Llama-3.1-8B等小型开源模型能够达到甚至超越GPT-4O等大型专有模型的性能水平。 本文将深入分析SWEET-RL如何改进AI代理在复杂协作任务中的训练方法。
3/28/2025 10:16:15 AM
Jenray

OctoThinker:借“中期训练”之力,缩小 Llama 和 Qwen 模型的差距

大家好,我是肆〇柒,大型语言模型(LLM)通过链式思考(CoT)进行深度推理,并借助大规模强化学习(RL)在复杂任务(如竞赛级数学问题解决)上取得了显著进展。 OpenAI 的 o1、o3 等模型在数学推理任务上表现卓越,这些模型通常采用多层神经网络架构,通过大规模数据训练捕捉语言的复杂模式,从而实现高效的文本生成和推理。 而 DeepSeek-R1-Zero 等模型在基础语言模型上直接应用大规模 RL 也展现了有趣的推理行为。
7/10/2025 10:25:23 AM
肆零柒
  • 1