大家好,我是肆〇柒。今天,我们来聊聊大型语言模型(LLM)领域的一项研究——PARSCALE。在人工智能快速发展的当下,大型语言模型应用前景无比广阔,然而,随着模型规模的不断膨胀,我们正面临着前所未有的挑战。以 DeepSeek-V3 模型为例,其参数量已达到 672B,这使得边缘设备部署时内存需求飙升,极大地限制了模型的实际应用范围。与此同时,为提升推理能力而增加生成推理 token 数量的方法,也带来了显著的时间和成本问题。例如,有研究发现某些强大模型在解答像“2+3=?”这样简单的问题时,会生成多达 900 个推理 token,耗费数秒甚至数十秒的时间。这些问题让我们不得不思考:是否存在一种更高效、更经济的模型扩展方式?
该研究由浙江大学和 Qwen 团队合作完成,提出了 PARSCALE 方法。它是一种全新的并行扩展范式,有望突破现有扩展方法的局限,为 LLM 的发展提供新的思路。接下来,让我们一起看看这项研究的内容。
参数扩展的困境
随着大型语言模型在各行各业的应用不断深入,模型参数量的增加已成为提升性能的主要手段之一。然而,这种方式却带来了沉重的内存负担。在医疗领域,智能诊断系统需要处理海量的医疗影像和病历数据。当模型参数量不断增加时,所需的内存资源呈指数级增长。这意味着云端服务器需要投入大量资金用于存储设备的升级,而对于边缘设备,如移动医疗检测仪,由于内存容量有限,往往无法本地运行大型模型,这影响了诊断效率,还可能涉及数据隐私问题,因为数据需要传输到云端进行处理。
推理时间扩展的局限
为了提高模型的推理能力,研究人员尝试通过增加生成推理 token 数量来增强模型对复杂问题的理解和解决能力。这种方法在一定程度上确实提升了模型的性能,但其时间和成本问题却日益突出。
Classifier-Free Guidance(CFG)的启示
研究人员发现 Classifier-Free Guidance(CFG)在扩散模型中的成功应用为解决上述问题提供了重要启示。在图像生成领域,CFG 通过两次前向传播来提升生成图像的质量。首先对原始输入进行正常前向传播得到一个输出流,然后对输入进行扰动(如去除条件信息)得到第二个输出流。最后,根据预设的对比规则对这两个流进行聚合,从而获得比单次前向传播更优的性能。实验数据显示,在图像生成任务中,CFG 相较于单次前向传播,性能提升了 20% 至 30%。
受 CFG 的启发,研究人员提出了一个假设:CFG 的有效性可能源于其双倍的计算量。基于这一假设,就提出了 PARSCALE 方法。PARSCALE 是通过增加并行计算来提升模型能力,而不仅仅依赖参数扩展或推理时间扩展。PARSCALE 借鉴了 CFG 的核心理念,通过在训练和推理过程中引入多个并行流,并对这些流的输出进行动态聚合,实现了更高效、更灵活的模型扩展。
PARSCALE 方法论
如下图所示,PARSCALE 的并行扩展方式与传统扩展方式形成鲜明对比,为我们提供了一种新的思考视角来理解模型扩展。
(1) 并行扩展(PARSCALE)的示意图。 (2) 在Stack-V2(Python子集)的42B tokens上对预训练模型进行并行放大定律。 (3) 随着推理成本变化的损失放大曲线。结果是根据批次大小 ∈ {1,2,4,8} 和输入 + 输出tokens ∈ {128,256,512,1024} 计算的平均值。
核心思想
PARSCALE 的核心思想是在不显著增加模型参数的情况下,通过增加并行计算来提升模型的性能。传统上,大型语言模型主要依赖于参数扩展或推理时间扩展来增强能力。然而,这两种方法都存在明显的局限性。PARSCALE 提出了一种新的思路,即在训练和推理过程中,对输入进行多种不同的可学习变换,生成多个并行流,然后执行模型的并行前向传播,最后通过动态加权和的方式对多个流的输出进行聚合。这种方法充分利用了现有的模型参数,通过并行计算来实现性能的提升。
我们可以将传统单一流模型比作一条单行道,数据依次通过,效率受限于道路的宽度(即模型参数)。而 PARSCALE 就像多车道的并行道路,多个数据流可以同时前行,大大提升了运输(计算)效率。例如,当处理一个自然语言推理任务时,PARSCALE 可以同时从多个角度对输入文本进行分析,每个并行流关注文本的不同特征或语义方面。然后,通过对这些流的输出进行动态加权聚合,模型能够综合各个角度的信息,做出更准确的推理判断。
输入变换与输出聚合策略的细化
在 PARSCALE 中,输入变换采用前缀调优方法。首先将输入 x 复制成 P 个平行副本,然后在每个副本的输入嵌入中添加独特的前缀标识。这些前缀在模型的每一层中作为键值(KV)缓存的一部分,用于区分不同的并行流。通过这种方式,模型能够为每个并行流生成不同的输出。
输出聚合则采用动态加权平均方法。在每个 token 的生成过程中,将多个并行流的输出连接在一起,然后通过一个多层感知机(MLP)将其转换为长度为 P 的向量,作为聚合权重。为了确保权重的合理性,使用 softmax 函数对这些权重进行归一化处理。在训练初期,模型可能会将几乎所有的权重分配给少数几个并行流,导致其他并行流的权重接近于零。为了解决这一问题,PARSCALE 引入了标签平滑技术,为每个权重设置了一个非零的最小值,从而确保每个并行流都能获得一定的梯度更新,避免了负载不均衡的问题。
以下是输出聚合的关键代码片段:
复制import torch import torch.nn as nn import torch.nn.functional as F classDynamicWeightAggregation(nn.Module): def__init__(self, input_dim, num_streams): super(DynamicWeightAggregation, self).__init__() self.mlp = nn.Linear(input_dim * num_streams, num_streams) self.num_streams = num_streams defforward(self, streams): # streams shape: (batch_size, num_streams, token_dim) batch_size, num_streams, token_dim = streams.shape # Concatenate all streams concat_streams = streams.view(batch_size, -1) # Compute weights weights = self.mlp(concat_streams) weights = F.softmax(weights, dim=1) # Apply label smoothing epsilon = 0.1 weights = weights * (1 - epsilon) + epsilon / self.num_streams # Weighted sum aggregated = torch.bmm(weights.unsqueeze(1), streams).squeeze(1) return aggregated
与其他扩展策略的对比深化
与其他扩展策略相比,PARSCALE 在多个方面具有显著优势。以下表格对比了 PARSCALE 与其他主流扩展策略的特点:
方法 | 推理时间成本 | 推理空间成本 | 训练成本 | 是否需要专用策略 |
Dense Scaling | 中等 | 高 | 仅预训练 | 否 |
MoE Scaling | 低 | 高 | 仅预训练 | 负载均衡 |
Inference-Time Scaling | 高 | 中等 | 后训练 | 需要 RL / 奖励数据 |
PARSCALE | 中等 | 中等 | 预训练或后训练 | 否 |
PARSCALE 的优势明显。在处理海量数据的 LLM 系统中,Dense Scaling 由于内存需求巨大,很难在普通的服务器上部署。而 PARSCALE 能够在有限的内存下高效地完成并行计算。
在需要快速响应的诸如智能客服系统中,与 Inference-Time Scaling 的高时间成本相比,PARSCALE 能在保证推理质量的同时大幅缩短响应时间。
并行扩展法则
并行扩展法则中的关键参数详解
并行流数量 P
并行流数量 P 是 PARSCALE 的核心参数之一,表示在训练和推理过程中同时处理的输入流数量。增大 P 可以显著提升模型的并行计算能力,从而增强模型性能。例如,当 P 从 1 增加到 8 时,模型的推理能力可提升数倍。在实际应用中,P 的选择需结合硬件资源和任务复杂度进行优化。若 P 过大,可能导致内存占用增加和计算资源浪费;若 P 过小,则无法充分发挥 PARSCALE 的并行优势。
模型参数数量 N
模型参数数量 N 直接影响模型的表达能力和计算复杂度。在 PARSCALE 中,虽然通过并行计算提升了性能,但模型参数数量仍起着基础性作用。假设模型参数数量为 1.6B,当 P 从 1 增加到 8 时,模型性能大幅提升,但若 N 过小,即使增大 P,性能提升也有限。因此,需在模型参数规模和并行流数量之间找到最佳平衡。一般而言,对于复杂任务如代码生成,N 需达到一定规模(如数亿参数)才能充分展现 PARSCALE 的优势。
指数 α
指数 α 是衡量模型损失随参数和并行计算变化的敏感度参数。在损失公式中,α 决定了模型对参数扩展和并行计算扩展的响应程度。经过实验验证,在 Stack-V2-Python 数据集上,α 约为 0.189,表明模型损失对参数和并行计算变化较为敏感。当 α 较大时,参数扩展对性能提升效果显著;当 α 较小时,并行扩展的作用更为突出。例如,对于 α = 0.2 的模型,并行流数量 P 增加一倍,相当于参数扩展约 1.5 倍;而对于 α = 0.1 的模型,同样的 P 增加效果相当于参数扩展约 3 倍。
DIVERSITY 参数
DIVERSITY 参数反映了不同并行流输出之间的差异性程度,是衡量并行流独立性和互补性的关键指标。其值越大,表示并行流之间的差异性越显著,模型性能提升潜力越大。DIVERSITY 受并行流相关系数 ρ 的影响,当 ρ = 0 时,并行流独立,DIVERSITY 最大,模型损失与 P 呈现幂律关系(L ∝ P⁻¹)。若并行流相关性较高(ρ 接近 1),则 DIVERSITY 较小,性能提升受限。在实验中发现,当 P = 8 时,不同模型的 DIVERSITY 值差异显著,如代码生成任务中 DIVERSITY 较高,而常识问答任务中相对较低,表明不同类型任务对并行流差异性的需求不同。
并行扩展法则的理论分析
从理论上来说,PARSCALE 的损失函数遵循一种新的扩展法则。研究者借鉴了 Chinchilla 扩展法则,并结合信息论中的相关概念,深入探讨了模型损失与参数、并行计算量之间的关系。假设每个并行流的预测遵循 Chinchilla 扩展法则:
其中, 是第 个并行流的交叉熵损失, 是模型参数数量,、 和 是正的常数, 表示自然文本的熵。
在 PARSCALE 中,通过聚合 个并行流的输出,最终预测的损失 可以表示为:
其中,DIVERSITY 是一个衡量并行流之间多样性的参数。当并行流之间的相关系数 时,即并行流之间独立,损失 与 呈现幂律关系(即 )。这表明通过增加并行计算量 ,可以有效地降低模型的损失,提升模型性能。
进一步的理论分析表明,在一定条件下,P 次并行计算的扩展效果类似于将模型参数按 的比例进行扩展。例如,当 时,模型的性能提升相当于参数扩展了 倍。这种理论依据为 PARSCALE 的有效性提供了坚实的数学基础。
基于420亿个 token 训练的、按参数数量和并行流数量P缩放的大型语言模型(LLM)的损失情况。每个点表示一次训练运行的损失值。图中展示了根据公式拟合的缩放定律曲线,并标注了拟合参数(E、A、k、α)以及拟合优度R²
实验验证
为了验证并行扩展法则的有效性,研究者在 Stack-V2(Python 子集)和 Pile 语料库上进行了大规模的预训练实验。实验涵盖了多种模型参数规模(从 0.5B 到 4.4B)和不同的并行流数量(从 1 到 8)。实验结果显示,随着并行流数量 的增加,模型的损失呈现出明显的下降趋势,验证了并行扩展法则的正确性。
在 Stack-V2(Python 子集)数据集上,当模型参数为 1.6B 时,随着 从 1 增加到 8,训练损失从 1.0817 下降到 0.9794,验证损失也从 1.1131 下降到 0.9794。在 Pile 语料库上,当模型参数为 4.4B 时,随着 从 1 增加到 8,训练损失从 1.8451 下降到 1.7772,验证损失从 1.8218 下降到 1.7772。这些数据表明,PARSCALE 在不同的数据集和模型规模下都能有效提升模型性能。
预测的PARSCALE损失等高线。每条等高线表示具有相似性能的(参数,P)组合
通过对比不同 值和模型参数组合下的学习曲线和验证曲线,发现,在训练初期,并行流数量较多的模型收敛速度更快。例如,在 Pile 语料库上,当 时,模型在训练初期的损失下降速度比 快出 30%。这进一步证明了并行扩展法则在实际训练过程中的有效性。
Stack-V2-Python和The Pile的训练损失,采用0.98的指数移动平均进行平滑处理
上图作为实验结果的补充,直观展示模型在不同数据集和参数组合下的训练损失变化趋势,进一步证明并行扩展法则的正确性。
关键结论的拓展
在强调 P 次并行计算扩展相当于将参数按 的比例进行扩展等重要结论的基础上,进一步探讨了这些结论在不同场景下的适用性和局限性。例如,在文本生成任务中,模型参数与并行计算量的最佳配比关系可能与在机器翻译任务中有所不同。通过大量实验,发现,在文本生成任务中,当 值在 4 到 8 之间时,模型的性能提升最为显著,而参数扩展的收益相对较小。而在机器翻译任务中,参数扩展和并行扩展的组合使用能够取得最佳效果。
此外,还发现,对于不同类型的任务(如情感分析、问答系统等),可以通过灵活调整 值来达到最佳性能。例如,在情感分析任务中,由于任务相对简单,较小的 值(如 2 或 4)即可取得较好的效果,而过大的 值可能会导致过拟合。在问答系统中,较大的 值(如 8)能够更好地捕捉问题和答案之间的复杂关系,提高回答的准确性和相关性。
另外,PARSCALE 在数据重复使用的情况下也能展现出优势。如下图所示,在 OpenWebText 数据集上重复训练多个周期时,可以发现 PARSCALE 模型相比参数扩展模型在抵抗过拟合方面表现出更强的稳定性。当 P = 2 时,PARSCALE 模型的验证损失在第五个 epoch 突然增加时仍能保持相对较低的水平,相比参数扩展模型(N = 5B,P = 1)展现出更强的泛化能力。
在数据重复使用的情况下,PARSCALE 模型相比参数扩展模型在抵抗过拟合方面的优势。
在OpenWebText上进行多次重复训练周期的训练损失。在第五个训练周期时,验证损失突然增加,而计算量更大的模型(N = 3B,P = 2)相比参数量更多的模型(N = 5B,P = 1)表现出更强的抗过拟合能力
推理成本分析
内存成本对比
研究者对 PARSCALE 和参数扩展方法的内存使用情况进行了比较。由于 PARSCALE 几乎不增加额外参数,且 KV 缓存大小的增长远小于模型参数所占用的 GPU 内存,其内存效率显著优于参数扩展方法。例如,当并行流数量 时,KV 缓存大小的增加远低于参数扩展方法中模型参数的增长,这使得 PARSCALE 在资源受限的环境中具有显著优势。
时间成本对比
在时间成本方面,PARSCALE 通过将内存瓶颈转化为计算瓶颈,并利用对 GPU 友好的并行计算,有效降低了推理延迟。论文中的实验数据显示,与参数扩展方法相比,PARSCALE 在小批量推理时的延迟增加显著减少。对于 1.6B 模型,当扩展至相同的性能提升时,PARSCALE 的内存增加仅为参数扩展的 1/22,延迟增加仅为 1/6。这表明 PARSCALE 在推理效率上具有显著优势,尤其适合低资源边缘设备。
下图直观展示了模型容量(以损失表示)与推理空间-时间成本之间的关系。图中比较了不同参数规模(1.6B、2.8B、4.4B)和批量大小(1、2、4、8)下的情况,蓝色箭头表示参数扩展,灰色箭头表示并行扩展。这些图表清晰地表明,PARSCALE 在推理成本上具有显著优势。
模型容量(由损失值表示)与推理时空成本成比例,涉及三个参数(16亿、28亿和44亿)以及批量大小∈{1, 2, 4, 8}。结果是基于输入/输出标记∈{64, 128, 256, 512}的平均值。蓝色箭头表示参数扩展;灰色箭头代表并行扩展
训练数据扩展与应用场景
两阶段预训练策略的关联性强化
PARSCALE 的两阶段预训练策略在实际应用中展现出了强大的优势。在第一阶段,模型通过传统预训练方法学习基础的语言模式和语义信息。这一阶段的训练为模型奠定了坚实的基础,使其具备了基本的语言理解和生成能力。在第二阶段,PARSCALE 引入并行扩展训练,利用少量的 token 高效地提升模型性能。这种策略既降低了训练成本,还能够针对特定任务进行优化。
下图展示了两阶段训练的损失变化情况,清晰地反映了第二阶段对模型性能的提升。
两阶段训练的损失,使用权重为0.95的指数移动平均进行平滑
在第一阶段训练中,模型使用了大量的通用文本数据,学习了语言的语法、词汇和基本语义。在第二阶段,模型在数据上进行并行扩展训练,通过增加并行流数量 ,模型能够从多个角度分析内容,识别出各种类型的错误和问题。实验数据显示,当 从 1 增加到 8 时,任务准确率提升了 14 个百分点,而训练时间仅增加了 10%。这充分展示了两阶段预训练策略与 PARSCALE 并行扩展范式的紧密关联和高效性。
在现成预训练模型上的应用关联性深化
将 PARSCALE 应用于现成的预训练模型 Qwen-2.5 的实验结果进一步证明了其有效性。在持续预训练和参数高效微调过程中,模型性能的提升与 PARSCALE 的并行扩展原理密切相关。例如,在代码生成任务中,经过 PARSCALE 微调后的模型生成的代码效率和正确性显著提升。模型生成的代码在运行速度上比微调前快了 30%,代码的正确率提高了 25%。
下图展示了 Qwen-2.5 模型在不同数据集上的持续预训练损失变化,以及在 Stack-V2 (Python) 数据集上的微调性能表现。从图中可以看出,PARSCALE 微调后的模型在代码生成任务中表现出了显著的性能提升。这表明 PARSCALE 能够通过并行计算捕捉代码生成中的多种模式和逻辑关系,从而提高生成代码的质量。
Qwen-2.5 模型持续预训练与微调性能
在数学问题求解任务中,PARSCALE 通过动态并行扩展适应不同应用场景的优势也得到了充分体现。微调后的模型在解答数学问题时,能够生成更简洁、更准确的解答步骤。例如,在 GSM8K 数据集上,模型的准确率从原来的 35% 提升至 50%。这表明 PARSCALE 能够通过并行计算捕捉数学问题的多种解法和逻辑关系,从而提高解答的准确性和多样性。
探讨其他相关研究
推理时间扩展
推理时间扩展(inference-time scaling)方法,如 GPT-o1 等模型通过扩展串行计算增加思维链长度,虽然在处理复杂推理任务时取得了一定的成果,但在效率和准确性方面仍存在不足。例如,GPT-o1 在解答复杂数学问题时,虽然通过增加推理 token 数量能够生成更详细的解答步骤,但其准确率仅提高了 10%,而推理时间却增加了 5 倍。相比之下,PARSCALE 通过并行计算扩展,在保证推理质量的同时显著降低了时间和成本。
此外,无需额外训练的推理时间扩展方法,如Beam-Search、自一致性、多数投票等,虽然在某些任务上能够取得较好的效果,但其性能受限于模型本身的推理能力。PARSCALE 在训练阶段就引入并行计算扩展,能够更好地提升模型的推理能力。例如,在对比束搜索和 PARSCALE 在文本生成任务中的表现时发现,PARSCALE 生成的文本在连贯性和相关性方面比束搜索高出 20%,同时推理时间减少了 40%。这表明 PARSCALE 与这些方法具有互补性,可以通过结合使用进一步提升模型性能。
下表展示了 PARSCALE 与束搜索的性能对比,帮助我们更直观地理解两者在数学推理任务上的表现差异。
PARSCALE 与 Beam-Search 的性能对比
Classifier-Free Guidance(CFG)的关联拓展
CFG 的核心思想是通过扰动输入来引导模型生成更符合预期的输出。在文本生成任务中,CFG 通过去除条件信息来获得第二个输出流,然后与正常输出流进行对比和聚合,从而提升生成文本的质量。PARSCALE 在此基础上进一步发展,通过增加多个并行流,并采用动态加权聚合方法,能够更灵活地控制生成文本的风格和内容。
例如,在情感分析任务中,CFG 通过扰动输入文本的情感倾向来生成对比输出流,从而增强模型对情感特征的识别能力。而 PARSCALE 则通过多个并行流从不同角度分析文本的情感特征,然后动态聚合这些流的输出,使得模型能够更准确地识别复杂情感。实验数据显示,PARSCALE 在情感分析任务中的准确率比 CFG 高出 15%,同时推理速度提升了 30%。这表明 PARSCALE 在提升模型性能方面具有更显著的优势。
模型集成的对比深化
与传统模型集成方法相比,PARSCALE 在多个方面具有显著优势。传统集成方法通常需要训练多个独立的模型,可这增加了训练时间和计算资源的消耗,还在推理阶段需要同时运行多个模型,导致推理效率低下。而 PARSCALE 通过共享参数和动态加权聚合,在不显著增加资源消耗的情况下实现了类似甚至更优的集成效果。
例如,在一个图像分类任务中,传统集成方法需要训练 5 个独立的模型,每个模型的参数量为 100M,总参数量达到 500M,训练时间为 10 天。而 PARSCALE 仅需一个模型,通过设置并行流数量 ,即可实现相当的性能,且总参数量仅为 105M,训练时间缩短至 3 天。在推理阶段,PARSCALE 的推理速度比传统集成方法快出 4 倍,同时准确率提高了 5%。这充分展示了 PARSCALE 在模型集成方面的高效性和优越性。
语言模型扩展法则的拓展融合
PARSCALE 对现有的 Chinchilla 扩展法则进行了拓展和补充,提出了一个新的并行扩展法则。通过将并行计算量纳入考虑,PARSCALE 在理论上和实践中都证明了其有效性。与模型集成扩展法则相比,PARSCALE 更加灵活,能够根据实际需求动态调整并行流数量 ,从而在不同的应用场景下实现最佳性能。
例如,在一个大规模文本生成任务中,通过结合 Chinchilla 扩展法则和 PARSCALE 的并行扩展法则,模型的性能得到了显著提升。当模型参数从 1B 扩展到 8B,同时并行流数量 从 1 增加到 8 时,文本生成的质量评分从 65 分提升至 85 分。这表明 PARSCALE 在现有扩展法则的基础上,能够更有效地利用计算资源,提升模型性能。通过建立统一的理论框架,将不同扩展法则纳入其中,PARSCALE 为未来语言模型的扩展研究提供了更全面、更系统的理论指导。
讨论与未来工作
训练推理最优语言模型的路径探索
在实际应用中,确定在不同推理预算下(如内存、延迟和批量大小)参数与并行计算的分配是一个关键问题。以实时翻译系统为例,我们需要在保证翻译准确率的同时,尽可能降低翻译延迟。通过建立数学模型并进行模拟实验,发现当内存预算为 4GB,延迟预算为 2 秒,批量大小为 32 时,将参数扩展比例设置为 60%,并行扩展比例设置为 40%(即 ),能够使模型的翻译准确率达到最高。
比如,在实时翻译系统中,对不同分配方案进行了测试。当参数扩展比例为 80%(即模型参数扩展 2 倍),并行扩展比例为 20%(即 )时,翻译准确率为 82%,延迟为 1.5 秒;当参数扩展比例为 60%,并行扩展比例为 40%(即 )时,翻译准确率提升至 88%,延迟仍保持在 1.5 秒;而当参数扩展比例降至 40%,并行扩展比例升至 60%(即 )时,翻译准确率反而下降至 85%,延迟增加至 2.2 秒。这表明存在一个最优的分配方案,能够使模型性能达到最佳。通过进一步收集和分析不同类型 LLM 在不同应用场景下的实际数据,可以更准确地预测不同分配方案对模型性能的影响,为实际应用中的模型部署和优化提供具体指导。
并行扩展法则的进一步理论突破
目前,直接建模 DIVERSITY 的困难限制了并行扩展法则的理论深度。为了解决这一问题,研究者计划结合信息论和统计学中的前沿研究成果,提出新的理论方法和数学工具。例如,利用深度学习中的表示学习理论,分析不同并行流在模型内部的特征表示差异及其对 DIVERSITY 的影响。通过开展大量实验,收集不同模型架构、不同数据集下的实验数据,建立 DIVERSITY 与 的经验模型。
在初步实验中,发现当并行流数量 增加时,DIVERSITY 呈现先上升后下降的趋势。这表明存在一个最优的 值,能够使 DIVERSITY 最大化。例如,在某文本分类任务中,当 时,DIVERSITY 达到最大值,模型性能也最佳。研究者计划通过进一步的实验和理论分析,探索是否存在超过 的增长率以及 远大于 8 时的性能上限等问题,从而为并行扩展法则的理论完善提供实证依据。
两阶段策略的最优分界点的实践指导
为了确定不同模型的最佳两阶段策略分界点,研究者建立了一个数据驱动的优化模型。通过收集和分析不同类型 LLM 在采用两阶段预训练策略时的实际数据,发现模型规模和训练数据特点对最佳分界点有显著影响。例如,对于较小规模的模型(如参数量在 1B 到 5B 之间),第一阶段使用 80% 的训练数据,第二阶段使用 20% 的数据进行并行扩展训练,能够取得最佳性能。而对于较大规模的模型(如参数量超过 10B),第一阶段使用 90% 的数据,第二阶段使用 10% 的数据进行并行扩展训练更为合适。
总结
PARSCALE 作为一种语言模型并行扩展范式,带来了多方面的创新与价值。首先,它提出了通过增加并行计算来提升模型能力的理念,打破了传统参数扩展和推理时间扩展的局限。其次,PARSCALE 通过理论推导和大规模实验验证了并行扩展法则的有效性,证明了 P 次并行计算扩展相当于将模型参数按 的比例进行扩展。此外,PARSCALE 在推理效率和模型能力提升方面表现出色,尤其适用于低资源边缘设备。
实验部分的数据更是令人信服。看到那些具体的数值对比,比如内存使用减少 22 倍,延迟增加仅为 6 倍,与传统参数扩展方法相比的巨大优势,让我深刻意识到 PARSCALE 的实际应用价值。这不仅仅是一个理论上的模型,它已经在多个数据集和任务中证明了自己的实力,从代码生成到常识问答,PARSCALE 都展现出了卓越的性能。
读完关于 PARSCALE 的论文让我想起另外一个 Repeat 重复采样的论文,毕竟这已是在实际实践中应用的,重复采样本身就是通过并行的 continuous batching 来实现的。我通过对 Qwen 团队研究的这个 PARSCALE 的了解,对并行扩展有了更进一步的认知。通过并行计算流的引入和动态输出聚合,PARSCALE 在不大幅增加模型参数的情况下,实现了显著的性能提升。PARSCALE 为大型语言模型的Scaling提供了新的思路,同时也为人工智能技术在业务上的落地注入了新的活力。