大家好,我是肆〇柒。本篇想和大家分享一个后训练的模型案例 ——AM-Thinking-v1 模型。这个模型是由贝壳(Ke.com)公司旗下的 a-m-team 团队开发的,他们一直致力于探索 AGI 技术。AM-Thinking-v1 凭借其精心设计的后训练框架,在数学和代码推理等任务上展现出卓越性能,为中等规模模型的发展探索了很好的可能性。它不仅在效率与性能间取得平衡,更向我们揭示了模型规模之外,创新训练方法对推理能力提升的无限可能。下面一起来看看这篇论文对 32B 模型 Post train 的介绍,这个团队分享的实践过程,对于我们私有化模型落地很有实操的借鉴意义。
模型开发背景
a-m-team 与 Qwen2.5-32B 基础模型
a-m-team 是贝壳(Ke.com)公司旗下专注于探索 AGI 技术的团队。他们开发 AM-Thinking-v1 所使用的 Qwen2.5-32B 基础模型是完全开源的。团队选择这一基础模型,是因为其在性能和稳定性上具有显著优势。Qwen2.5-32B 模型在预训练阶段已经学习了海量的文本知识,具备了良好的语言理解和生成能力,这为后续的推理能力优化提供了坚实的基础。此外,a-m-team 团队对开源社区的贡献和依赖,促进了整个研究领域的快速发展。开源模型使得更多的研究者和开发者能够参与到模型的改进和优化中来,加速了技术的迭代和创新。
规模抉择:32B 模型的优势与应用考量
选择 32B 规模的模型进行开发,是基于实际应用的多方面考虑。与大型 MoE 架构模型相比,32B 模型在效率、可部署性与推理性能之间实现了良好的平衡。大型 MoE 架构模型虽然在推理性能上表现出色,但它们需要海量的计算资源来进行训练和推理,训练成本高昂,对硬件设施要求严苛,且部署复杂度大。这些因素使得大多数企业难以承担。而 32B 模型则不同,它能够在中小企业的实际业务需求中找到应用场景,同时也能满足多数实际场景的推理任务要求。例如,在推理速度方面,32B 模型能够在相对较短的时间内给出响应,满足实时性要求较高的应用场景;在资源消耗方面,它对硬件资源的需求相对较低,降低了部署成本;在硬件要求方面,普通的服务器配置即可满足其运行需求,无需配备专门的高性能计算集群。
数据处理方法
数据收集与来源
AM-Thinking-v1 的训练数据来自多个公开的数据集,涵盖了数学推理、代码生成、科学推理、指令遵循和通用聊天等任务领域。
在数学推理领域,使用了如 OpenR1-Math-220k 数据集,该数据集包含大量的数学问题及解答,涵盖了从基础数学到高等数学的各个知识点;Big-Math-RL-Verified 数据集则侧重于通过强化学习验证的数学问题,确保了数学问题解答的准确性和可靠性。此外,还有 data_ablation_full59K、NuminaMath、MetaMathQA、2023_amc_data、DeepMath-103K 和 AIME_1983_2024 等数据集,这些数据集从不同角度和难度层次为模型提供了丰富的数学推理训练素材。
在代码生成领域,PRIME 数据集涵盖了多种编程语言的代码示例,包括 Python、C++、Java 等常见编程语言,为模型学习不同编程语言的语法和编程范式提供了基础;DeepCoder 数据集聚焦于代码生成和修复任务,包含了大量具有代表性的代码问题和解决方案,有助于模型提高代码生成的准确性和鲁棒性。其他如 KodCode、liveincode_generation、codeforces_cots、verifiable_coding、opencoder 和 AceCode-87K 等数据集,也从不同方面丰富了代码生成任务的训练数据。
科学推理领域包括了 task_mmmlu 数据集,该数据集涉及多个学科的科学问题,如物理、化学、生物等,以多项选择题的形式呈现,每个问题都配有可靠的真值答案;chemistryQA 数据集则专注于化学领域的问答,涵盖了化学物质的性质、化学反应的原理等知识点。此外,Llama-NemotronPost-Training-Dataset-v1、LOGIC-701、ncert 系列数据集和 logicLM 等也从不同学科和题型角度为科学推理任务提供了数据支持。
指令遵循领域选用了 Llama-Nemotron-PostTraining-Dataset 和 tulu-3-sft-mixture 两个数据集,这些数据集包含了各种指令类型的样本,如文本编辑指令、信息检索指令等,帮助模型更好地理解和执行用户的指令。
通用聊天领域则包括了 evol、InfinityInstruct、open_orca、tulu-3-sft-mixture、natural_reasoning、flan、ultra_chat 和 OpenHermes-2.5 等数据集,涵盖了开放性问题、一般知识问答和日常推理等多种类型的任务,支持单轮和多轮对话交互,使模型能够在通用聊天场景中表现出自然、流畅的对话能力。
查询过滤策略
对收集到的数据进行预处理是确保训练数据质量的关键步骤。首先,进行去重操作,去除重复的查询,避免模型在训练过程中对重复数据的过度拟合。然后,删除低质量查询,包括那些描述不清楚、信息不完整或存在明显错误的查询。此外,去除包含 URL 和图像引用的查询也至关重要。由于模型在训练时无法访问外部链接,包含 URL 的查询可能会导致模型产生幻觉或误导性输出;而模型是纯文本基于的,无法感知或处理视觉信息,因此包含图像引用的查询也被排除在外。
特别地,数学查询的过滤尤为重要。在实际操作中,利用 LLM 对数学问题进行分析,过滤掉描述不清晰或不完整的查询。
例如,对于一个原始描述为 “求一个三角形的面积,已知三条边长分别为 3、4、5” 的问题,通过 LLM 分析后,可以重新表述为 “已知一个三角形的三条边长分别为 3 厘米、4 厘米、5 厘米,求该三角形的面积”,使问题更加清晰准确,便于模型理解和解答。
同时,采用 DeepSeek-R1 生成多个响应来验证原始答案的正确性。若发现问题,则借助 o4-mini 重新确定答案并修正原始真实值。具体流程是,设置合适的提示词让 DeepSeek-R1 生成多个回答,然后使用 math_verify 工具判断这些回答与原始答案是否一致。如果不一致,则由 o4-mini 生成新的答案,并再次通过 math_verify 判断 o4-mini 的答案与 DeepSeek-R1 的常见回答是否等价。若等价,则认为原始真实值可能错误,将其修正为 o4-mini 的答案。
例如,在一个关于二次方程求解的问题中,原始答案标注为 “x = 3”,但通过 DeepSeek-R1 生成的多个响应中出现频率最高的答案是 “x = 2”,经 math_verify 判断与 o4-mini 生成的答案 “x = 2” 等价,于是将原始答案修正为 “x = 2”。此外,对于数学证明题和多子问题查询直接过滤掉;对于多项选择题,由于其数量众多,将其改写为填空题,例如将 “下列哪个选项是勾股数?A.3、4、5 B.5、6、7 C.6、7、8” 改写为 “请填写勾股数:3、4、___”。
在代码查询方面,采用了方法调用和标准输入输出测试用例来验证模型的代码生成能力。例如,对于需要实现特定方法或函数的查询,定义了特定的函数名、输入值及其对应的预期输出值。在验证过程中,这些测试用例被自动转换为断言语句,并在安全的代码沙盒环境中执行。下图展示了方法调用和标准输入输出测试用例的具体形式:
方法调用以及标准输入/输出测试用例示例
对于指令遵循查询,使用了 IFEval 验证器来进行验证。验证器接收指令标识符(instruction_id_list)及其参数(kwargs),并为每个指令返回一个布尔结果(True/False),表示指令是否被成功遵循。此处采用的是 IFEval 验证器的严格模式,仅评估原始响应。下图展示了验证器输入的具体格式和内容:
验证器输入示例
通过这些详细的验证步骤和示例,可以确保训练数据的高质量,为模型的后续训练和推理能力提升奠定了坚实的基础。
质量把控:合成响应的三次过滤法
在生成模型响应后,采用三种方法来过滤低质量的响应。基于困惑度(Perplexity)的方法是利用之前训练的 32B 模型计算每个模型生成响应的困惑度,设定一个困惑度阈值,超过该阈值的响应将被丢弃。通常,困惑度较低的响应表示模型对生成的文本更具确定性,质量也相对较高。例如,设定困惑度阈值为 100,对于困惑度超过 100 的响应,认为其质量较低,应予以过滤。N-gram 基于的方法是丢弃包含一定最小长度重复短语的模型响应。例如,如果一个响应中连续出现两次以上的相同短语,长度超过 3 个词,则认为该响应可能存在重复冗余,质量较低,应予以过滤。结构基于的方法则是针对多轮对话,确保最后的轮次是助手的响应,并且每个模型生成的回复都包含完整思考和回答的组件。如果一个对话轮次的结构不完整,如缺少思考过程或回答部分,则认为该响应质量不高,需要过滤掉。例如,对于一个多轮对话,如果模型生成的回复只有思考过程而没有最终答案,或者只有答案而没有思考过程,则该响应将被过滤掉。
Post-train 框架
监督微调(SFT):初始雕琢
SFT 使用约 284 万样本,涵盖数学、代码、科学、指令遵循和通用聊天五个主要类别。在训练过程中,对于样本数量较少的指令遵循类别,通过重复数据来增加其在训练中的占比,确保模型在各个任务上的学习平衡。例如,在训练初期,指令遵循类别的样本数量相对较少,可能只占总样本数的 5% 左右。为了提升模型对这类任务的学习效果,将指令遵循类别的数据重复多次加入到训练集中,使其占比提升至 10% 左右。同时,生成多样本合成的响应来增强模型对复杂指令的理解能力。例如,对于一个复杂的指令 “请生成一篇关于人工智能在医疗领域应用的报告,要求包括当前应用现状、面临挑战和未来发展趋势三个部分”,模型会生成多个不同的响应,这些响应从不同角度和侧重点来回答该指令,从而丰富了模型的学习素材,提高了其对复杂指令的理解和执行能力。
基于 Qwen2.5-32B 基础模型的 SFT 训练配置如下:学习率设置为 8e-5,较大的学习率有助于模型在长形式推理任务中更好地拟合数据;最大序列长度设置为 32k,并采用序列打包技术,在提高计算效率的同时,确保模型能够处理较长的推理文本;全局批量大小设置为 64,较大的批量大小可以充分利用计算资源,加快训练速度;模型训练 2 个周期,确保模型能够充分学习到训练数据中的知识;采用余弦热身策略,热身步设置为总训练步的 5%,学习率先线性增长到最大值,然后随着训练进程逐步衰减,这有助于模型在训练初期快速收敛,同时避免后期学习率过高导致的模型参数震荡;对于多轮对话数据,只使用包含推理过程的最后响应作为训练目标,并将其作为损失函数的计算依据,使模型能够专注于学习推理部分的模式和结构。
在SFT(Supervised Fine-Tuning,监督式微调)过程中,左侧是实例级分布(Instance Level Distribution),右侧是 token 级分布(Token Level Distribution)
上图展示了监督微调阶段的数据分布情况,从实例层面和token层面直观呈现了不同任务类别在训练集中的占比和分布,反映了训练数据的多样性和丰富性,确保模型能够接触到足够多类型的样本,从而在多个任务上实现均衡有效的学习。
同时,监督微调阶段的训练损失曲线如下所示:
监督微调(SFT)训练loss曲线
上面曲线显示了模型在训练过程中的损失变化情况。可以看到,随着训练的进行,损失逐渐下降,表明模型在不断学习和拟合训练数据。在训练初期,损失下降较为迅速,说明模型能够快速捕捉到数据中的主要模式和特征;随着训练的深入,损失下降速度逐渐放缓,趋于平稳,这表明模型逐渐收敛,学习到了更细致的知识和复杂的推理模式。通过合理设置学习率和批量大小等超参数,确保了模型在长形式推理任务中的稳定训练和有效学习,为后续强化学习阶段的进一步优化奠定了良好的基础。
此外,在监督微调过程中,我们还可以观察到平均生成长度和平均停止比例的动态变化:
平均代长(上)和平均停止比例(下)的变化
上图显示,在训练早期,模型倾向于生成过长的输出,平均生成长度较大,而平均停止比例较低。这主要是由于基础模型的预训练语料库以纯文本为主,且推理示例的长度显著长于标准指令数据。随着训练的进行,模型逐渐学习到推理提示的结构和语义模式,平均生成长度呈现下降趋势,而平均停止比例则稳步上升。这表明模型在不断调整自身的生成行为,逐步向更连贯、更符合任务要求的推理模式靠拢,体现了监督微调方法对模型推理能力的有效引导。
强化学习(RL):能力进阶双阶段提升
在 RL 阶段,选择适当难度的训练查询对于确保性能稳定提升至关重要。根据 SFT 模型的通过率来筛选数学和代码查询。具体操作是,统计 SFT 模型在各个查询上的通过率,即模型正确回答查询的次数占总尝试次数的比例。然后,设定一个阈值范围,例如只保留通过率在 0 到 1 之间的查询,即那些模型既不能完全正确回答,也不是完全错误的查询。最终确定用于训练的数学查询数量为 32k,代码查询数量为 22k。
RL 分为两个阶段。在第一阶段,当模型性能趋于平稳后,进入第二阶段。在第二阶段,移除模型在第一阶段已完全正确回答的查询,同时补充 15k 通用聊天和 5k 指令遵循数据,以增强模型的泛化能力。采用 GRPO 作为训练算法,原因在于其简化和轻量化的特性,尽管是 PPO 的变体,但在本项目中表现出良好的训练稳定性和有效的性能提升。GRPO 算法通过计算优势函数来评估策略的好坏,并根据优势函数更新策略模型。优势函数计算公式为:A(s,a) = Q(s,a) - V(s),其中 Q(s,a) 是状态 - 动作价值函数,V(s) 是状态价值函数。在具体配置方面,去除 KL 约束,允许模型进行更大幅度的策略更新;对于过长的响应,将其优势设置为零,防止其影响参数更新;采用严格的 on-policy 训练方式,每个训练批次包含 256 个查询,每个查询采样 16 次探索,每次探索后只更新一次策略模型;分阶段调整生成和学习率,第一阶段最大响应长度限制为 24K,学习率相对较高,为 4 × 10−6,以加快模型收敛速度;第二阶段最大响应长度增加到 32K,学习率降低至 1 × 10−6,以精细化调整模型参数,提高训练精度。例如,在 RL 训练过程中,如果发现模型在某个查询上的性能表现较差,可以通过调整学习率和批量大小等超参数来优化训练策略。可以适当降低学习率,减小批量大小,增加训练步数,使模型能够更细致地学习该查询的特征和模式,从而逐步提高性能。
为了提高强化学习阶段的训练效率,对 rollout 速度进行了优化。传统的在线 GRPO 训练由于需要在每一步生成策略模型样本,导致训练周期较长。通过解耦 rollout 工作者与推理引擎,并引入自定义负载均衡器,实现了动态实例分配。这种优化设计使得训练系统能够根据实时系统指标灵活调度推理任务,有效缓解了长序列处理导致的长尾效应和负载不均衡问题,提高了整体训练效率。
流式负载均衡架构下的解耦式部署与升级
上图展示了优化后的 rollout 架构,通过将 rollout 逻辑与推理引擎分离,并结合流式负载均衡技术,模型能够在大规模 GPU 集群上实现高效的强化学习训练。这种架构改进加快了训练速度,还为未来支持更复杂的智能体和工具使用场景提供了技术基础。
实验与评估
评估基准与方法
AM-Thinking-v1 模型的评估基准包括美国数学邀请赛(AIME)2024 和 2025、LiveCodeBench 以及 Arena-Hard 等。
模型在推理基准测试中的性能比较
AIME2024 和 AIME2025 是具有挑战性的数学推理竞赛数据集,各包含 30 个整数答案问题。这些问题设计巧妙,主要是考察学生对数学知识的深入理解和灵活运用能力,如代数、几何、组合数学等各个分支的知识点。LiveCodeBench 是一个综合性的、无污染的编程基准测试,持续从 LeetCode、AtCoder 和 Codeforces 等平台收集新的编程挑战。这些编程挑战涵盖了多种编程语言和不同的难度层次,能够全面评估模型的代码生成能力。Arena-Hard 则是从 Chatbot Arena 的实时数据中构建高质量基准测试,通过 GPT-4 Turbo 进行成对比较判断模型的性能。
在评估过程中,保持标准化的评估条件。最大生成长度设置为 49,152 token,确保模型能够生成足够长的文本以完整表达其答案;对于需要随机采样的基准测试,统一采用温度为 0.6 和 top-p 值为 0.95 的参数设置。对于 AIME2024 和 AIME2025,每个查询生成 64 个响应,以计算 pass@1 精度;对于 LiveCodeBench,每个查询生成 16 个响应来估计 pass@1;对于 Arena-Hard,每个查询生成一个响应,并使用 GPT-4 Turbo(1106)进行评估。
此外,采用一致的系统提示来引导模型的响应格式,如 “You are a helpful assistant. To answer the user’s question, you first think about the reasoning process and then provide the user with the answer. The reasoning process and answer are enclosed within <think> </think> and <answer> </answer> tags, respectively...”。
根据不同的基准测试,适当调整用户提示,例如在 AIME 2024 和 2025 中,附加指令 “Let’s think step by step and output the final answer within \box{}”;在 LiveCodeBench 和 Arena-Hard 中,则使用基准测试默认的用户提示。
实验结果与分析
AM-Thinking-v1 模型在各个基准测试中的性能表现如下表所示:
跨推理基准测试的比较
从上表中数据可以看出,在数学任务方面,AM-Thinking-v1 在 AIME2024 中取得了 85.3 分,在 AIME2025 中取得了 74.4 分,超过了 DeepSeek-R1(AIME2024 为 79.8 分,AIME2025 为 70.0 分)等模型,并且与 Qwen3-235B-A22B(AIME2024 为 85.7 分,AIME2025 为 81.5 分)等大型 MoE 模型的性能相当。这表明 AM-Thinking-v1 在数学推理任务上具有显著优势,可能得益于其在数学推理训练中采用的特定数据集和训练方法,如对数学问题答案的严格验证和筛选,以及精心设计的后训练框架,使模型能够深入学习数学问题的解题思路和方法。在代码生成任务中,AM-Thinking-v1 在 LiveCodeBench 上取得了 70.3 分,大幅超越了 DeepSeek-R1(64.3 分)、Qwen3-32B(65.7 分)和 NemotronUltra-253B(68.1 分)等模型,显示出其在代码理解与生成方面的强大能力。
这可能是因为模型在训练过程中接触了大量的代码数据,并通过后训练框架不断优化了代码生成的准确性和逻辑性。在通用聊天任务中,AM-Thinking-v1 在 Arena-Hard 上获得了 92.5 分,与一些专有模型如 OpenAI-o1(92.1 分)和 o3-mini(89.0 分)具有竞争力,但在与 Qwen3-235B-A22B(95.6 分)相比存在一定差距。这可能是由于在通用聊天任务的训练中,32B 模型在处理复杂的对话上下文时,相对于大型 MoE 模型,存在一定的局限性,如对长对话历史的记忆和理解能力相对较弱,导致在某些复杂对话场景中表现不如大型 MoE 模型。
AIME2024(上方)和LiveCodeBench(下方)的性能与模型规模对比
上图直观展示了模型规模与性能之间的关系。AM-Thinking-v1 在 32B 规模密集模型中处于领先地位,其性能接近甚至超过了一些更大规模的 MoE 模型。这表明模型规模并非决定推理性能的唯一因素,合理的模型设计和训练方法同样能够显著提升模型的推理表现。AM-Thinking-v1 的后训练框架通过优化数据处理和训练策略,充分发挥了 32B 模型的潜力,在不增加模型规模的情况下,使其推理能力得到了显著提升。例如,通过精心设计的查询过滤和响应过滤方法,确保了训练数据的高质量,提高了模型学习效率;采用难度适中的查询选择和分阶段训练策略,在强化学习阶段逐步提升模型的推理能力,同时保证了训练的稳定性和效率。这些创新的训练方法和策略,使得 AM-Thinking-v1 能够在中等规模模型中实现卓越的推理性能,为模型规模与性能关系的研究提供了新的视角和思路。
该图直观展示了模型规模与性能之间的关系。AM-Thinking-v1 在 32B 规模密集模型中处于领先地位,其性能接近甚至超过了一些更大规模的 MoE 模型。这表明模型规模并非决定推理性能的唯一因素,合理的模型设计和训练方法同样能够显著提升模型的推理表现。AM-Thinking-v1 的后训练框架通过优化数据处理和训练策略,充分发挥了 32B 模型的潜力,在不增加模型规模的情况下,使其推理能力得到了显著提升。例如,通过精心设计的查询过滤和响应过滤方法,确保了训练数据的高质量,提高了模型学习效率;采用难度适中的查询选择和分阶段训练策略,在强化学习阶段逐步提升模型的推理能力,同时保证了训练的稳定性和效率。这些创新的训练方法和策略,使得 AM-Thinking-v1 能够在中等规模模型中实现卓越的推理性能,为模型规模与性能关系的研究提供了新的视角和思路。
规模之辩:性能与模型大小的关联
绘制模型规模与性能之间的关系图,以 AIME2024 和 LiveCodeBench 基准测试为例,可以清晰地看到 AM-Thinking-v1 在与其他模型相比时,在性能和规模上的相对位置。AM-Thinking-v1 在 32B 规模密集模型中处于领先地位,其性能接近甚至超过了一些更大规模的 MoE 模型。这表明模型规模并非决定推理性能的唯一因素,合理的模型设计和训练方法同样能够显著提升模型的推理表现。AM-Thinking-v1 的后训练框架通过优化数据处理和训练策略,充分发挥了 32B 模型的潜力,在不增加模型规模的情况下,使其推理能力得到了显著提升。例如,通过精心设计的查询过滤和响应过滤方法,确保了训练数据的高质量,提高了模型学习效率;采用难度适中的查询选择和分阶段训练策略,在强化学习阶段逐步提升模型的推理能力,同时保证了训练的稳定性和效率。这些创新的训练方法和策略,使得 AM-Thinking-v1 能够在中等规模模型中实现卓越的推理性能,为模型规模与性能关系的研究提供了新的视角和思路。
技术创新与优势
训练革新:后训练框架的创新融合
AM-Thinking-v1 的后训练框架创新性地结合了监督微调和强化学习的优势。在 SFT 阶段,通过精心设计的训练数据和提示词,引导模型学习推理任务的结构和模式,例如在数学推理任务中,使用包含详细解题步骤和答案的训练数据,以及引导模型逐步思考的提示词,使模型能够学习到解决数学问题的一般方法和逻辑流程。这为 RL 阶段的进一步优化奠定了坚实的基础。在 RL 阶段,通过难度适中的查询选择和分阶段训练策略,逐步提升模型的推理能力。例如,在 RL 第一阶段,使用具有一定难度的数学和代码查询,让模型在不断尝试和反馈中学习更复杂的推理技巧;当模型性能趋于稳定后,进入第二阶段,移除已掌握的查询,加入其他类型的通用聊天和指令遵循数据,使模型能够适应更多样化的任务场景,增强其泛化能力。这种创新的后训练框架,为中等规模模型的推理能力提升提供了新的思路和方法,证明了在不依赖大规模 MoE 架构和私有数据的情况下,依然能够挖掘出密集模型的推理潜力,实现与大型 MoE 模型相媲美的推理性能。
数据精修:全方位的数据处理优势
系统化的数据预处理、验证和筛选流程是 AM-Thinking-v1 的另一大优势。在数学问题答案验证方面,通过 DeepSeek-R1 生成多个响应并进行一致性比较,结合 o4-mini 的辅助判断,能够准确地发现并修正原始数据集中的错误答案。例如,在某个数学数据集中,一道关于二次方程求解的问题,原始答案标注为 “x = 3”,但通过 DeepSeek-R1 生成的多个响应中出现频率最高的答案是 “x = 2”,经 math_verify 判断与 o4-mini 生成的答案 “x = 2” 等价,于是将原始答案修正为 “x = 2”。这一过程有效地提高了训练数据的准确性,为模型学习正确的数学知识提供了保障。在查询过滤方面,利用 LLM 分析并过滤掉描述不清晰或不完整的查询,使得训练数据更加清晰、准确,便于模型理解和学习。同时,对低质量响应的过滤方法,如基于困惑度、N-gram 和结构的筛选,进一步确保了训练数据的质量,提高了模型学习效率和推理能力的提升效果。
模型可部署性优势
AM-Thinking-v1 作为 32B 规模的模型,在保持强大推理能力的同时,具有显著的可部署性优势。与大型 MoE 架构模型相比,其在服务器成本方面更具竞争力。32B 模型对硬件资源的需求相对较低,普通的服务器配置即可满足其运行需求,无需配备专门的高性能计算集群,降低了部署成本。在推理延迟方面,32B 模型能够在相对较短的时间内给出响应,满足实时性要求较高的应用场景。例如,在处理用户请求时,32B 模型的平均推理延迟可能在几百毫秒到几秒之间,而大型 MoE 模型由于其复杂的架构和庞大的参数量,推理延迟可能达到数十秒甚至更长,这大大影响了用户体验。在能源消耗方面,32B 模型的能耗相对较低,在长期运行过程中,能够节省大量的能源成本。此外,通过模型优化技术,如量化、剪枝等,还可以进一步提高其可部署性。例如,对模型进行量化处理,将模型参数从 32 位浮点数降至 16 位或 8 位,能够减少模型的存储空间和计算量,提高模型的运行效率。同时,也可以采用知识蒸馏技术,将 32B 模型的知识蒸馏到更小规模的模型中,进一步降低部署门槛,使其能够在资源受限的设备上运行,如移动设备、嵌入式设备等,从而将高性能的推理模型更广泛地应用于各个领域和场景。
总结
通过对AM-Thinking-v1 的 Post train 过程的了解,我们可以对中等规模模型在推理领域的发展有一个全新的认识。它以 32B 的规模,在数学推理和代码生成等任务上展现出媲美甚至超越部分大型 MoE 模型的能力,这可以认识到模型规模并非决定推理性能的唯一关键因素。合理的训练方法、精细的数据处理流程以及创新的后训练框架设计,同样能够极大地挖掘模型的推理潜力,使中等规模模型在实际应用中取得良好的收益比。对这一点,对标我去年 32B 模型项目的实战,这是有共鸣的。
论文中数据处理方法的详尽阐述给我留下了深刻印象。从数据收集的广泛性与多样性,涵盖数学、代码、科学等多个领域的数据集,到查询过滤的严谨性,如去除低质量查询、验证数学问题答案正确性等操作,再到合成响应过滤的科学性,基于困惑度、N-gram 和结构的筛选方法,处处体现出研究者们对数据质量的高度重视。这让我明白,高质量的数据是模型推理能力提升的基石,只有在纯净、准确、相关性强的数据基础上,模型才能更好地学习知识、掌握推理技巧,进而生成高质量的推理结果。
同时,后训练框架的详细介绍也让我受益匪浅。监督微调阶段的采样策略、训练配置参数的选择依据,以及强化学习阶段的难度适中查询筛选、分阶段训练策略等,环环相扣。研究者们通过精心设计的后训练流程,将监督微调和强化学习的优势充分发挥并有机结合,使模型在推理能力上实现了质的飞跃。这种创新的后训练框架不仅为 AM-Thinking-v1 的成功奠定了基础,也为其他中等规模模型的开发,提供了极具价值的范例,这非常具有中等参数量模型在实际私有化落地的参考意义。要感谢这个团队的分享。
在实验与评估部分,研究团队通过详细的性能数据对比和深入的结果分析,直观地展示了 AM-Thinking-v1 的优势与不足。看到 AM-Thinking-v1 在 AIME2024、AIME2025 和 LiveCodeBench 等基准测试中的出色表现,我不禁为其在数学推理和代码生成任务上的强大能力感到欣喜。而它在 Arena-Hard 通用聊天任务中与顶级模型的差距,又让我对模型的局限性有了清晰的认识。这启发我在今后的项目中,既要关注模型的优势发挥,还要深入分析其不足之处,从多个角度去优化模型性能,使其在各类任务中都能有更均衡、更出色的表现。
尽管 AM-Thinking-v1 在 benchmark 中取得了显著的成果,但它仍存在一些局限性。首先,模型对结构化函数调用、工具使用等支持不足。其次,安全对齐工作尚处于初步阶段,需要进一步的红队测试和改进。模型可能会产生一些不符合伦理道德或存在安全隐患的回答,如在回答涉及隐私、暴力等问题时,可能给出不当的建议。最后,在低资源语言和特定领域任务中的性能可能有所变化。对于一些数据稀缺的语言或领域,模型的推理能力可能不如在高资源语言和通用领域中表现得那么出色。例如,在处理一些少数民族语言的文本推理任务时,由于训练数据中缺乏足够的该语言样本,模型可能无法准确理解和生成相应的文本。
总之,这个关于 AM-Thinking-v1 的研究让我对中等规模模型在推理领域的发展有了全面、深入且清晰的认识与共鸣。