夸克健康大模型万字调研报告流出：国内首个！透视主任医师级「AI大脑」背后的深度工程化

大模型的能力再一次被行业验证！ 7月23日，夸克健康大模型在业界引起广泛关注：其成功通过了中国12门核心学科的主任医师笔试评测，成为国内首个完成此项专业考核的AI大模型。为深入解读其技术路径，我们分享一份关于夸克健康大模型的深度调研报告。

大模型的能力再一次被行业验证！7月23日，夸克健康大模型在业界引起广泛关注：其成功通过了中国12门核心学科的主任医师笔试评测，成为国内首个完成此项专业考核的AI大模型。为深入解读其技术路径，我们分享一份关于夸克健康大模型的深度调研报告。

（一）调研摘要

（二）推理数据情况特色

（三）推理数据产线一：冷启动数据与模型微调

（四）推理数据产线一：推理强化学习训练

（五）推理数据产线二：高质量不可验证数据集

（六）强化学习推理系统：高质量推理数据质量评估

（七）强化学习推理系统：多阶段训练

（一）调研摘要

第一，通用大模型能力虽快速增长，但要在高专业度的健康医疗领域“炼成”性能高且可靠的推理模型，仍极具挑战。业界主流方向早期由DeepSeek R1验证有效。当下，或蒸馏DeepSeek R1模型数据，或在小数据集上探索较为常见；然而，在选择合适预训练模型的基础上，从头设计并搭建整套流程，并用于业务一线，较为罕见。尤其在健康医疗领域，自建整套流程化系统，能够明确模型从哪些数据，以何种方式学到哪些知识，哪个环节学得不好；不仅提高性能，而且能提高可解释度和信任度。调研发现，夸克健康大模型直接支持搜索业务一线，并支持智能体夸克健康助手、夸克深度研究产品（仅开放试用）。

第二，高质量的思考数据（Chain-of-Thought, CoT）适合作为推动模型形成强化学习推理范式的基础素材已是共识。强化学习通过“结果导向、过程探索”的范式，可在训练中激发模型，也是共识。推理模型效果上限受制于多个与数据强耦合的技术节点。调研发现，夸克健康大模型团队认为：在已知目标结果（如诊断结论）的情况下，由于模型已经在真实医生的思考数据中学习到初步推理能力（高质量冷启动数据），再用强化学习方法有效激发模型探索出多样的推理路径，从而自主找到最适合模型的推理路径，进一步拔高模型推理能力上限，在多阶段训练方法中特意设计出筛选优质数据的方法，进而与人工难以覆盖的部分共同努力提高数据质量，可以极大缓解医疗数据人工标注的成本。

调研发现，在后训练阶段，他们精心设计多种多阶段训练方法（可以是模型能力任务的多阶段，可以是病药术检任务分别开展的多阶段，可以是筛选数据的多阶段，也可以是训练方法的多阶段），与此同时，配合大量实验，拔高模型学习能力的空间。夸克健康大模型团队对思考数据的观测、分析、筛选等操作使用多种类型的模型，如验证器判断结果准确性，过程奖励模型和结果奖励数据评估推理质量，用多维度综合手段以提升可控性、可信度和专业度。

第三，追求推理模型效果长期提升的雄心，必须落实于有耐心建设提高数据与模型质量的“基础设施”。调研发现，夸克健康大模型团队的基础设施包括：

第一项，大规模（百万级）医学知识图谱，以及带有ICD编码的《夸克医学术语集（Quark Med OmnisCT）》。

第二项，推理数据生产线（下文称“数据产线”）。团队认为，破解困局需自建定制化产线，即构建一条满足“适配”“效率”，而非单纯“为了提高质量而提高质量”的产线。可将数据分为可验证数据与不可验证数据两种不同类型，并设计两条平行的数据产线。该产线既产出高质量数据，也“同步产出”模型。端到端强化学习，既融入产线，也融入模型系统。

第三项，强化学习推理多阶段训练系统，在此基础之上，形成极致工程化。

调研发现，若想提高医疗推理模型的最终效果，需重视模型训练，更需要在数据产线上投入更多精力。从医疗认知的角度出发，来构造数据和任务目标，再根据数据类型和任务目标设计合适的多阶段训练方法。

（二）推理数据情况特色

临床思维是医生在面对患者时，通过有目的的提问、信息收集和逻辑推理，逐步形成诊断和决策的核心过程。若健康医疗大模型希望在临床场景中发挥价值，就必须“内化”推理框架。

在数据结构设计上，健康医疗推理数据采用三元组形式，三个要素分别是：

第一，问题（Question）；

第二，思考过程（Chain of Thought, CoT）；

第三，最终答案（Answer）。

“问题，思考过程，最终答案”下文简称“问思答”，同时含有这三种元素的数据称为“整组数据”。整组数据的价值在于，它不仅要求模型能够得出正确答案，还要求其过程合乎医学逻辑，可解释，可信可复现。思考过程质量越高，模型越能体现其推理能力，进而支撑高水平的可解释性。“问思答”整组数据的获取成本远高于普通问答数据，是核心数据资产，若进一步引入时间序列等结构复杂性维度，构造难度将指数级上升。此外，医疗健康场景常存在“一题多解、路径多样”的特点，提出了更高难度的解决方案的需求。

1.问题（Question）

在健康医疗领域，高质量提问激发模型高质量思考与回答。问题（Question）通常伴随对自身身体状况的自述信息，具有较强的上下文描述性与情境还原度。或者说问题（Question）是含有健康医疗背景情况与提示词的完整问题，例如，常见问题包括：“我打喷嚏、流鼻涕、嗓子疼，并接触过流感病人，该吃哪种药？”问题不单单是一句话，而是含有健康医疗背景情况与指令的结构化数据。此认知会影响过程奖励模型的设计。

调研发现，夸克健康大模型团队从问题（Question）开始，建立完备的标签体系。标签体系是将健康医学概念标准化、结构化的工程手段。正确使用概念是思维的基础，这就要求定义要清晰，内涵要确定，语境要明确。在医疗领域，对概念的使用关系到对疾病的认识，进一步影响诊断与治疗（姚树坤《临床思维》）。

夸克健康大模型标签体系指的是，对每个问答样本中所涉及的关键信息进行标准化、结构化的标注过程。一个可以被模型独立识别、带有明确健康含义的最基本信息片段。

比如，医学实体：疾病名称（远极骨折），症状（移位、肿胀），治疗（石膏固定），药物（非甾体抗炎药）等；

属性信息：恢复周期（4周）等；

意图类型：表示用户希望达成的目标，健康咨询、找药、选择治疗方案等。

这一标签体系的构建基础来源于医疗问答平台的真实信息与夸克搜索引擎日志，通过自动术语提取、属性分类与意图识别等技术，将用户问题解析为标准化的结构字段，最终形成标签框架。

调研发现，夸克搜索历时五年，沉淀近千万日活搜索日志、大规模（百万级）医学知识图谱，以及带有ICD编码的《夸克医学术语集（Quark Med OmnisCT）》，为标签体系与术语标准化提供基础。自然语言中的医学表达具有极强的多样性与模糊性，比如“冠心病”“冠状动脉粥样硬化心脏病”本质是同一种疾病，但表达不同。使用标准术语集，可以将这些语言的不同表达统一映射到唯一编码，确保模型的一致理解，减少误判或信息丢失。同时，该标签体系支持结构化筛选。标签可作为“索引”或者“字段”，调用特定标签子集，提高质量控制精度，比如，一级标签（用户意图），二级标签（药物治疗）。

另外，一方面标签需与医学指南与术语体系保持同步，支持层次化扩展，另一方面，如果标签体系数量仅百余，面对罕见病、亚专业细分场景就会捉襟见肘。因此，标签体系是问题（Question）多样性的基础，也是庞大数据细颗粒度的管理工具，直接决定了医疗健康大模型在长期演进中的上限。

2.思考（CoT）

模型不仅看到病历和答案，还要学习“医生是如何思考并得出结论”的全过程，即“问题-思考过程-答案”（问思答）。而健康医疗知识天然有难易之分，思考（CoT）也应区分难易。引入划分难度的构造方法，使模型在训练过程中逐步适应和掌握越来越难的医疗问题，达成从简单到高难度的能力跃迁。调研发现，夸克健康大模型团队在此理解之上，构造“思考行动体系（Action）”，深入刻画和表达健康医疗特有的思维路径。该体系的提出，部分解决了长期以来困扰医疗大模型训练的关键问题之一——如何衡量思维过程质量。

仅靠给出最终答案无法判断模型是否真正理解，将思考过程拆解为可观测的“思考行动（Action）”——典型思考行动包括问题重述、知识回忆、问题反思、总结等——用于精确描述思考的每一步的具体行动，有助于了解思考链里的细节。另外，思考行动提供一种共同语言，方便拔高推理质量。比如，假设思考（CoT）难度越高，问题（Question）难度也越大，以此原则筛选有难度的思考数据，进而筛选出与思考过程配套的问题（Question）。

后续设计多种筛选机制，会在下文中介绍。

3.最终答案（Answer）

由答案类型入手，将数据分为可验证数据与不可验证数据两种不同类型，它们在获取、筛选等方面存在显著差异，需分开讨论。

第一类，可验证类的答案，相对简洁，通常为医学实体或明确判断。对于可验证的答案（Answer），用验证器模型（Verifier）与标准答案（Groundtruth）进行比对判断。

第二类，对于不可验证任务，如医疗建议、健康科普等长文本，内容面广，语言多变，逻辑各不相同，标准答案（Groundtruth）难以唯一。仅凭奖励模型对单一维度打分，无法完全捕捉医学语境下的细致与专业；需要通过对正确性、完整性、合理性分别建立偏好奖励模型打分，并依据分数筛选数据与反馈，或使用规则、验证器与奖励模型协同发挥作用。

另有，健康医疗无思考数据，这类没有思考过程的数据，有两种处理方法：

第一，以多科室全职专业医生团队精细标注的方式，构造正确、权威、复杂健康医疗内容问答集等高质量数据，或团队全员标注。人工标注可在初期数据资产贫乏时，快速补充“粮草”。

第二，用SOTA语言模型对问题（Question）生成候选答案，这类数据有助于弥补多领域知识，提升训练模型问答水平（逻辑性、全面性），可低成本高效获得。

截至目前，上文提到的所有数据种类，都可以用奖励模型来筛选高质量数据。奖励模型既是强化学习的算法组件，又是筛选数据的工具。

综上，调研组认为：伴随强化学习技术在模型推理能力上的助力，整个推理微调与强化学习系统的极致工程化会成为提高壁垒的新竞争。

两条平行数据产线逐步关键训练流程为：

推理数据产线一（可验证）

第一步，冷启动数据；

第二步，冷启动模型微调；

第三步，推理强化学习；

第四步，可验证数据蒸馏；

第五步，高质量可验证数据集。

推理数据产线二（不可验证）

第一步，不可验证数据蒸馏；

第二步，高质量不可验证数据集。

（三）推理数据产线一：冷启动数据与模型微调

冷启动数据需要专业医生精准标注，为后续强化学习阶段提供稳定起点，避免从一开始就带来“混乱”。构造冷启动数据，使用SOTA语言模型生成高质量问和答及完整推理链（即思考过程），再由职业医师逐字逐句逐条校验，确保健康知识与权威一致；验证医学事实、诊疗论证逻辑和建议的合理性，确保逻辑可靠、无风险；同时，数据团队确保输出按一定的格式，格式便于符合后续奖励模型评估规范。

调研发现，夸克健康大模型团队对冷启动数据质量给予极高重视。原因在于，冷启动阶段的数据，模型此前从没“见过”。一旦引入逻辑错误，后续会连续出错，形成“早期污染”；同时，强化学习会进一步放大错误，且用过程奖励模型识别和修正，成本高昂。不如图难于易地处理。团队曾遭受教训，后被医学专家指出时才得以重视。

调研发现，夸克健康大模型团队采用未经任何下游微调的预训练模型为起点，完全避免使用已经经过某一类任务微调过的模型，会对医疗领域模型起步产生的干扰。他们认为，当预训练的模型接近于“空白”初始状态，模型数据分布的多样性强，信息熵大，后续提高空间大。

他们观察到，此阶段模型展现出一定的适应性：

第一种，当健康状况信息不完整时，模型会先罗列与现有症状相关的多种疾病，再主动推演可能缺失的症状或风险因素，用以补齐证据链后再做判断。

第二种，当输入包含高度特异的关键体征时，模型首先锁定具备显著鉴别力的候选疾病种类，随后用其余症状进行核对，快速完成推理。

这种现象的存在，说明模型能根据“题干与题面”动态运用不同思考方式，而非呆板套用固定答题模板。即便在冷启动阶段，模型已具备一定的初步推理行为能力（抓住焦点，思考路径确定），为后续工作提供了可观测的依据。这种观察属于捕捉到“推理的早期觉醒机制”，增加对模型推理的理解。

（四）推理数据产线一：推理强化学习训练

调研发现，推理数据产线中用强化学习方法训练，得到一个能力上限极高的推理模型是核心，后续需要对该模型进行蒸馏，所以，拔高该模型性能是整个系统最考验模型创造力的阶段，训练时间最长，资源投入最大。这条推理数据产线同时也被称为“可验证数据产线”。

本阶段训练样本，可按此五类划分：基础知识、疾病诊断、手术、药物药品、检验检查。这五类数据均具有明确的医疗语义，可以按五类任务划分验证器模型，或多任务组合建模，或所有任务统一模型，具备高度灵活性。对于可验证的答案，用验证器模型（Verifier）与标准答案（Groundtruth）进行比对判断，直接且稳定。为策略模型提供清晰监督信号，指导其向更高准确性的回答前进。

另外，也可以在构造高难度“问题”的同时构造高难度的“思考”。在已有医生构造的病例数据中，选取结构完整、信息丰富的住院病例作为基础材料；针对这些病例中已有的答案，去除部分“泄题”性描述，即那些直接透露最终关键结论的信息；保留对结论有关键参考价值，但不直接指向答案的症状、体征、检查结果等内容。高难度问答数据特征之一是，需多步推理才能得出结论。

调研发现，在该产线阶段，以激发健康医学知识运用为目标，提升回答结果的多样性与覆盖度，增强其对问题潜在解空间的探索能力。在强化学习阶段，策略模型执行几十次输出采样（比如，每题生成50个候选回答），后期实验证明，这一采样策略有效拓展了策略模型的行为空间，显著提升了回答结果的多样性与覆盖度，增强了其对问题（Question）潜在解空间的探索能力。每轮迭代中同步产出阶段性最优的策略模型与验证器。策略模型设计为统一模型，不依赖任务类型切换。

为了拔高学习潜力，策略模型于百万次探索，在输出的数据中筛选有难度的数据，一轮一轮提高筛选数据的难度。这种“筛选一次难题数据，提高一次模型做难题的能力”的方式，源源不断提供给模型足够好、足够难的数据，用数据质量的提升逼近模型能力的上限。后期实验证明，这一采样策略有效拓展了策略模型的行为空间。

从推理数据产线一（可验证）中产出阶段性最优的策略模型，对其进行数据蒸馏（问题，思考过程，答案）。可以认为，获得该阶段策略模型的目的是为了取得可验证的高质量数据。现有高质量策略模型，再通过数据蒸馏，得到高质量可验证数据集，进而用数据来迁移其医学推理能力。

（五）推理数据产线二：高质量不可验证数据集

首先，高质量不可验证数据集的原始思考数据是通过数据蒸馏而来。不可验证数据所用问题（Question）来源于医生检查过的高质量问题、医学论坛提问、夸克搜索日志，引导模型生成具备思维过程的答案输出，具体方式是对SOTA语言模型（OpenAI O3和DeepSeek R1）进行数据蒸馏，显式引入思维过程数据。同时，此类数据的构造需要保障数据在表达多样性与推理复杂度上的均衡分布。

其次，用偏好奖励模型筛选不可验证类答案（Answer）。由于该类型数据通常为长文本（语义复杂、表达多样），标准答案不唯一。此外，人类打分容易受到个体差异、打分尺度不一影响，导致稳定性和可复现性差，因此可以采用强化学习中的偏好学习的方法。不可验证问题较为开放，可包括全面性、无害性、相关性、逻辑性、正确性等多个方面。因此，需引入多个维度的偏好模型对答案进行打分。其中每个奖励模型关注的角度不同（正确性、有用性），采用偏序建模方式输出判断信号，筛选出质量最优的答案作为最终输出或用于后续训练反馈信号。经过上述多轮筛选，得到下一阶段数据。最终形成“具挑战性且质量优秀”的思考过程数据样本集。

另外，也有一些方法同时适用于可验证和不可验证数据。比如，通过筛选答案，间接筛选正确的整组“问思答”数据；以“最终答案”的正确性作为问题（Question）筛选衡量标准，对应的思考数据仅在答案正确时予以保留，答案错误则整组“问思答”数据作废；进而形成“正确答案样本集”。

综上，为了筛选高质量数据（可验证与不可验证），使用多种类型的组件：验证器、偏好奖励模型、过程奖励模型。健康医疗领域还有一个特色问题——“多解、多路径”问题。调研发现，夸克健康大模型团队对此高度重视，提出了一套针对性方法。

（六）高质量推理数据质量评估

健康医疗中“多解、多路径”问题，可概括为：同一不完备描述的症状，可能对应多种疾病（比如，仅把发热作为主线索，可涉及几十种甚至上百种疾病，鉴别诊断时，根据主线索围绕3-5个疾病展开为宜）；诊疗方案有多种合理选择，不同医生可依据不同线索和特征得出多种不相同，但均具有合理性的结论。

模型生成不在预设正确答案集合中的内容，这类输出并不意味着错误，反而可能是高质量、有价值的补充信息，应给予正向奖励。也就是说，对于那些虽未出现在标准答案中、但具有积极意义的结果，可以归为“增益型”（nice-to-have）结果，亦应识别其价值，并给予相应评价分数，鼓励模型输出更全面、富有启发的答案。

于是，在推理模型的训练过程中，需要既能够判断正确答案（验证器），又能处理模型有时生成的不在预设正确答案集合中的内容（生成式模型）。这种多个解法、多种路径带来的开放性和不确定性，使得训练数据中的答案不能被作为唯一评判依据，这样会产生错判或者无法捕捉到细节奖励信号。

健康医疗中的“多解、多路径”问题，尤其值得注意的是，即便已经获得一个答案，也存在殊途同归的情况，答案的背后存在多个推理的思考路径（CoT），且有好坏之分。在医疗的规范性、信任度、可解释性的要求下，需要更好的路径，更多维度的奖励，鼓励模型具有形成高质量诊疗思考过程的能力。因此，需要从“推理过程合理性”与“结果质量”两个维度共同考量。

第一，如何设计针对最终答案（Answer）的结果奖励模型（ORM）？

调研发现，由于强化学习过程中奖励模型的计算成本也是一个重要的开销，不能完全依靠模型，需要设计不同类型的奖励组件（基于规则的验证器、参数规模大小不同的模型），甚至部分奖励信号可以完全基于规则，以此低成本地拓展模型能力边界，而不需要人工标注。

对于明确的唯一的答案（比如诊断结果是某种疾病）设计基于规则的验证器，用于评估策略模型输出的答案质量，相当于规则打分器。该验证器需要使用预构建的百万数量级ICD编码医疗术语集，进行结构化比对与相似度评估。需要注意的是，术语集是为每一个医学概念提供唯一编码，并定义其语义内涵、属性特征以及与其他概念的结构关系的重要工具。

具体而言，设计三类规则来评估策略模型输出内容与医学知识体系的一致性：

1.路径相似度：衡量策略模型输出中的实体在知识图谱中相对于目标概念的路径接近程度；

2.图结构相似度：基于医学实体之间的距离关系，度量其在知识图谱的图结构中的语义接近程度；

3.术语相似度：通过分析名称及其属性信息的匹配度，判断两个术语在语言层面的相似性。

三类相似度指标按照加权方式进行融合，并经归一化处理，输出一个综合得分，作为最终的验证评分。

验证流程如下：首先将策略模型输出的医学答案解析为若干具有语义意义的原子实体（如“上呼吸道感染”被拆分为“上呼吸道”（部位）与“感染”（形态学改变）。每个原子实体映射到ICD术语集中，获得对应编码。随后，计算这些原子实体与知识图谱中标准概念之间的相似度，只要任意一个原子实体命中，即可获得部分得分，进一步提升评估的宽容性。最终得分作为奖励信号反馈至策略模型，引导其优化生成策略。

实际情况中，病药术检的部分任务有明确答案标签，部分任务无明确答案标签，比如多解、多可能性解，还需要对答案的整体性进行评价奖励，这部分采用生成式奖励模型。

于是，设计奖励系统X Clinical Judge的时候，需要考虑将两种情况都覆盖，用SOTA模型辅助人工构建打分示例数据，用该数据教会验证器和奖励模型打分逻辑。

对于有答案标签的问题，除使用SOTA语言模型的输出作为评分参考外，还可利用标签训练结果验证器（Verifier），判断策略模型输出与标准答案的一致性。因为答案标签的获取成本较高，所以，对于无答案标签类型的问题，采用SOTA语言模型（比如，DeepSeek R1）生成评分与简短评价，作为结果奖励模型训练所用的打分示例数据。两类数据融合训练，获得使用一套共享参数的生成式评分模型。奖励模型输出包括两个关键维度的评分结果——正确性分数与全面性分数，并配有简洁明确的语言评价，用于支持模型输出质量的可解释性。策略模型据此调整生成策略。最终，结果奖励模型在医疗多解、多路径的问题里，做出可信、可解释的评估。

第二，如何设计“思考过程”奖励模型（PRM）？

诚然，模型不仅要“答（Answer）对题”，还非常需要“讲清楚思路（CoT）”。然而，缺乏现成答案标签，无法直接监督训练过程奖励模型。

调研发现，团队采取了人工提炼思维模式设计提示词的方式构造训练数据，从而训练“过程奖励模型”突破难点。

首先，医学专家阅读大量模型输出样本，根据临床思维，提炼出若干类“思考方法”（比如排除法、反推法等），并且明确区别病药术检每种任务过程中关键的推理方式。把这些不同类型的思维模式总结为语言模板（Prompt），输入给SOTA语言模型，得到对“思考过程”的打分数据（含简短文字评价），用于训练过程奖励模型。再用过程奖励模型对思考数据合乎医学逻辑、结构清晰、信息完整的程度打分，并生成相关文字评论，本质是让该模型学会评估质量。这些数据不会被用于直接微调策略模型产出最终答案的能力，以确保过程奖励模型评估的独立性。

过程奖励模型和答案验证器训练完毕后，投入使用。

首先，在强化学习过程中，对同一个问题（Question），策略模型每次给出多组“思考（CoT）+最终答案（Answer）”后，使用过程奖励模型和答案验证器会分别对“思考+答案”进行两个维度的（合理性与答案准确性）打分，加权计算之后，得出一个综合评分。

其次，这一方法也可以在数据筛选过程中，强调“思考过程应支撑结果”的一致性原则。如果模型按照思维引导，正确完成了思考过程，但最终生成的答案仍然错误，则视为思维与结果逻辑断裂，此类样本将被剔除，或改写为符合一致性原则的样本再进行使用。

在不同类型的医疗任务中，“答案的决定性”与“思考过程的重要性”所占比重不同，所以“思考（CoT）”和“最终答案（Answer）”的评分在综合打分中应赋予不同权重。

最终，使用GRPO算法，利用多组采样及其综合奖励，用于计算策略优势（Advantage），再经由策略梯度优化策略模型参数，从而提升模型在复杂医疗任务中产出清晰推理链条的能力。在训练进程中，策略模型会越来越倾向于输出有条理、有依据、有医学常识支撑的思考过程和诊疗建议，从而具备类似高水平医生的推理能力，而不是“拍脑门”的猜答案。

另外，引入一致性验证器模型，对思考路径与最终答案之间的一致性进行二次校验。模型可能通过偶然或非健康医疗规范路径得出正确结论，如果此类情况在训练中被错误地赋予奖励信号，长期而言，这将严重扰乱模型推理能力的形成。

第三，对抗“作弊”。

在训练过程中，策略模型会利用规则漏洞“作弊”（hacking），比如，生成结构表达上合理优雅，但本质错误或欺骗性的回答。一旦这类回答没有被准确识别，策略模型将持续朝错误方向优化，导致资源浪费，且模型能力无法得到实质提升。对此，介入方式是人工标注负面案例，补充样本，迭代训练验证器。即发现不同作弊手段并有针对性迭代，随着验证器的改进，模型作弊空间被逐步压缩。

作弊现象包括，但不限于：

第一种，模型在简单任务上“快答”，即直接输出结论，无推理过程，继而在复杂任务上沿用同样策略。

第二种，模型为获取高分，重复高评分答案或在同一回复中多次强调同一结论，以最大化累计奖励。

第三种，模型输出看似合理，但事实性错误的答案，比如，并不存在的疾病。这类错误往往不易被没有医学专业背景的普通用户察觉，但在专业医生审阅下会立即暴露。在健康场景下，具有较高风险隐患。

调研发现，强化学习训练过程初期，不宜引入过多复杂评判，需提供结构清晰、判断标准单一的参照信号，避免策略模型在尚未稳定时被复杂标准干扰，走偏优化方向。

（七）强化学习推理系统：多阶段训练

当模型在此处微调，会有一个较高的起点，原因是微调采用的数据已经过精妙设计（多个阶段的多轮迭代与筛选）。同时，在整个数据产线中，模型和数据并没有压缩与现实世界有关的多领域通用知识，在这一阶段增加此类通用数据，使得模型处理问题的能力更全面，更具备解决现实健康与医疗问题和状况的能力。

健康需求是一种低频刚需，此类产品的用户通常是有健康需求，或处于健康困扰中。模型回答不仅需确保准确性与专业性，更应体现出适度的情感关怀，避免因措辞不当引发用户焦虑。

因此，需要偏好奖励模型对齐风格，方法是先训练奖励模型，选择基于“成对比较样本训练机制（Pairwise）”，学习相对偏好。模型在推理阶段独立地对单个回答给出打分（Pointwise），连续打分，而非分类结果。随后，奖励模型输出生成一个连续实数作为质量评分，用于引导策略模型更新方向。

再次引入数据产线一阶段的验证器，该验证器来源于前一阶段数据产线中的强化学习阶段，具备标准答案或判定规则。此处的再验证，用于防止策略模型经过多阶段的训练后产生遗忘，该步骤在健康医疗领域尤其重要。该训练阶段采用混合训练的方式，偏好奖励模型（RLHF）和验证器补充检验（RLVR），两者共同保障了策略模型能力迭代增长的同时，对医学任务规范性与推理逻辑的长期保持与强化。

综上，夸克健康大模型团队，使用两条平行数据产线产出的高质量训练数据，结合多阶段训练方法，得到具备一定推理能力与可靠性的健康医疗推理模型。

（完）

附录