基于大夫复兴和 ChatGPT 复兴,让谈话模型成为大夫供给丰富且准确的问诊。
在调理领域,大规模谈话模型(LLM)具有广阔的应用潜力。尽管像 ChatGPT 这样的谈话模型能够天生内容详实、表述流畅、逻辑清晰的复兴,但其在回应患者描述症状时,缺乏专业性和对患者输入的精确解读。其复兴常常包含多种可能性,并以较高层次的建议形式呈现,但往往缺少深入的上下文理解能力,使得其帮助患者的具体情况有限。相比之下,现实世界中大夫与患者的互动数据能够更准确地反映调理情景的复杂性,并供给准确无误的诊疗建议,具有极高的专业性。然而,由于时间的限制,大夫的回应常常简洁至不能充分传达信息,甚至有时会显得不连贯。若仅依靠这些数据来训练模型,得到的模型难以流畅地应对多样的指令或对话,其天生的回应也会显得短小、表述不佳,有时信息含糊,这对患者并不友好。香港中文大学(深圳)和深圳市大数据研究院所在的王本友教授团队利用指令微调和强化学习在 ChatGPT 和大夫的复兴中找到结合点,训练并开源了一个新的调理大模型 ——HuatuoGPT。HuatuoGPT 致力于通过融合 ChatGPT 天生的 “蒸馏数据” 和真正世界大夫复兴的数据,以使谈话模型具备像大夫一样的诊疗能力和供给有用信息的能力,同时保持对用户流畅的交互和内容的丰富性,对话更加丝滑。
论文地址:https://arxiv.org/pdf/2305.15075.pdfgithub 地址:https://github.com/FreedomIntelligence/HuatuoGPTDemo 地址:https://www.huatuogpt.cn/ 该论文提出的谈话模型训练方法可以结合大夫和 ChatGPT 的数据,充分发挥它们的互补作用,既保留真正调理数据的专业性和准确性,又借助 ChatGPT 的多样性和内容丰富性的特点。HuatuoGPT 介绍
1. 混合数据集微调HuatuoGPT 利用了四种不同的数据集,分别如下:蒸馏 ChatGPT 指令数据集(Distilled Instructions from ChatGPT):这个数据集受到 Alpaca 模型创建指令集的方法启发,从 ChatGPT 中提炼出调理相关的指令。与之前工作不同的是,本方法还加入了科室和角色信息,根据采样的科室或角色天生符合条件的指令数据集。真正大夫指令数据集(Real-world Instructions from Doctors):这个数据集来源于真正大夫和患者之间的问答。大夫的复兴通常简洁且口语化,因此本方法通过润色以提高其可读性。蒸馏 ChatGPT 对话数据集(Distilled Conversations from ChatGPT):这个数据集通过为两个 ChatGPT 模型供给共享的对话背景,让它们分别模仿大夫和患者举行对话。真正大夫对话数据集(Real-world Conversations with Doctors):这个数据集来源于真正大夫的对话,但对大夫的复兴利用模型举行了润色。这些数据集共同为模型供给了一个统一的谈话模式、大夫的诊疗能力以及指令跟随能力。2. 基于 AI 反馈的强化学习为了进一步提升模型天生的质量,HuatuoGPT 还应用了基于 AI 反馈的强化学习技术(RLAIF)。利用 ChatGPT 对模型天生的内容举行评分,考虑内容的用户友好程度,并结合大夫的回答作为参考,将大夫复兴的质量纳入考量。利用 PPO 算法将模型的天生偏好调整到大夫和用户之间的一致性,从而增强模型天生丰富、详尽且正确的诊疗。实验结果在评价 HuatuoGPT 的机能表现上,团队成员采用了主动评价和人为评价两种方式相互验证,在单轮问答场景和多轮交互式诊疗场景中分别举行了评价。
图:单轮问答场景的主动评测结果针对单轮问答场景,团队成员精心收集了涵盖 10 个调理领域意图的 100 个问题,并利用 GPT-4 举行主动评价。具体来说,团队供给了两个模型对同一问题天生复兴,并利用 GPT-4 对每个模型的复兴举行分析和打分。最终的测试结果显示,相较于基于 LLaMa 和 ChatGLM 的开源中文调理模型,HuatuoGPT 表现显著优秀(以 HuatuoGPT 为基准)。这一优势得益于 HuatuoGPT 同时利用了从 ChatGPT 蒸馏的数据和真正世界数据举行训练,并借助来自 ChatGPT 和专业大夫的混合反馈举行了优化。此外,HuatuoGPT 在总体机能上甚至超过了 GPT-3.5-turbo。
图:多轮诊疗场景的主动评测结果对于多轮问诊场景,团队成员收集了涵盖 20 个科室的 100 个多轮对话举行了评价。评价结果显示,HuatuoGPT 不仅全面优于目前的开源中文调理模型,而且在大部分科室的表现上均优于 GPT-3.5-turbo,这为 HuatuoGPT 在处理更加复杂的多轮问诊场景中的优异机能供给了有力的证据。在人为评价方面,团队成员利用了主动评价中的样本举行评价验证。团队成员邀请专业大夫为模型的输出结果举行人为评价。下表是单轮问答场景和多轮诊疗场景的评价结果。评价结果表明,无论是单轮的人为评测还是多轮的人为评测结果都与主动评价的结果保持了一致,这充分验证了模型机能评价的一致性和可靠性。
表:单轮问答场景人为评价结果
表:多轮问诊场景人为评价结果
访问方式
可以通过识别此二维码来访问最新版的华佗 GPT。
彩蛋:团队还开放了 HuatuoGPT 的前置工作 Huatuo-26M 调理问答数据集(并不是 HuatuoGPT 的训练数据)https://github.com/freedomintelligence/huatuo-26m ,总共 2600W 的调理问答数据全部开源到到了 HuggingFace,如果需要清理好的干净数据请发邮件至 [email protected] ,请注明单位和承诺只用于科研目的。包括 Huatuo-26M 在内的三个公开的调理问答数据集,HuatuoGPT 的 zero-shot 机能超过 GPT 3.5 turbo(ChatGPT)、ChatGLM 和已有的调理 GPT,甚至远好于全微调的中等大小的 T5 和 GPT。
澄清:HuaTuo 也是哈工大 SCIR 实验室的调理 GPT 的名字,非常感谢哈工大 SCIR 的开源模型对开源社区的贡献。非常遗憾出现重名,其已经更名为本草(BenTsao)。
原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/28325