背景介绍ChatGPT 和 GPT-4 的问世,被比尔・盖茨誉为自 1980 年以来最大的科技革命。近日,相关技术和科研以 "天" 为单位快速迭代,每天都有新的类似 ChatGPT 的模型发布。其中包括 Alpaca、Vicuna、Dolly、Belle、Baize、 Guanaco 和 LuoTuo 等。近期备受关注的是来自香港华文大学(深圳)和深圳市大数据研究院的王本友教授团队开发的 Phoenix(凤凰) 和 Chimera 等开源大谈话模型,其华文效果接近百度文心一言,GPT-4 评测达到了 97% 文心一言的水平,在野生评测中五成不输文心一言。
此外,维护 Phoenix 和 Chimera 大模型的 github 仓库取名为 “LLM 动物园”,其中还包括其他相关即将发布的模型,如医疗领域的华佗 GPT 模型(huatuogpt.cn)、法律 GPT 模型、多模态大模型和检索增强的大模型等。具体请见其 Github 主页的技术报告。
项目地址:https://github.com/FreedomIntelligence/LLMZoo名字的哲学:凤凰和奇美拉阻碍大模型发展最大的瓶颈是没有足够的候选名称可用于命名谈话模型,LLAMA、Guanaco、Vicuna 和 Alpaca 已经被使用了,而且骆驼家族中已经没有更多的成员了。王本友教授团队将多谈话的大模型命名为 “凤凰”。在中国文化中,“凤凰” 通常被视为鸟类之王的象征。正如成语所说,“百鸟朝凤”,表明它能够与说不同的谈话的鸟类沟通,称凤凰为能够理解和说出数百种(鸟类)谈话的模型。更重要的是,“凤凰” 是 “香港华文大学(深圳)”(CUHKSZ)的图腾,开发团队来自这个高校。专门针对拉丁语的 “凤凰” 版本被称为 “奇美拉”。奇美拉是希腊神话中类似的混合生物,由来自利基亚和小亚细亚的不同动物部分组成。凤凰和奇美拉分别代表了东方和西方文化的传说生物。将它们放在一个动物园里,以期望东西方人民之间共同协作,来平民化 ChatGPT,共同打破 Open (close) AI 的 AI 霸权。凤凰的技术特点 Phoenix 模型有两点不同之处:(1)微调技艺:指令式微调与对话式微调的完美结合Phoenix 模型在后训练阶段精妙地融合了基于指令的微调(Instruction-based tuning)与基于对话的微调(Conversation-based tuning),实现了两者优势的有机互补。这一结合使 Phoenix 模型在处理各类问题时具有更高的灵活性和应变能力。以 Alpaca 为代表的基于指令微调方法能够使得谈话模型严格遵循人类指令,有效满足用户的信息需求;以 Vicuna 为代表的基于对话的微调方法则能够提升模型与用户自然交流的能力,提升用户的对话交互体验。凤凰模型将两者结合,不仅提高了模型的实用性,更增强了其在各种应用场景的竞争力。(2)驾驭多谈话:四十余种谈话的全球化视野Phoenix 模型坚持拥抱全球化视野,在预训练(Pre-training)与后训练(Post-training)阶段均广泛运用多种谈话的训练数据。这使得 Phoenix 模型在多谈话场景下浮现出色,能够满足全球使用者的需求。在预训练阶段, Phoenix 模型采用 BLOOM 作为基座模型,相较于仅使用拉丁语系数据训练的 LLaMA 模型, BLOOM 模型在包括拉丁语系和非拉丁语系的多种谈话训练数据上训练而成,因此将其作为基座的凤凰模型对于非拉丁语系用户更加友好。在后训练阶段,凤凰模型的指令数据集和对话数据集都涵盖了超过 40 种谈话的训练数据,进一步拓展了其多谈话的支持能力。因此,凤凰模型不仅在英汉谈话上浮现卓越,还在已评测的十余种谈话中,相较于其他开源模型具备显著优势。实验结果华文团队成员采用与 Vicuna 一致的评测方式,即使用 GPT-4 作为评价模型,对凤凰模型在多种谈话中的性能浮现进行了自动评价。图中展示了 Phoenix 在华文语境下与流行的华文模型的对比结果。Phoenix 超其他流行的华文开源模型(包括 BELLE -7B 和 Chinese-Alpaca-13B 等)。这表明,尽管 Phoenix 是一个多谈话的模型,但在所有开源的华文模型中,它实现了 SOTA 级别的性能。与其他开源的模型相似,Phoenix 面对 ChatGPT 和文心一言等闭源大规模谈话模型时略显逊色(ChatGLM-6B 未开放数据和训练细节,只开源了权重,暂归为半闭源模型家族),但在效果上已能媲美百度开发的文心一言,野生评价中近三成例子比文心一言的输出更好。多谈话除了华文,Phoenix 在多种谈话上浮现优异,包括但不限于西班牙语、法语、葡萄牙语、阿拉伯语、日语和韩语,涵盖了拉丁语系和非拉丁语系的多种谈话。这是因为 Phoenix 在预训练阶段的基座模型、后训练阶段的指令式微调和对话式微调三个方面都采用了多谈话的训练数据,使得其成为真正意义上的第一个多谈话开源类 ChatGPT 大模型,为非拉丁语系的人群带来福音。特别地,Phoenix 模型的基座采用 BLOOM 模型,对商用更加友好,对普及 ChatGPT 至世界各个角落,特别是 OpenAI 限制的国家具有显著意义。想象一下,像灯泡和疫苗等现代科技产品都普及到了几乎所有发展中国家,划时代的 ChatGPT 同样应惠及全球所有人口,这正是 "democratize ChatGPT" 浪潮的应有之意。英文英文方面,在使用 GPT-4 进行评测时,Phoenix-7B 模型的浮现超过了 Vicuna-7B 和 ChatGLM-6B,但略逊于 Vicuna-13B。造成这种差距的原因可能有多方面,一方面是模型大小仅为 Vicuna-13B 的一半;另一方面,作者认为 Phoenix 是在多谈话环境下训练的,因此额外支付了 “多谈话税”(multi-lingual tax),导致其主谈话(英语)的浮现不如专门针对拉丁谈话(英文属于拉丁谈话)的 Vicuna-13B。为了抵消多谈话税的影响,作者将多谈话的基座模型(BLOOM)替换为仅包含拉丁谈话的 LLaMA 模型,以测试其在拉丁语系,特别是英语上的浮现。这个拉丁谈话版的 Phoenix,被称为 “Chimera”(奇美拉)。再次使用 GPT-4 进行测试,Chimera 的浮现达到了 96.6% 的 ChatGPT 水平,略超过 Vicuna-13B 和 BARD 等模型。
野生评测虽然上述的自动评测方法源自 Vicuna 的评测方式,即用 GPT-4 作为评价模型进行评测,但是使用的评测数据无论是类型还是数量都是偏少的。出于对评价可靠性的进一步考虑,香港华文大学(深圳)的团队采用野生评测的方式来评价华文大模型。野生评测的结果与 GPT-4 在华文大模型评测的结果高度一致。野生评价效果顺序为:ChatGPT、ChatGLM-6B、文心一言、凤凰、BELLE 和 Chinese-LLaMA-Alpaca — 这与 GPT 4 的评测一样。这也是首次将 GPT-4 的结果与野生评价结果进行比较的研究。
综上所述,Phoenix 和 Chimera 等开源大谈话模型在华文和多种谈话环境下都展现出了优异的浮现,无论是在华文开源模型中还是在拉丁语系中。这些模型的发展将有助于推动 ChatGPT 技术在全球范围内的普及,让更多人受益于这一划时代的科技成果。
原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/30410