ChatGPT发布一周年了，开源大模型都迎头赶上了吗？

论文旨在成为研讨界和商业领域的重要资源，帮助他们了解开源大模型的当前格局和未来潜力。一年前的今天，ChatGPT 横空出世，人工智能的新时代似乎已经到来。短短两个月，ChatGPT 积累了一亿用户，速度远超 TikTok 和 YouTube 等热门应用；似乎每隔几天就会有新的鉴于生成式人工智能的创业公司出现；以 ChatGPT 和 GPT-4 为核心的智能助手也开始走进各个行业中，帮助普通用户简化工作流程和提高效率。但众所周知，ChatGPT 并未开源，不仅技术细节未知，部分国家和地区也不在 OpenAI 的服务范

论文旨在成为研讨界和商业领域的重要资源，帮助他们了解开源大模型的当前格局和未来潜力。

一年前的今天，ChatGPT 横空出世，人工智能的新时代似乎已经到来。短短两个月，ChatGPT 积累了一亿用户，速度远超 TikTok 和 YouTube 等热门应用；似乎每隔几天就会有新的鉴于生成式人工智能的创业公司出现；以 ChatGPT 和 GPT-4 为核心的智能助手也开始走进各个行业中，帮助普通用户简化工作流程和提高效率。

但众所周知，ChatGPT 并未开源，不仅技术细节未知，部分国家和地区也不在 OpenAI 的服务范围之内。这种封闭性带来了一系列问题：如服务的稳定度，高昂的 API 成本，数据所有权和隐私问题等。因此，与闭源模型相比，开源社区的力量备受期待。虽然，许多基础模型在发布之初仍然无法接近 ChatGPT 的机能，但随着大量技术上的研讨和索求，已经有部分开源大模型或小型专有模型迎头赶上。如图一中所示，在部分工作上，最好的开源大模型已经浮现得比 ChatGPT 更好。

ChatGPT发布一周年了，开源大模型都迎头赶上了吗？

本周，来自南洋理工大学，Salesforce Research，以及新加坡科技研讨局等机构的研讨者们推出了一篇总结性的论文，调研了在各个领域与工作中与 ChatGPT 浮现相当甚至优于其的开源大模型。论文旨在成为研讨界和商业领域的重要资源，帮助他们了解开源大模型的当前格局和未来潜力。

ChatGPT发布一周年了，开源大模型都迎头赶上了吗？

论文链接：https://arxiv.org/pdf/2311.16989.pdf

陈海林 *，焦方锴 *，李星漩 *，秦成伟 *, Mathieu Ravaut *, 赵若辰 *，Caiming Xiong, Shafiq Joty (* 为共同一作)

数据代码：https://github.com/ntunlp/OpenSource-LLMs-better-than-OpenAI/tree/main

ChatGPT发布一周年了，开源大模型都迎头赶上了吗？

I. 综合本领

ChatGPT发布一周年了，开源大模型都迎头赶上了吗？

Llama-2-70B 是开源社区最核心及衍生模型最多的 LLM，其预训练过程运用了包含两万亿 Token 的大规模语料。Llama-2-70B 作为基础模型已经在综合性基准尝试上展示出了极为优秀的机能。而经过了指令微调和对齐的 Llama-70b-chat-70B 则在通用对话工作中浮现出进一步的机能提升，并能在 AlpacaEval（尝试指令跟随本领的数据集）上取得 92.66% 的胜率，领先 ChatGPT 10.95% 的绝对机能。此外，GPT-4 仍是所有 LLM 中的佼佼者，胜率答到了 95.28%。

Zephyr-7B 是由 Huggingface 团队训练的小型语言模型。与 ChatGPT 或者 Llama-2 不同，它运用 Direct Preference Optiomization（DPO，直接偏好优化）完成对齐。在 AlpacaEval 上，Zephyr-7B 取得了 90.6% 的胜率，与 70B 级别的 LLM 浮现相当，同样也胜过了 ChatGPT。在 MT-Bench（尝试多轮对话和指令跟随本领的数据集）上，Zephyr-7B 的机能甚至超过了 Llama-2-chat-70B。

WizardLM-70B 利用自动化构造的大量复杂程度不同的指令数据举行微调，成为 MT-Bench 上得分最高的开源 LLM，得分为 7.71。它同样在 AlpacaEval 上超过了 ChatGPT。

GodziLLa2-70B 把多种专有 LoRA 和 Guanaco Llama 2 1K 数据集与 Llama-2-70B 相结合，在 Open LLM Leaderboard（结合了多个推理和问答工作的数据集）的浮现与 ChatGPT 相当。然而，WizardLM-70B 和 GodziLLa-70B 仍然明显落后于 GPT-4。

UltraLlama 运用了更多样和质量更高的数据举行微调训练，在其提出的基准尝试上（未在上图表中展示）与 ChatGPT 的浮现持平，并在回答需要结合专业知识的问题上超过了 ChatGPT 的浮现。

II. 具体工作上超越 ChatGPT 的开源大模型

1.AI 智能体（Agent）

ChatGPT发布一周年了，开源大模型都迎头赶上了吗？

Lemur-70B-chat 团队索求了训练数据中代码和文本更优的配比。通过在包含 90B Token 和 300K 示例的代码 – 文本混合语料上举行训练和指令微调，Lemur-70B-chat 在能够接收来自环境以及编码工作的自然语言反应以完成目标的设置下，超越了 ChatGPT 的浮现。AgentTuning 结合自行构建的 AgentInstruct 数据集和通用领域指令数据在 Llama-2 上举行指令微调。值得注意的是，AgentLlama-70B 在未见过的智能体工作上达到了与 ChatGPT 持平的浮现。

通过在 ToolBench 上对 Llama-2-7B 举行微调，ToolLLaMA 在工具运用评估中展现出与 ChatGPT 相当的浮现。

FireAct 通过对 Llama-2-13B 举行微调，在 HotpotQA 上胜过鉴于 ReAct 模式的提示式 ChatGPT。

此外，从 Llama-7B 微调而来的 Gorilla 在编写 API 调用方面优于 GPT-4。

2. 逻辑推理

WizardCoder 和 WizardMatch 鉴于 WizardLM，在知识的宽度和广度上对微调运用的指令数据集举行了拓展。实验表明，WizardCoder 在 HumanEval 上比 ChatGPT 浮现更好，提升了 19.1%。而 WizardMath 在 GSM8K 上与 ChatGPT 相比也取得了了 42.9% 的提升。

除了在智能体相关的工作上浮现出色，Lemur 在编程与求解数学题等考察逻辑的工作上机能也得到了显著提升。同时，Lemur-70B 在不经过特定工作微调的情况下，在 HumanEval 和 GSM8K 上的浮现显著优于 ChatGPT。此外，Phi 运用高质量教科书语料作为主要数据举行预训练，使得较小的语言模型也可以拥有强大的本领。从结果上看，参数量仅为 1.3B 的 Phi-1 相比 ChatGPT 在 HumanEval 上取得了约 3% 的机能提升。

3. 长文本本领建模

Llama-2-long 运用 16k 上下文窗口对 Llama-2 举行持续训练。其中 Llama-2-long-chat-70B 在 ZeroSCROLLS 上的浮现为 37.7，优于 ChatGPT-16k 的 36.7。处理长文本工作的方法通常为两种：（1）采用位置插值扩展上下文窗口，这涉及对更长上下文窗口举行另一轮微调；（2）检索增强，需要访问检索器以查找相关信息。通过结合这两种看似相反的技术，Llama2-70B-32k-ret [1] 在 7 个长文本工作（包括来自 ZeroSCROLLS 的 4 个数据集）上的平均浮现超过了 ChatGPT-16k。

4. 其他特定领域的应用本领

(1) 以查询为焦点的摘要：[2] 发现，与 ChatGPT 相比，微调训练在机能上仍然更好。在 CovidET、NEWTS、QMSum 和 SQuALITY 等数据集上，该类方法对比 ChatGPT 平均提升 2 个点的 ROUGE-1。

(2) 开放域问答：InstructRetro 在 NQ、TriviaQA、SQuAD 2.0 和 DROP 数据集上展现出比 GPT-3 更好的浮现。与相似参数量的专有 GPT-instruct 模型相比，InstructRetro 在一系列短文和长文开放域问答数据集上有 7-10% 的领先。

(3) 医疗：在心理健康方面，MentalLlama-chat-13B 鉴于 IMHI 训练集微调了一个 Llama-chat-13B 模型。在零样本提示下，MentalLlama-chat-13B 模型在 IMHI 的 10 项工作中，9 项工作的浮现优于 ChatGPT。Radiology-Llama-2 模型鉴于放射学报告对 Llama 举行微调，在 MIMIC-CXR 和 OpenI 数据集上的浮现远远优于 ChatGPT 和 GPT-4。

(4) 鉴于结构化数据的生成：Struc-Bench 在结构化生成数据上对 Llama-7B 模型举行微调。微调后的 7B 模型在基准尝试中优于 ChatGPT。

(5) 评论生成：Shepherd 鉴于社区收集的评论数据和 1317 条高质量人工标注数据在 Llama-7B 上举行微调。在以 GPT-4 作为评估器的情况下，Shepherd 在 60% 以上的情况下胜过或与 ChatGPT 持平。在以人类作为评估者的情况下，Shepherd 几乎与 ChatGPT 持平。

5. 朝着值得信赖的人工智能迈进

可靠性是确保 LLM 在实际应用中至关重要。对 LLM 生成幻觉和不安全内容的担忧会降低用户对 LLM 的信任，并带来巨大的潜在风险。

(1) 幻觉：在微调期间，提高数据的正确性和相关性可以较少模型幻觉的生成。Platypus 收集了一个经过内容过滤、以 STEM 领域高质量数据为主的数据集，并鉴于该数据集在一系列 LLM 上举行微调，最终在 TruthfulQA 上对于 ChatGPT 浮现出了实质性改良（约 20%）。现有的在推理阶段减少模型幻觉的技术主要有三类：（1）特定的解码策略（Chain-of-Verification）、（2）外部知识增强（Chain-of-Knowledge（CoK），LLM-AUGMENTER，Knowledge Solver，CRITIC，Parametric Knowledge Guiding（PKG）等等）（3）多智能体对话（[3]，[4]）。这些推理技术与仅运用 ChatGPT 的普通提示策略相比，可以提高答案准确性。目前，ChatGPT 也推出了检索插件（OpenAI，2023a 年），用于访问外部知识以减少幻觉。

(2) 安全性：根据现有的评估结果，ChatGPT 和 GPT-4 模型在安全性评估方面仍然处于领先地位。这主要归功于人类反应强化学习（RLHF）。RLHF 需要收集大量昂贵的人类标注，这阻碍了其在开源大模型的运用。目前，通过 AI 反应来代替人类反应（RLAIF）和直接偏好优化（DPO）等方法的提出可以大大降低 RLHF 的成本。结合并改良这些方法可以给开源 LLM 的安全性带来潜在的改良。

III. 总结

1. 大模型的发展趋势

自从 GPT-3 问世以来，研讨人员已经做了大量的工作来推动 LLM 的发展，其中一个重要的研讨方向就是扩大模型的参数量（比如 Gopher，MT-NLG 和 PaLM 等）。虽然这些大模型拥有强大的本领，但闭源的特性也限制了它们的广泛应用，因此也有一些工作开始关注开发开源的大语言模型，比如 OPT 和 BLOOM。与此同时，索求如何预训练更小的模型（如 Chinchilla 和 UL2）和指令调整（如 Flan-T5）也是很重要的研讨方向。

一年之前 ChatGPT 的出现极大地改变了 NLP 社区的研讨重点。为了赶上 OpenAI，Google 和 Anthropic 分别开发了 Bard 和 Claude。虽然它们在许多工作上能够有和 ChatGPT 相似的机能，但它们与 OpenAI 最新的模型 GPT-4 之间仍然存在一些差距。并且由于这些模型的成功主要来源于人类反应的强化学习（RLHF），研讨人员也索求了各种方法来改良 RLHF。

为了促进开源 LLM 的研讨，Meta 发布了 Llama 系列模型。此后，鉴于 Llama 的开源模型开始井喷式出现。一个有代表性的研讨方向是运用指令数据对 Llama 举行微调，包括 Alpaca、Vicuna、Lima 和 WizardLM 等。研讨者们还索求了鉴于 Llama 的智能体、逻辑推理和长上下文建模本领。此外，与鉴于 Llama 开发 LLM 不同，还有许多工作致力于从零开始训练 LLM，例如 MPT、Falcon、XGen、Phi、Baichuan、Mistral、Grok 和 Yi 等。我们相信，开发更强大、更高效的开源 LLM 将是一个非常有前途的未来方向。

2. 怎么才能制作出更好的开源大模型？

虽然头部模型的详细做法往往是保密的，但以下也有一些社区普遍认可的最佳实践：

（1）数据：预训练涉及运用来自公开可访问来源的数万亿 token。相比之下，微调数据数量较少，但质量更高。运用优质数据举行微调的 LLM 可以获得一定的机能改良，特别是在专业领域。

（2）模型架构：尽管大多数 LLM 运用了仅解码器的 Transformer 架构，但很多模型也运用了不同的技术来优化效果。比如 Llama-2 采用了 Ghost attention 以提高多轮对话控制本领，Mistral 采用滑动窗口注意力来处理更长的上下文长度。

（3）训练：运用指令调整数据举行监督微调（SFT）的过程至关重要。对于生成高质量的结果，数万个 SFT 标注就足够了，正如 Llama-2 运用了 27,540 条标注。这些数据的多样性和质量至关重要。在 RLHF 阶段，近端策略优化（PPO）通常是优选的算法，以更好地使模型行为与人类偏好和指令遵循保持一致，这在增强 LLM 的安全性方面起着关键作用。直接偏好优化（DPO）可以作为 PPO 的替代方法。例如，Zephyr-7B 采用了 DPO，在各种常规基准尝试中显示出与 70B-LLM 相当的结果，甚至在 AlpacaEval 上超过了 ChatGPT。

3. 漏洞和潜在问题

（1）预训练期间的数据污染：数据污染问题的根源在于基准数据的收集来源已经包含在预训练语料中。因此，解决 LLM 的预训练语料检测问题，索求现有基准尝试和广泛运用的预训练语料之间的重叠，以及评估对基准尝试的过度拟合等挑战是至关重要的。这些工作对于提高 LLM 的忠实度和可靠性至关重要。未来需要建立披露预训练语料细节的标准化实践，并开发方法来减轻模型开发生命周期中的数据污染问题。

（2）封闭式对齐开发：在广义偏好数据上应用人类反应的强化学习（RLHF）已经引起了社区越来越多的关注。然而，只有少数几个开源 LLM 运用 RLHF 举行对齐。主要原因为缺乏高质量、公开可用的偏好数据集和预先训练的奖励模型。我们仍然面临着在复杂推理、编程和安全场景中缺乏多样化、高质量和可扩展偏好数据的挑战。

（3）在基本本领上的持续改良难度：回顾本文提到的基本本领的突破揭示了一些具有挑战性的情况：1. 人们已经投入了大量精力来索求改良预训练期间数据混合的方法，以提高构建更强大基础模型的平衡性和鲁棒性。然而，相关的索求成本往往使得这种方法变得不切实际。2. 超越 ChatGPT 或 GPT-4 的模型主要鉴于来自闭源模型的知识蒸馏和额外的专家注释。虽然高效，但过度依赖知识蒸馏可能会掩盖关于将所提出的方法扩展到教师模型时效果的潜在问题。此外，LLM 预计将充当智能体并提供合理的解释以支持决策，而为了使 LLM 适用于现实场景，注释智能体工作形式的数据也是昂贵且耗时的。从本质上讲，仅通过知识蒸馏或专家注释的优化不能实现模型的持续改良，并且可能有上限。未来的研讨方向可能涉及索求新的方法论，如无监督或自监督学习范式，以实现对 LLM 基础本领的持续改良，同时减轻相关的成本。

IV. 结论

在 ChatGPT 发布一周年之际，本文对高机能的开源 LLM 举行了系统调研。结果表明，有很多开源大模型在特定领域上的浮现已经赶上甚至超越了 ChatGPT。此外，我们提供了对开源 LLM 的见解、分析和潜在问题的讨论。我们相信，这份调查为开源 LLM 的有前景的方向提供了启发，并将激励该领域的进一步研讨和发展，有助于弥合其与付费闭源模型的差距。

参考文献：

[1] https://arxiv.org/abs/2310.03025

[2] https://arxiv.org/abs/2302.08081

[3] https://arxiv.org/abs/2305.13281

[4] https://arxiv.org/abs/2305.14325

{{userData.name}}已认证

ChatGPT发布一周年了，开源大模型都迎头赶上了吗？

创造38万种新质料、17天自决分解41种新化合物，DeepMind一日两篇论文登上Nature

Altman正式重掌CEO大权，微软获董事会观察员席位，辞任独董罕见发文回应

微软开源 bitnet.cpp 1-bit LLM 推理框架：不靠 GPU 可本地运行千亿参数 AI 模型，能耗最多降低 82.2%

秒变Midjourney高手！精选 52 条高级感的 sref 风格代码

Meta 用 AI 生成北极光图片，遭网友怒喷

中国电信自研 AI 节能系统：年均节电 8 亿度，节约电费 5.2 亿元

英伟达 CEO 黄仁勋展望公司未来：坐拥 5 万名员工、部署 1 亿个 AI 助手

成功率提升15%，浙大、碳硅智慧用LLM进行多属性分子优化，登Nature子刊

特斯拉人形机器人 Optimus 现场做饮料，员工证实有人在远程控制

中国移动推出“灵犀”家庭智能体，支持智能搜索、对话交互等功能