「羊驼」们走到哪一步了?研讨评释:最好的能达到GPT-4本能的68%

开源 VS 闭源,哪边的大语言模型更能打?

最近,大型语言模型获得了前所未有的关注度。在更迭迅速的情况下,开源模型与闭源模型的发展并驾齐驱,同时呈现百花齐放的态势。但仍然令大家好奇的是,开源大模型和闭源大模型,哪一边实力更强?又该如何对比?近日,在推特上,威斯康星大学计算机科学博士生 Wang Yizhong 同样对众多指令调优数据集及开源模型的发展提出了这个疑问。

图片

此前,一些公开的指令调优模型在宣传时称,自身可与功能强大的闭源专有模型 (如 ChatGPT) 相媲美,但是大部分能支持这个说法的实行只是覆盖了全部义务的冰山一角而已,并且这些实行也主要依赖鉴于模型的评价指标。事实上,评价设置除了测试模型或人为标注的天生质量外,还应该包括测试模型的核心推理和事实回忆技能的义务,这些义务可能更开放和主观。在最近的一项研讨中,艾伦人为智能研讨所联合华盛顿大学对指令调优资源进行了全面的评价,他们在十几个公共语料库上进行了大量的指令调优实行,从 6.7B 到 65B 的模型规模都有涉及。研讨还评价了特定的模型能力 (即事实知识、推理、多语言性、编码) 和开放式的指令遵循能力,并展示了鉴于自动、鉴于模型和鉴于人为的评价指标的结果。

图片

论文地址:https://arxiv.org/pdf/2306.04751.pdf评价评释,在不同数据集上进行指令调优似乎可以提高特定的技能,没有一个数据集能在一切评价中均提供最好本能。他们还发现,底层本原模型是至关重要的,更好的本原模型 (训练于更多 token 或是更大模型)整体表现更好。意料之外的是,研讨还发现在鉴于模型的评价中首选的模型与在鉴于基准的自动评价中表现最好的模型并不匹配,这可能是由于 GPT-4 对长的、多样化天生的强烈偏见。评价还评释,在任何给定的评价中,最好模型的平均本能达到 ChatGPT 的 83%、GPT-4 的 68%,这评释需要进一步构建更好的本原模型和指令调优数据以缩小差距。根据这些发现,研讨团队提出了「TÜLU」,一套在数据源组合上进行微调的 7B 到 65B 的 LLAMA 模型。需要声明的是,在撰写本文时,TÜLU 65B 是公开发布的最大的全指令调优 LLAMA 变体。它在 7 个流行的可用数据集上进行训练,并产生最好的平均本能,同时在每个单独义务上排在最好本能模型的 15% 以内。研讨者开源了用于训练和评价这些大型语言模型的代码,并发布了在不同指令数据集及其夹杂物上训练的检查点,包括 TÜLU。指令数据集研讨团队试图收集不同风格数据集的代表性样本 (列在表 1 中),包括:

(1) 由研讨人员从现有的 NLP 数据集 (SuperNI , Flan V2) 创建;

(2) 由人类从头编写,用于指令调优 (Dolly , Open Assistant 1 );

(3) 由专有模型天生 (Self-Instruct , Unnatural Instructions、Alpaca、Baize、GPT4-Alpaca );

(4) 由用户共享的 prompt 和模型天生的补全组成;

(5) 为特定技能而建 (CoT 用于思维链,alpaca 用于代码天生)。

图片

预训练模型研讨主要使用了 LLAMA 套件,这是一系列预训练模型,大小从 6.7B 到 65B 参数不等。这些模型代表了社区可用的最大、最高质量的预训练模型 (尽管在限制性许可下)。研讨还考虑了与 LLAMA 6.7B 模型大小相当的 OPT 和 Pythia 模型,以检查不同本原模型的效果。为简单起见,研讨将一切大小四舍五入为整数。团队还注意到一些对类似或质量更好的模型进行预训练的工作,他们相信本文的发现应该适用于这些模型以及未来更强大的开放本原模型。

图片

 使用各种数据集训练模型统一格式研讨将一切数据集格式化为遵循聊天机器人风格的模式,以统一指令数据集的各种风格和格式,如图 1 所示。这让研讨团队能够将用户和语言模型 (又称「assistant」) 之间的任意轮交互拟合到一个输入序列中,并将它们与因果语言模型一起编码。他们在用户话语和目标助手响应之前分别添加了特殊 token<|user|> 和 <|assistant|>,并在每个 assistant 输出的末尾添加了一个文本结束 token,在推理时,该 token 将停止模型每轮的响应。

图片

TÜLU:整合资源,更好的指令调优模型鉴于现有的研讨评释,增加指令的多样本能够有效提高指令调优的本能,因此研讨者将两个数据集结合起来:人类夹杂数据,由最好的人为编写数据集组成。包括 FLAN V2、CoT、Dolly 和 Open Assistant 1 (排除了了 SuperNI,因为 FLAN V2 已经包含了 SuperNI 中的大多数义务);人类 + GPT 夹杂数据 ,包括人类夹杂数据和由 OpenAI GPT 模型天生的另外三个数据集,包括 GPT4-Alpaca、Code-Alpaca 和 ShareGPT。研讨团队将这些夹杂数据集连接起来,并将探索更复杂的采样夹杂物的工作留给未来。他们把在人类 + GPT 夹杂数据上训练的 LLAMA 模型命名为 TÜLU—— 不同物种之间杂交产生的杂交骆驼。实行结果指令调优数据集和本原模型分析为了了解表 1 中列出的指令数据集对模型能力的贡献,研讨者使用评价套件评价了在这些数据集上训练的 LLaMa 13B 模型。表 3 展示了基准评价集上的结果,其中 App D 的结果更为广泛。

图片

实行结论如下:

一个跨一切义务的最好指令调优数据集是不存在的;

合并数据集可以在基准义务上获得最好的整体本能;

本原模型的质量对于下游本能非常重要。(见表 4)

图片挑战开放模型的极限当确定「使用广泛的数据夹杂是最好的」以及「使用 LLAMA 作为本原模型比其他开放替代方案更可取」后,研讨比较一切 LLAMA 尺寸的人类 + GPT 数据夹杂 (TÜLU 模型) 上训练的模型的本能(如表 5 所示)。

图片

实行结论得出:

指令调优给一切尺寸的 LLAMA 模型都带来了很大的好处;

较小的模型从指令调优中获益最大;

TÜLU 仍然落后于最先进的专有模型。

鉴于模型的开放式天生评价结果表 6 中报告了模型 AlpacaFarm 胜率。

图片

由此可以得出以下结果:

鉴于传统 NLP 数据集的夹杂模型表现不佳;

鼓励长时间、多样化代的数据集表现最好 (见图 2);

ShareGPT 的本能最好。

图片

总体而言,有这些结果可以看出,虽然模型偏好评价很重要,但它并没有提供对这些模型的整体评价。因此,在更大、更全面的评价设置里,模型偏好评价应该只作为其中的一部分。开放式天生的人为评价结果图 4 中展示了人为评价结果。人为评价结果与 AlpacaFarm 和鉴于基准的评价具有强烈相关性:一切评价评释,65B TÜLU 优于 7B TÜLU。这评释使用更大的本原模型是重要的,并且在 65B TÜLU 和 ChatGPT 之间仍有不小的本能差距。图片除此之外,研讨还发现利用蒸馏数据集可以让本能有很大的提升,这评释相比之下人类编写的数据集是匮乏的。这些观察结果也与图 3 中的可接受性分数相一致。7B TÜLU 在模型偏好评价中优于 human-mix 65B TÜLU,但如果比较图 3 中的可接受性分数,则情况似乎相反。这进一步证明,模型两两评价可能并不始终揭示模型缺陷。在这种情况下,65B 人类夹杂模型比 7B 模型更有可能产生可接受的 (如果不是高质量的) 响应。图片更多详细内容,请参见原文。

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/20291

(0)
上一篇 2023年7月1日 下午12:46
下一篇 2023年7月1日 下午12:58

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注