斯坦福70亿参数开源模型媲美GPT-3.5,100美元即可复现

学界或许没有业界的算力优势,但可以应用 self-instruct 方法直面大规模说话模型的寻衅。

随着大规模说话模型的日渐富强,人们对 AI 模型提出了伦理道德方面的更高要求。业界在模型规模扩展方面具有算力资源优势,但要想让模型更规范、可靠,需要学术界的努力。

近日,斯坦福基于 Meta 的 LLaMA 7B 模型微调出一个新模型 Alpaca。该钻研让 OpenAI 的 text-davinci-003 模型以 self-instruct 方式天生 52K 指令遵照(instruction-following)样本,以此作为 Alpaca 的训练数据。钻研团队已将训练数据、天生训练数据的代码和超参数开源,后续还将发布模型权重和训练代码。

斯坦福70亿参数开源模型媲美GPT-3.5,100美元即可复现

项目地址:https://github.com/tatsu-lab/stanford_alpaca

试用地址:https://alpaca-ai-custom6.ngrok.io/

实验结果表明,Alpaca 的很多行为都与 text-davinci-003 类似。也就是说,只有 7B 参数的轻量级模型 Alpaca 性能可媲美 GPT-3.5 这样的超大规模说话模型。

我们来看一下 Alpaca 模型是如何做到的。

训练方法

在学术界的预算条件下,训练高质量的指令遵照模型面临两个重要寻衅:富强的预训练说话模型和高质量的指令遵照数据。

Meta 最近发布的 LLaMA 系列模型解决了第一个寻衅。对于第二个寻衅,2022 年底的 self-instruct 论文提出应用现有的富强说话模型自动天生指令数据。

斯坦福70亿参数开源模型媲美GPT-3.5,100美元即可复现

论文地址:https://arxiv.org/abs/2212.10560

按照这种方法,Alpaca 应用 LLaMA 7B 模型的监督学习在 text-davinci-003 以 self-instruct 方式天生的 52K 指令遵照样本上进行微调。

斯坦福70亿参数开源模型媲美GPT-3.5,100美元即可复现

self-instruct 方法概览。

Alpaca 的钻研团队首先应用 self-instruct 种子集中的 175 个人工编写的指令输入(instruction-output)对,然后用该种子集作为 in-context 样本 prompt text-davinci-003 来天生更多指令。该钻研通过简化天生 pipeline 改进了 self-instruct 方法,并显著降低了本钱。

斯坦福70亿参数开源模型媲美GPT-3.5,100美元即可复现

该钻研共天生了 52K 个不同的指令和相应的输入作为训练数据,其中应用了 OpenAI 开放的 API,本钱不到 500 美元。由于钻研团队已将训练数据开源,对于想要复现 Alpaca 的开发者来说,这500美元就省下了。

斯坦福70亿参数开源模型媲美GPT-3.5,100美元即可复现

有了这个指令遵照数据集,该钻研下一步应用 Hugging Face 的训练框架微调了 LLaMA 模型,并利用了 FSDP(Fully Sharded Data Parallel)和混合精度训练等技术。本钱方面,在 8 个 80GB A100 上微调一个 7B LLaMA 模型需要 3 个小时,这对大多数云计算提供商来说本钱不到 100 美元。

模型评价

该钻研应用来自 self-instruct 评价集的输入进行了人工评价,这项工作由 5 名钻研团队的学生完成。该评价集由 self-instruct 论文的作者收集整理,涵盖了多种面向用户的 instruction,涉及电子邮件、社交媒体和办公工具。

在将 text-davinci-003 和 Alpaca 7B 进行 blind pairwise 比较之后,钻研者发现这两个模型的性能非常相似,并且 Alpaca 略优于 text-davinci-003。

从参数规模的角度看,Alpaca 远远小于 text-davinci-003,移动端甚至也可以运行 7B 的轻量级说话模型。这让 Alpaca 意义非凡。

除了利用上述静态的 self-instruct 评价集,该钻研还对 Alpaca 模型进行了交互测试,并发现 Alpaca 的表现通常与 text-davinci-003 相似。

下面是钻研团队测试的两个例子,结果表明 Alpaca 的输入良好,并且反映出指令遵照数据集的一般风格。例如,Alpaca 输入的答案通常比 ChatGPT 更简洁,这和 text-davinci-003 类似。

斯坦福70亿参数开源模型媲美GPT-3.5,100美元即可复现

斯坦福70亿参数开源模型媲美GPT-3.5,100美元即可复现

模型缺点

实验中,Alpaca 还表现出说话模型的几种常见缺点,包括幻觉、毒性和刻板印象,其中幻觉问题尤其严重。

例如在下图中,Alpaca 回答坦桑尼亚的首都是达累斯萨拉姆,但实际上应该是多多马。

斯坦福70亿参数开源模型媲美GPT-3.5,100美元即可复现

此外,Alpaca 能够天生一些看似良好却包含错误或虚假信息的文本,这可能会误导人们。

斯坦福70亿参数开源模型媲美GPT-3.5,100美元即可复现

Alpaca 可能包含许多与底层说话模型和指令调优数据相关的其他缺点。但是,Alpaca 对机器学习社区仍然具有重要意义,因为它提供了一个相对轻量级的模型,可作为钻研重要缺点的基础。斯坦福的钻研团队还强调:Alpaca 只可用于学术钻研,禁止任何商业用途。

接下来,斯坦福的钻研团队会进一步探究 Alpaca 模型的安全性、理解能力、规模扩展等等。钻研团队希望 Alpaca 能够促进指令遵照模型的发展。

原文链接:

https://crfm.stanford.edu/2023/03/13/alpaca.html

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/32361

(0)
上一篇 2023年3月15日 上午10:45
下一篇 2023年3月15日 上午11:38

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注