随着大规模说话模型的日渐富强,人们对 AI 模型提出了伦理道德方面的更高要求。业界在模型规模扩展方面具有算力资源优势,但要想让模型更规范、可靠,需要学术界的努力。
近日,斯坦福基于 Meta 的 LLaMA 7B 模型微调出一个新模型 Alpaca。该钻研让 OpenAI 的 text-davinci-003 模型以 self-instruct 方式天生 52K 指令遵照(instruction-following)样本,以此作为 Alpaca 的训练数据。钻研团队已将训练数据、天生训练数据的代码和超参数开源,后续还将发布模型权重和训练代码。
项目地址:https://github.com/tatsu-lab/stanford_alpaca
试用地址:https://alpaca-ai-custom6.ngrok.io/
实验结果表明,Alpaca 的很多行为都与 text-davinci-003 类似。也就是说,只有 7B 参数的轻量级模型 Alpaca 性能可媲美 GPT-3.5 这样的超大规模说话模型。
我们来看一下 Alpaca 模型是如何做到的。
训练方法
在学术界的预算条件下,训练高质量的指令遵照模型面临两个重要寻衅:富强的预训练说话模型和高质量的指令遵照数据。
Meta 最近发布的 LLaMA 系列模型解决了第一个寻衅。对于第二个寻衅,2022 年底的 self-instruct 论文提出应用现有的富强说话模型自动天生指令数据。
论文地址:https://arxiv.org/abs/2212.10560
按照这种方法,Alpaca 应用 LLaMA 7B 模型的监督学习在 text-davinci-003 以 self-instruct 方式天生的 52K 指令遵照样本上进行微调。
self-instruct 方法概览。
Alpaca 的钻研团队首先应用 self-instruct 种子集中的 175 个人工编写的指令输入(instruction-output)对,然后用该种子集作为 in-context 样本 prompt text-davinci-003 来天生更多指令。该钻研通过简化天生 pipeline 改进了 self-instruct 方法,并显著降低了本钱。
该钻研共天生了 52K 个不同的指令和相应的输入作为训练数据,其中应用了 OpenAI 开放的 API,本钱不到 500 美元。由于钻研团队已将训练数据开源,对于想要复现 Alpaca 的开发者来说,这500美元就省下了。
有了这个指令遵照数据集,该钻研下一步应用 Hugging Face 的训练框架微调了 LLaMA 模型,并利用了 FSDP(Fully Sharded Data Parallel)和混合精度训练等技术。本钱方面,在 8 个 80GB A100 上微调一个 7B LLaMA 模型需要 3 个小时,这对大多数云计算提供商来说本钱不到 100 美元。
模型评价
该钻研应用来自 self-instruct 评价集的输入进行了人工评价,这项工作由 5 名钻研团队的学生完成。该评价集由 self-instruct 论文的作者收集整理,涵盖了多种面向用户的 instruction,涉及电子邮件、社交媒体和办公工具。
在将 text-davinci-003 和 Alpaca 7B 进行 blind pairwise 比较之后,钻研者发现这两个模型的性能非常相似,并且 Alpaca 略优于 text-davinci-003。
从参数规模的角度看,Alpaca 远远小于 text-davinci-003,移动端甚至也可以运行 7B 的轻量级说话模型。这让 Alpaca 意义非凡。
除了利用上述静态的 self-instruct 评价集,该钻研还对 Alpaca 模型进行了交互测试,并发现 Alpaca 的表现通常与 text-davinci-003 相似。
下面是钻研团队测试的两个例子,结果表明 Alpaca 的输入良好,并且反映出指令遵照数据集的一般风格。例如,Alpaca 输入的答案通常比 ChatGPT 更简洁,这和 text-davinci-003 类似。
模型缺点
实验中,Alpaca 还表现出说话模型的几种常见缺点,包括幻觉、毒性和刻板印象,其中幻觉问题尤其严重。
例如在下图中,Alpaca 回答坦桑尼亚的首都是达累斯萨拉姆,但实际上应该是多多马。
此外,Alpaca 能够天生一些看似良好却包含错误或虚假信息的文本,这可能会误导人们。
Alpaca 可能包含许多与底层说话模型和指令调优数据相关的其他缺点。但是,Alpaca 对机器学习社区仍然具有重要意义,因为它提供了一个相对轻量级的模型,可作为钻研重要缺点的基础。斯坦福的钻研团队还强调:Alpaca 只可用于学术钻研,禁止任何商业用途。
接下来,斯坦福的钻研团队会进一步探究 Alpaca 模型的安全性、理解能力、规模扩展等等。钻研团队希望 Alpaca 能够促进指令遵照模型的发展。
原文链接:
https://crfm.stanford.edu/2023/03/13/alpaca.html
原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/32361