Meta AI 在昨天公布的一篇论文可谓是炸开了锅,论文网站 paperswithcode 热搜榜第一,众多 AI 大佬推荐:LSTM 提出者和奠基者,奥地利人工智能高级研讨所(IARAI)创始人 Sepp Hochreiter 教授就在推特上进行了宣传:
社交及新闻网站 reddit 讨论量也爆表:
有研讨者表示这是将庞大 LM 研讨引入学术界的重大一步。用一句话总结就是:Meta AI 正在开放用于人工智能研讨的庞大言语模型造访权力,并表示这个具有 1750 亿参数的模型,是第一个可供更广泛的人工智能研讨社区使用的模型。值得注意的是,OpenAI 提出的 GPT-3 也具有 1750 亿参数,不知道这一数字是巧合还是其他。下面我们介绍一下这项研讨的主要内容。
Meta AI 开放 1750 亿参数的模型
庞大言语模型,即具有超过 1000 亿个参数的自然言语处理 (NLP) 系统,在过去几年中改变了 NLP 和 AI 研讨。这些模型经过大量文本训练,在生成创意文本、解决数学问题、回答阅读理解等方面表现出令人惊讶的能力。虽然在某些情况下,公众可以通过付费 API 与这些模型进行交互,但完整的研讨造访权力仍然仅限于少数资源丰富的实验室。这种受限造访限制了研讨职员理解这些庞大言语模型如何以及为什么工作的能力,阻碍了提高其鲁棒性和减轻偏见等已知问题的进展。根据 Meta AI 对开放科学的承诺,他们正在同享 Open Pretrained Transformer (OPT-175B),这是一个具有 1750 亿参数的模型,在公共数据集上训练而成,之所以同享这个模型,Meta AI 进展更多的社区参与理解关于大模型的基本技术。论文地址:https://arxiv.org/pdf/2205.01068.pdf对于这种规模的言语技术系统,该版本首次囊括预训练模型以及训练和使用它们所需的代码。为了保持完整性并防止滥用,Meta AI 将在非商业许可下颁布该模型,以专注于研讨用例。该模型的造访权力将授予学术研讨职员;隶属于政府、民间团体和学术界组织的职员;以及世界各地的工业研讨实验室。Meta AI 进展整个人工智能社区,囊括学术研讨职员、民间团体、政策制定者等研讨者共同努力,围绕负责任的人工智能,特别是负责任的庞大言语模型制定明确的指导方针,因为它们在许多下游言语应用程序中处于中心地位。人工智能社区更需要造访这些模型,以便进行可重复的研讨并共同推动该领域的发展。随着 OPT-175B 和小规模基线的颁布,Meta AI 也进展增加伦理方面的考虑。
公开记录文档
根据 AI 合作伙伴关系(Partnership on AI)为研讨职员制定的出版指南,以及 NIST 在 2022 年 3 月概述的治理指南(第 3.4 节),Meta AI 将颁布开发过程的所有记录文档,囊括详细说明日常训练过程的完整 logbook,因此其他研讨职员可以更轻松地在此工作基础上继续研讨。此外,这些细节还揭示了用于训练 OPT-175B 的计算量以及当底层基础设施或训练过程本身大规模变得不稳定时所需的人力开销。对此有研讨者表示:研讨团队的 logbook 是一个隐藏的宝石,突出了自 Lua torch 以来就存在且尚未解决的 ML 研讨中的痛点 / 更广泛的问题:Meta AI 仅使用 16 个 NVIDIA V100 GPU 来训练和部署模型的代码库,以增加这些模型的可造访性,达到专门用于研讨目的。Meta AI 还全面颁布了一套更小规模的基线模型,使用的数据集和 OPT-175B 相同 ,设置也和 OPT-175B 类似,这样一来研讨职员能够单独研讨模型规模的影响。这些小规模模型的参数囊括 1.25 亿、3.5 亿、13 亿、27 亿、67 亿、130 亿和 300 亿(660 亿即将颁布)。
人工智能研讨的最新发展消耗了大量的计算能力。虽然行业实验室已经开始报告这些模型的碳痕迹,但大多数不囊括与实验研发阶段相关的计算成本,在某些情况下,这可能比训练最终模型更耗费一个数量级的资源。Meta AI 在开发 OPT-175B 时考虑到了能源效率,其碳痕迹仅为 GPT-3 的 1/7。这是通过在 Megatron-LM 中结合 Meta 的开源全分片数据并行 (FSDP) API 和 NVIDIA 的张量并行抽象来实现的。Meta AI 在 NVIDIA 的 80 GB A100 GPU 上实现了约 147 TFLOP/s/GPU 利用率,比 NVIDIA 研讨职员在类似硬件上公布的数据高出大约 17%。通过与代码库同享这些基线以有效地训练 175B 模型,Meta AI 正在减少碳痕迹,同时还允许以一致的方式衡量该领域的新成果和进展。代尔夫特理工大学助理教师 Luís Cruz 表示:很高兴看到新的人工智能论文讨论他们模型的碳痕迹。尽管有非常粗略的估计,但 OPT-175B 是作为 GPT-3 的替代品提出的,其碳痕迹是 GPT-3 的 1/7。
Meta AI 进展 OPT-175B 能够为大言语模型创建的前沿带来更多声音,帮助社区集体设计负责任的颁布策略,为该领域的大言语模型开发增加前所未有的透明度和开放性。
造访开源代码和小规模预训练模型:https://github.com/facebookresearch/metaseq
OPT-175B:https://docs.google.com/forms/d/e/1FAIpQLSe4IP4N6JkCEMpCP-yY71dIUPHngVReuOmQKDEI1oHFUaVg7w/viewform
OPT-175B 许可协议:https://github.com/facebookresearch/metaseq/blob/main/projects/OPT/MODEL_LICENSE.md
原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/31011