AI在线 AI在线

Creator 面对面 | 北大河图在稀疏大模型训练架构上的几点探索

河图是北京大学数据与智能实验室自研的一款分布式深度学习框架,兼顾创新性和可用性,这也是国内首个由高校自主研发的分布式深度学习系统。底层的算子实现到上层的模型设计完全是由河图团队自主实现。

2022 年 1 月,北京大学数据与智能实验室河图团队负责人苗旭鹏博士做客机器之心「2021-2022 年度 AI 技术趋势洞察」的「工程专场」直播间时,为我们带来了主题为「北大河图在稀疏大模型训练架构上的几点探索」的相关报告。

图片

苗旭鹏博士的分享围绕稀疏大模型训练架构展开,主要从稀疏大模型的相关背景、河图相关研究来展开介绍。

Embedding 模型相关背景

首先苗旭鹏博士向我们介绍了稀疏大模型的相关背景。在过去的这几年,Embedding 模型已经成为了对于高维数据的一种有效的学习范式。例如,在语言模型当中,一条训练样本往往包含若干个单词,它们可以映射到一个统一的词表当中,将表中的索引映射到一个低维向量进行表达,也就是对词的一个分布式表示。近几年,模型规模不断变大,Embedding 模型其实也不例外。实际上,如果稀疏模型真的要扩展到如此巨大的规模,仍然面临着非常严峻的挑战。

图片

稀疏大模型训练面临挑战

接下来苗博士跟我们分享了有关河图的相关研究论文,该论文发表在 VLDB 2022 上的一篇工作:HET: Scaling out Huge Embedding Model Training via Cache-enabled Distributed Framework。稀疏大模型的模型规模比较大,它的一个特殊之处在于可能 99% 的模型参数都会来自于 Embedding 层,也就是 Embedding Table。对于一个万亿规模的稀疏大模型,它的参数量仅仅模型参数就需要占据 3.7 TB 这样的一个存储空间,显然是无法在单机进行训练的。在过去的这几年,工业界一直努力在这个方向上进行探索,但大多数都还是基于采用结合现有的深度学习系统和高度工程优化的参数服务器的这种方案,希望能够把这个硬件的性能利用到极致。而事实上由于我们的网络带宽其实都是有限的,这些方案并没有从根本上去解决这个稀疏大模型训练的问题。

图片

河图研究基于两点观察:Skewness、Robustness

HET 在尝试解决稀疏大模型训练架构上的问题时,主要是基于两点观察。第一点是 Skewness 。可以注意到很多真实的稀疏大模型,它的输入数据的特征分布往往具有倾斜分布的性质。举例来说,比如最常用的公开推荐数据集 Criteo 上面前 10% 的高频 Embedding 。经过统计,它已经占据整个数据集当中 90% 的 Embedding 通信。基于这种性质启发了苗博士团队在 HET 当中对这些不均衡的 Embedding 分布去进行设计和讨论。第二个点是 Robustness。它并不是只针对稀疏大模型,是机器学习本身的一个性质。

图片

由于稀疏大模型具有稀疏模型参数以及稠密模型参数两部分,它们具有天然不同的访问性质,所以总体上还是采用一种混合的通信架构。对于稠密的参数,采用 GPU 间性能比较高的 Allreduce 的方式进行同步。对于稀疏的 Embedding 参数,采用类似参数服务器的架构,并在参数服务器的架构上进行一个改变。

图片

采用 Cache Embedding Table 来缓存这些高频访问的 Embedding 参数

比较不一样的是, HET Client 在这里设计了一个 Cache Embedding Table 这样的一个概念。这个 Embedding 缓存是整个设计方案的一个核心。具体来说采用 Cache Embedding Table 来缓存这些高频访问的 Embedding 参数。同时,为了保证模型的收敛性,苗博士团队提出了一种细粒度基于 Emending Clock 的有限异步协议来解决如何在不同的节点当中去同步这些 Embedding 副本,既允许读取一些比较旧的 Embedding 同时也允许延迟写回缓存上的梯度更新。在这个结构基础上去引入一个比较重要的  Lamport Clock ,用来记录 Embedding 向量的状态。在训练过程中,通过比较 Embedding 的时钟就可以知道这个副本的延迟或者超前的程度。

图片

最后苗博士向我们展示了 HET 的相关实验数据。实验结果发现 HET 能够减少超过 88% 的 Embedding 通信。在整体的 End to End 的训练时间上,可以实现 20 倍以上的加速。

图片

图片

相关资讯

稀疏化 芯力量|墨芯参展首日S4计算卡性能表现亮眼

2022年7月15日,墨芯人工智能参展厦门半导体峰会,首席科学家严恩勖发表演讲,展示墨芯如何用稀疏化推动AI计算前沿和最新的产业进展。16日墨芯获评“最具投资价值奖”。集微峰会被誉为“半导体业风向标”,设特色“芯力量”展区和EDA展区。墨芯位于“芯力量”展区核心位置——76号展台。   墨芯作为稀疏化计算引领者,致力于提供云端和终端AI计算平台和服务,打造软硬协同的新一代智能计算平台。团队携首颗芯片Antoum®和人工智能推理计算卡S4参展。墨芯人工智能S4计算卡基于墨芯首颗芯片Antoum®,是全球首款高达32倍
8/17/2022 6:57:00 PM
墨芯人工智能

手把手教你,从零开始实现一个稀疏混合专家架构语言模型(MoE)

本文介绍了实现一个稀疏混合专家语言模型(MoE)的方法,详细解释了模型的实施过程,包括采用稀疏混合专家取代传统的前馈神经网络,实现 top-k 门控和带噪声的 top-k 门控,以及采用 Kaiming He 初始化技术。作者还说明了从 makemore 架构保持不变的元素,比如数据集处理、分词预处理和语言建模任务。最后还提供了一个 GitHub 仓库链接,用于实现模型的整个过程,是一本不可多得的实战教科书。内容简介在混合专家模型 Mixtral 发布后,混合专家模型(MoE)越来越受到人们的关注。在稀疏化的混合专
2/16/2024 4:32:00 PM
机器之心

手机流畅运行 470 亿大模型:上交大发布 LLM 手机推理框架 PowerInfer-2,提速 29 倍

苹果一出手,在手机等移动设备上部署大模型不可避免地成为行业关注焦点。然而,目前在移动设备上运行的模型相对较小(苹果的是 3B,谷歌的是 2B),并且消耗大量内存,这在很大程度上限制了其应用场景。即使是苹果,目前也需要与 OpenAI 合作,通过将云端 GPT-4o 大模型嵌入到操作系统中来提供能力更强的服务。这样一来,苹果的混合方案引起了非常多关于数据隐私的讨论和争议,甚至马斯克都下场讨论。如果苹果在操作系统层面集成 OpenAI,那么苹果设备将被禁止在我的公司使用。这是不可接受的安全违规行为。既然终端侧本地部署大
6/12/2024 12:06:00 PM
汪淼
  • 1