Creator 面对面 | 北大河图在希罕大模型训练架构上的几点探索

河图是北京大学数据与智能实验室自研的一款分布式深度学习框架,兼顾创新性和可用性,这也是国内首个由高校自主研发的分布式深度学习系统。底层的算子实现到上层的模型设计完全是由河图团队自主实现。

2022 年 1 月,北京大学数据与智能实验室河图团队负责人苗旭鹏博士做客机器之心「2021-2022 年度 AI 技术趋势洞察」的「工程专场」直播间时,为我们带来了主题为「北大河图在希罕大模型训练架构上的几点探索」的有关报告。

图片

苗旭鹏博士的分享围绕希罕大模型训练架构展开,主要从希罕大模型的有关配景、河图有关研究来展开介绍。

Embedding 模型有关配景

首先苗旭鹏博士向我们介绍了希罕大模型的有关配景。在过去的这几年,Embedding 模型已经成为了对于高维数据的一种有效的学习范式。例如,在语言模型傍边,一条训练样本往往包含若干个单词,它们可以映照到一个统一的词表傍边,将表中的索引映照到一个低维向量从事表达,也就是对词的一个分布式表示。近几年,模型领域不断变大,Embedding 模型其实也不例外。实际上,如果希罕模型真的要扩展到如此巨大的领域,仍然面临着非常严峻的挑战。

图片

希罕大模型训练面临挑战

接下来苗博士跟我们分享了有关河图的有关研究论文,该论文发表在 VLDB 2022 上的一篇工作:HET: Scaling out Huge Embedding Model Training via Cache-enabled Distributed Framework。希罕大模型的模型领域对照大,它的一个特殊之处在于可能 99% 的模型参数都会来自于 Embedding 层,也就是 Embedding Table。对于一个万亿领域的希罕大模型,它的参数量仅仅模型参数就需要占据 3.7 TB 这样的一个存储空间,显然是无法在单机从事训练的。在过去的这几年,工业界一直努力在这个方向上从事探索,但大多数都还是鉴于接纳结合现有的深度学习系统和高度工程优化的参数服务器的这种方案,希望能够把这个硬件的性能利用到极致。而事实上由于我们的网络带宽其实都是有限的,这些方案并没有从根本上去解决这个希罕大模型训练的问题。

图片

河图研究鉴于两点观察:Skewness、Robustness

HET 在尝试解决希罕大模型训练架构上的问题时,主要是鉴于两点观察。第一点是 Skewness 。可以注意到很多真实的希罕大模型,它的输入数据的特征分布往往具有倾斜分布的本质。举例来说,比如最常用的公开推荐数据集 Criteo 上面前 10% 的高频 Embedding 。经过统计,它已经占据整个数据集傍边 90% 的 Embedding 通讯。鉴于这种本质启发了苗博士团队在 HET 傍边对这些不均衡的 Embedding 分布去从事设计和讨论。第二个点是 Robustness。它并不是只针对希罕大模型,是机器学习本身的一个本质。

图片

由于希罕大模型具有希罕模型参数以及稠密模型参数两部分,它们具有天然不同的造访本质,所以总体上还是接纳一种混合的通讯架构。对于稠密的参数,接纳 GPU 间性能对照高的 Allreduce 的方式从事同步。对于希罕的 Embedding 参数,接纳类似参数服务器的架构,并在参数服务器的架构上从事一个改变。

图片

接纳 Cache Embedding Table 来缓存这些高频造访的 Embedding 参数

对照不一样的是, HET Client 在这里设计了一个 Cache Embedding Table 这样的一个概念。这个 Embedding 缓存是整个设计方案的一个核心。具体来说接纳 Cache Embedding Table 来缓存这些高频造访的 Embedding 参数。同时,为了保证模型的收敛性,苗博士团队提出了一种细粒度鉴于 Emending Clock 的有限异步协议来解决如何在不同的节点傍边去同步这些 Embedding 正本,既允许读取一些对照旧的 Embedding 同时也允许延缓写回缓存上的梯度更新。在这个结构基础上去引入一个对照重要的  Lamport Clock ,用来记录 Embedding 向量的状态。在训练过程中,通过对照 Embedding 的时钟就可以知道这个正本的延缓或者超前的程度。

图片

最后苗博士向我们展示了 HET 的有关实验数据。实验结果发现 HET 能够减少超过 88% 的 Embedding 通讯。在整体的 End to End 的训练时间上,可以实现 20 倍以上的加速。

图片

图片

原创文章,作者:SOTA模型,如若转载,请注明出处:https://www.iaiol.com/news/creator-mian-dui-mian-bei-da-he-tu-zai-xi-han-da-mo-xing/

(0)
上一篇 2022年 7月 13日 下午2:36
下一篇 2022年 7月 14日 下午4:38

相关推荐

  • google研究总监Peter Norvig赴斯坦福任教,著有《人工智能:一种现代方法》

    Peter Norvig:AI 在线课程 10 万报名只有 1.6 万人上完,这才是必要解决的题目。

    2021年 10月 12日
  • 大模型、RISC-V、边缘计算,这场大咖云集的开发者盛会全日程公布(别忘了抽显卡)

    4 场 Keynote、9 场中心报告、线上「开发者十问」环节、2021 年云帆奖颁奖典礼,2021 世界人工智能大会(WAIC)AI 开发者论坛全日程公布。届时,来自学术界和产业界的 15 位嘉宾将以「后深度学习的 AI 时代」为中心与现场观众进行交流分享。

    2021年 6月 29日
  • 后续!明尼苏达大学研讨者为bug事件致歉,Linux内核社区不予接受

    明尼苏达大学研讨者发表了致 Linux 内核社区的公开报歉信,但遗憾的是,Linux 内核维护者不接受他们的报歉。

    2021年 4月 27日
  • ImageNet「众包」成就伟大数据集,「昇腾众智」创新AI开发模式

    作为人工智能社区群策群力的早期形式,「众包」成就了 ImageNet 等一批成功的数据集,也加快了整个社区的发展进程。但要构建人工智能技术开发生态,仅靠「众包」是不够的。

    2021年 3月 26日
  • 鉴于会话推举体系最新长文综述,163篇参考文献,已被ACM Computing Surveys接收

    鉴于会话的推举体系,作为一种新兴的推举体系范式,正方兴未艾,大量的新技术和新要领层出不穷。这篇综述给读者在关于这个畛域的主要问题、关键挑拨、最新进展以及主要要领和应用等方面提供了一个综合而全面的认知。

    2021年 5月 23日
  • Creator 面对面 | 大模型的末尾一千米路“不太平”

    自 2018 年谷歌推出 BERT 以来,语言模型就开始朝着「大模型」的标的目的演进。21 年诸如华为联合鹏城实验室 2000 亿参数的盘古、谷歌 1.6 万亿参数的 Switch Transfomer、智源研究院 1.75 万亿参数的的悟道 2.0 等相继产出。

    2022年 7月 19日
  • 滴滴主动驾驭将获超3亿美元融资,市值或超小马智行

    日前,据媒体报道,滴滴主动驾驭即将完成新一轮融资,融资金额超3亿美元,其中广汽集团投资2亿美元(广汽集团直接投资1亿美元,广汽资本旗下基金投资1亿美元)。自2019年滴滴主动驾驭从滴滴出行中拆分独立后,该公司目前共计融资超11亿美元(约70亿元人民币)。有知情人士称,在此轮融资过后,滴滴主动驾驭估值将超过小马智行。值得注意的是,5月17日,滴滴主动驾驭与广汽埃安新能源汽车便已达成战略单干,单方将在智能汽车领域探讨单干模式,结合滴滴主动驾驭软、硬件技术研发优势与广汽埃安的主动驾驭整车平台及整车设计制造能力,开发一款可

    2021年 6月 1日
  • 海内外71支劲旅角逐青光眼AI,视杯盘宰割义务体素科技团队斩获第一

    MICCAI(Medical Image Computing and Computer Assisted Intervention)始于1998年的麻省理工学院,意在探索医学影像、计算机辅助介入以及两者融合的价值。20逾年的发展,MICCAI已成为医学影像分析行业的顶级学术会议。百度组织的眼科医学影像分析研讨会OMIA (Ophthalmic Medical Image Analysis)是眼科影像领域的重点研讨会之一,至今已举办八届。2021MICCAI之上,OMIA将议点聚焦于青光眼之上,举办了GAMMA挑战赛

    2021年 10月 1日
  • 2021 Facebook 博士奖研金名单出炉:13位华人学者获选

    今年,Facebook 从来自全球百余所大学的 2163 份申请中选出了 26 位奖研金获得者,华人博士生占据半数。当地时间 4 月 22 日,Facebook 公布了 2021 年博士生奖研金(2021 PhD Fellowship)获得者的名单,共有 26 位博士生获奖,其中华人博士生占据半数,多达 13 位。Facebook 奖研金计划主要面向计算机科学与工程领域的重要主题,包括计算机视觉、编程语言等。获奖者将获得为期两个学年的学费,并获得 42000 美元的津贴,其中包括会议旅行等支持。此外,获奖者还将受邀

    2021年 4月 24日
  • baidu全新无人挖掘机功课体系登上国际权威期刊《Science Robotics》

    近日,由baidu研究院机器人与自动驾驶实验室(RAL)团队牵头开发的全新无人挖掘机功课体系(AES)这一最新技能成果,登上了国际顶级期刊《Science》子刊《Science Robotics》,并获得了评审专家与期刊编委的高度评价。该研究融合了感知、活动布局和控制体系,可驱动挖掘机自主完成挖装恣意,从事24小时连续无人化功课,并成为全球首个实际落地的、可长时间功课的无人挖掘机体系,在工程机械自动化、无人化功课领域具有重要价值和影响。随着新型基础设施建设的大力推进,工程机械行业乘风而上,并不断向数字化、智能化方向演进。

    2021年 7月 2日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注