Creator 面对面 | 昇腾异构盘算架构 CANN 的技巧进展和未来展望

在 2021 年的最后一个季度, CANN 5.0 版本正式发布。昇腾 CANN 作为平台级的异构盘算架构,已经经过了 3 年多的优化,迭代了 4 个大版本,CANN 5.0 在性能方面,AI 模型训练/推理性能大幅提升,用时更短;在功能方面:推理引擎 ATC Suite1.0 首次发布,AI 模型推理性能更高、功能更全面;在便捷性方面:代码开发和调试进一步简化,包括支持混合编程等,使用门槛更低。在性能上,无论是训练规模大小、场景类型,还是推理效率,均有较大提升。实验数据显示,原本需要 6.25 分训练的 BERT 模型,在 CANN 5.0 的加持下缩短了一倍多,只需2.69分钟就能完成训练;至于在 3.0 版本上需要 28 秒训练的 ResNet ,5.0 版本则是“再进化”到 16 秒。

2022 年 1 月,华为昇腾 CANN 的首席架构师闫长江教授做客机器之心「2021-2022 年度 AI 技巧趋势洞察」的「工程专场」直播间时,为我们带来了主题为「昇腾异构盘算架构CANN的技巧进展和未来展望」的相关报告。

图片

闫长江教授的分享内容主要分为以下三部分:

对AI趋势发展的看法

昇腾异构盘算架构的最新进展

昇腾生态的一些策略和进展 

AI 作为现在一种新的技巧会对未来的社会产生巨大的影响

在对 AI 趋势发展的看法上,闫长江教授谈到 AI 作为现在一种新的技巧会对未来的社会产生巨大的影响,我们甚至可以把 AI 技巧跟历史上几次伟大的革命相对比,包括过去的蒸汽时代、电力时代,以及现在的信息化互联网时代。近期人工智能的发展主要有两个大方向,第一个方向是:从大模型走向超大模型。像 GPT 从一开始的 15 亿参数发展到现在 GTP 3 有 1000 多亿参数,华为盘古有 2000 亿参数,以及未来可能有这个 Switch Transformer 可能到万亿的参数。事实上这是一个必然,要想掌握海量数据里面的知识提取,就需要更大的模型来表达。另一个方向是:从单模态到多模态。以前 AI 的发展主要是专注于单个领域,比如语音、图像这些单个领域。而将来可能逐渐地走向多模态这个领域的发展,同时可以处理语音、图像、文本来办理更多的问题。

图片

人工智能要成为一项广泛使用的技巧,要办理怎么能让大量的企业用得上用得好,而当前还有很多问题要办理

接着闫长江教授向我们介绍昇腾异构盘算架构的最新进展。闫教授指出人工智能将来要成为一项广泛使用的技巧,要办理怎么能让大量的企业用得上用得好,当前还有很多问题要办理。主要面临以下三个问题:

算力昂贵

人才稀缺

开发难度大

图片

针对这些难点,华为昇腾异构盘算架构主要也是为了办理基础算力这一问题。目前 AI 在算力上面临的新挑战、新趋势以及新问题主要存在于四个方面:盘算新范式、异构盘算、大集群、推理部署。

图片

CANN 是昇腾 AI 全栈的核心,发挥承上启下的关键作用

针对以上的问题,昇腾的核心 CANN 对上适配多框架,对下适配多异构芯片,针对多样化使用场景,提供高效易用的编程方式,是突破 AI 产业平台的关键。

图片

CANN 的架构从内部核心来看包含:盘算执行引擎、张量编译器、算子库。从外部来看,最重要的是提供了几个编程接口。第一个是算子开发接口,该编程接口能够让开发者在昇腾芯片的基础上定义基础算子。另一个是模型编程接口,也就是构图接口,可以让开发者定义自己的模型。再来运行使用部署可以调用 HL 使用开发接口来把定义好的模型加载到系统上去运行调试。

图片

CANN 异构盘算架构在 2021 年取得了一些重大的进展和突破。这里闫教授跟我们分享了取得突破的四项关键优化技巧:

主动流水

算子深度融会

自适应梯度切分

智能盘算调优

图片

第一项是主动流水技巧。AI 的盘算里面,在一个芯片内也是有多引擎、编解码的单位、随机数发生器的单位,有 CPU 单位,也有矩阵盘算单位 (Cube Unit) 、向量盘算单位 (Vector Unit) ,把 host 、 device 这些异构的盘算单位,通过盘算的并行让它能够流水起来。这样在单个芯片内和 host 的协作完成一次流水。在大规模集群里面,也采用类似的一些流水技巧去优化整体性能。所以第一项关键技巧就是把能够流水并行的进行流水并行。

第二项优化是算子的深度融会。采用算子深度融会可以实现在 AI Core 内部直接进行盘算,性能得到大幅提升,并且融会主动化还支持融会规则灵活定制。

第三项是自适应梯度切分。在大规模集群训练中,因为需要梯度更新,如果每次把每一层的梯度都直接进行同步,这样产生拖尾比较大,中间相当于没有流水。采用自适应梯度切分是通过分析网络的每一个盘算耗时,通过分析梯度数据量,还有通讯的带宽等数据主动地去决定在什么时刻同步梯度,就把前前前后后几层梯度融到一起去进行同步。这样到最后拖尾就会变得很小,这样使得整个通讯同步基本上能接近于理论性能的 90% 以上。

最后是内部使用了大量的智能盘算调优。在 CANN 异构盘算架构中有个 AOE 模块用于完成各种调优。这里的调优实际上是包括算子本身的调优,自适应梯度调优等,通过调优工具来主动地完成很多优化的选择,这样使得整个模型的性能大大的提升。

华为 ModelZoo 在业内主流 Model 数量上有一个巨大的提升,助力开发者实现高性能推理使用

闫长江教授谈到在助力开发者实现高性能推理使用上,华为 ModelZoo 中在业内主流 Model 的数量上有一个巨大的提升,针对各个框架提供的 Model ,在 ModelZoo 中都已帮助调试优化。当用户要使用的 Model 在 ModelZoo 中,ModelZoo 内的模型都是经过迁移的,下载即可在昇腾平台使用。同时昇腾还专门为推理提供了一套工具包。这个工具包包括几个功能,一个是编译器,比如提供 Tensorflow 的图,这个编译器可以主动帮你编译成生成高性能盘算的模型。另外还提供了一个量化工具,推理的很多情况是为了追求高性能,需要做一个量化。这样这个完整的工具包能够帮助开发者快速地把一些推理使用编译部署到系统上。

图片

2021 CANN 在社区建设的各项指标中取得三倍的增长

最后,闫长江教授向介绍了昇腾生态的一些策略和进展。2021 年昇腾达到了差不多 60 万的开发者,期望 2022 年能进一步发展到百万开发者以上。昇腾生态主要考虑有这么几个方面:一个是 CANN 社区的建设。在 2021 年各项指标有了 CANN 社区各项数据都有了三倍的一个增长。另外还和各个科研院校有很多合作关系来一起改进昇腾技巧。同时也有一些众智成果,来把更多的模型迁移到昇腾的生态上。

图片

图片

原创文章,作者:SOTA模型,如若转载,请注明出处:https://www.iaiol.com/news/creator-mian-dui-mian-sheng-teng-yi-gou-pan-suan-jia-gou/

(0)
上一篇 2022年 7月 14日 下午4:38
下一篇 2022年 7月 16日 上午11:54

相关推荐

  • 我,波士顿能源的机器人工程师,这是我的一天

    波士顿能源大家都很熟悉,但该公司员工的任务和生活却很少有人了解。特别是新冠疫情在美国的蔓延,员工的日常任务和生活不可避免地受到了影响。本文就带大家看看波士顿能源的员工如何度过自己的一天。

    2021年 5月 27日
  • 鉴于会话推举体系最新长文综述,163篇参考文献,已被ACM Computing Surveys接收

    鉴于会话的推举体系,作为一种新兴的推举体系范式,正方兴未艾,大量的新技术和新要领层出不穷。这篇综述给读者在关于这个畛域的主要问题、关键挑拨、最新进展以及主要要领和应用等方面提供了一个综合而全面的认知。

    2021年 5月 23日
  • 海内外71支劲旅角逐青光眼AI,视杯盘宰割义务体素科技团队斩获第一

    MICCAI(Medical Image Computing and Computer Assisted Intervention)始于1998年的麻省理工学院,意在探索医学影像、计算机辅助介入以及两者融合的价值。20逾年的发展,MICCAI已成为医学影像分析行业的顶级学术会议。百度组织的眼科医学影像分析研讨会OMIA (Ophthalmic Medical Image Analysis)是眼科影像领域的重点研讨会之一,至今已举办八届。2021MICCAI之上,OMIA将议点聚焦于青光眼之上,举办了GAMMA挑战赛

    2021年 10月 1日
  • 模型鲁棒性好不好,复旦大学一键式评测平台告诉你

    复旦大学自然言语处置惩罚实验室发布模型鲁棒性评测平台 TextFlint。该平台涵盖 12 项 NLP 使命,囊括 80 余种数据变形步骤,花费超 2 万 GPU 小时,进行了 6.7 万余次实验,考证约 100 种模型,选取约 10 万条变形后数据进行了言语合理性和语法正确性人工评测,为模型鲁棒性评测及提升提供了一站式解决方案。

    2021年 4月 6日
  • 中科驭数宣布完成数亿元A+轮融资,第二代DPU芯片完成研发计划

    DPU芯片计划企业中科驭数今日宣布完成数亿元规模A+轮融资,本轮融资由麦星投资和昆仑资源结合领投,老股东灵均投资、光环资源追加投资。这是继7月底完成A轮融资之后,中科驭数今年获得的第二笔更大规模的数亿元融资。所筹资金将用于DPU芯片的研发和量产、以及市场开拓。曾经完成第二代DPU芯片K2的计划工作中科驭数正在研发的第二代DPU芯片K2曾经完成计划和验证工作,预计将于2022年第一季度投产流片。DPU是数据专用处理器(Data Processing Unit),是数据中心继CPU和GPU之后第三颗重要的算力芯片。随着

    2021年 12月 21日
  • 可对药物份子举行表征的若干深度进修

    编辑 | 萝卜皮若干深度进修(GDL)基于包罗和处理对称信息的神经网络架构。GDL 为依赖于具有不同对称性和抽象级别的份子体现的份子建模利用程序带来了希望。苏黎世联邦理工学院的研讨人员对份子 GDL 举行了结构化和统一概述,重点介绍了其在药物发现、化学合成猜测和量子化学中的利用。它包罗对 GDL 原理的介绍,以及相关的份子体现,例如份子图、网格、曲面和字符串,以及它们各自的属性。讨论了份子科学中 GDL 当前面临的挑战,并尝试猜测未来的机会。该综述以「Geometric deep learning on molec

    2021年 12月 27日
  • 银行流水、财报、年报、电费分割单等各类文档一键提炼,悲观表格提炼对象再升级!

    很多工作流程中涉及文档的表格的提炼,比如财报信息的鉴别提炼、银行流水的表格审查等,并且这些文档常常在PDF、扫描件、图片等无法直接复制出表格样式的文档中。人工操纵费时费力,还需要留心出错的问题。 悲观数据智能表格提炼对象,结合NLP、OCR、CV 等自研人工智能技术,以智能化方式解决文档表格提炼中的核心痛点问题。可以支援PDF、Word、扫描件、图片等多种文档花样范例,快捷提炼文档中的表格信息,更直觉、更方便、更准确的完成文档的表格提炼,让表格鉴别提炼工作更轻松。 先感受下弱小便捷的产品使用体验

    2022年 1月 11日
  • 阿里开源 反对10万亿模型的自研分布式训练框架EPL(Easy Parallel Library)

    最近阿里云机器学习PAI平台和达摩院智能估计实验室一起发布“低碳版”巨模型M6-10T,模型参数已经从万亿跃迁到10万亿,规模远超业界此前发布的万亿级模型,成为当前全球最大的AI预训练模型。

    2022年 3月 30日
  • 外国传授在B站当UP主上课,网友直呼好家伙:滑铁卢大学《差分隐衷》课程上线

    Gautam Kamath 的课程,让网友们直呼好家伙。

    2021年 1月 5日
  • 时隔近50年,剑桥团队首次检测到量子自旋液体,钻研登上《Science》

    钻研者应用量子摹拟器检测到一种难以捉摸的物资形态:量子自旋液体,可用于量子计算机等技术的发展。

    2021年 12月 9日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注