详解AI加速器(一):2012年的AlexNet到底做对了什么?

AI、机器进修、深度进修的概念可以追溯到几十年前,然而,它们在过去的十几年里才真正流行起来,这是为什么呢?AlexNet 的基本结构和之前的 CNN 架构也没有本质区别,为什么就能一鸣惊人?在这一系列文章中,前苹果、飞利浦、Mellanox(现属英伟达)工程师、普林斯顿大学博士 Adi Fuchs 尝试从 AI 加速器的角度为我们寻找这些问题的答案。当代世界正在经历一场革命,人类的体验从未与科技如此紧密地结合在一起。过去,科技公司通过观察用户行为、研究市场趋势,在一个通常必要数月甚至数年时候的周期中优化产品线来改进

AI、机器进修、深度进修的概念可以追溯到几十年前,然而,它们在过去的十几年里才真正流行起来,这是为什么呢?AlexNet 的基本结构和之前的 CNN 架构也没有本质区别,为什么就能一鸣惊人?在这一系列文章中,前苹果、飞利浦、Mellanox(现属英伟达)工程师、普林斯顿大学博士 Adi Fuchs 尝试从 AI 加速器的角度为我们寻找这些问题的答案。

图片

当代世界正在经历一场革命,人类的体验从未与科技如此紧密地结合在一起。过去,科技公司通过观察用户行为、研究市场趋势,在一个通常必要数月甚至数年时候的周期中优化产品线来改进产品。如今,人工智能已经为无需人工干预就能驱动人机反馈的自我改进(self-improving)算法铺平了道路:人类体验的提升给好的技术解决方案带去奖励,而这些技术解决方案反过来又会提供更好的人类体验。这一切都是在数百万(甚至数十亿)用户的规模下完成的,并极大地缩短了产品优化周期。人工智能的成功归功于三个重要的趋势:1)新鲜的研究项目推动新的算法和适用的用例;2)拥有收集、组织和分析大量用户数据的集中式实体(例如云服务)的能力;3)新鲜的盘算基础设施,可以快速处置惩罚大规模数据。在这个系列的文章中,前苹果、飞利浦、Mellanox(现属英伟达)工程师、普林斯顿大学博士 Adi Fuchs 将重点关注第三个趋势。具体来说,他将对 AI 应用中的加速器做一个高层次的概述——AI 加速器是什么?它们是如何变得如此流行的?正如在后面的文章中所讨论的,加速器源自一个更广泛的概念,而不仅仅是一种特定类型的系统或实现。而且,它们也不是纯硬件驱动的。事实上,AI 加速器行业的大部分焦点都集中在构建稳健而复杂的软件库和编译器工具链上。以下是第一部分的内容,其余部分将在后续的文章中更新。人工智能不仅仅是软件和算法AI / 机器进修 / 深度进修的概念可以追溯到 50 多年以前,然而,它们在过去的十几年里才真正流行起来。这是为什么呢?很多人认为,深度进修的复兴始于 2012 年。当时,来自多伦多大学的 Alex Krizhevsky、Ilya Sutskever、Geoffrey Hinton 等人提出了一个名为「AlexNet」的深度神经收集并凭借该收集赢得了 2012 年大规模视觉识别挑战赛的冠军。在这场比赛中,参赛者必要完成一个名叫「object region」的任务,即给定一张包含某目标的图像和一串目标类别(如飞机、瓶子、猫),每个团队的实现都必要识别出图像中的目标属于哪个类。AlexNet 的表现颇具颠覆性。这是获胜团队首次使用一种名为「卷积神经收集(CNN)」的深度进修架构。由于表现过于惊艳,之后几年的 ImageNet 挑战赛冠军都沿用了 CNN。这是盘算机视觉史上的一个关键时刻,也激发了人们将深度进修应用于其他领域(如 NLP、机器人、推荐系统)的兴趣。

图片

ImageNet 挑战赛冠军团队的分类错误率逐年变化情况(越低越好)。有意思的是,AlexNet 的基本结构和之前那些 CNN 架构并没有太大区别,比如 Yann LeCun 等人 1998 年提出的 LeNet-5。当然,这么说并不是想抹杀 AlexNet 的创新性,但这确实引出了一个问题:「既然 CNN 不是什么新东西,AlexNet 的巨大成功还可以归因于哪些要素呢?」从摘要可以看出,作者确实使用了一些新鲜的算法技术:「为了加速训练,我们用到了非饱和神经元和一个非常高效的 GPU 卷积操作实现。」事实证明,AlexNet 作者花了相当多的时候将耗时的卷积操作映射到 GPU 上。与标准处置惩罚器相比,GPU 可以更快地执行特定任务,如盘算机图形和基于线性代数的盘算(CNN 包含大量的此类盘算)。高效的 GPU 实现可以帮他们缩短训练时候。他们还详细说明了如何将他们的收集映射到多个 GPU,从而可以部署更深、更宽的收集,并以更快的速度进行训练。拿 AlexNet 作为一个研究案例,我们可以找到一个回答开篇问题的线索:尽管算法方面的进展很重要,但使用专门的 GPU 硬件使我们可以在合理的时候内进修更复杂的关系(收集更深、更大 = 用于预测的变量更多),从而提高了整个收集的准确率。如果没有能在合理的时候框架内处置惩罚所有数据的盘算能力,我们就不会看到深度进修应用的广泛采用。如果我是一名 AI 从业者,我必要关心处置惩罚器吗?作为一名 AI 从业者,你希望专注于探索新的模型和想法,而不希望过多担心看起来不相关的问题,如硬件的运行方式。因此,虽然理想的答案是「不,你不必要了解处置惩罚器」,但实际的答案是「能够还是要了解一下」。如果你非常熟悉底层硬件以及如何调试功能,那么你的推理和训练时候就会发生变化,你会对此感到惊讶。

图片

各种并行化技术对于矩阵乘法的加速效果。如果不懂硬件,你所花的时候能够会多 2-3 倍,有时甚至多一个数量级。简单地改变做矩阵乘法的方式能够帮你收获巨大的功能提升(或损失)。功能欠佳能够会影响你的生产力以及你可以处置惩罚的数据量,并最终扼杀你的 AI 周期。对于一家大规模开展人工智能业务的企业来说,这相当于损失了数百万美元。那么,为什么不能保证得到最佳功能呢?因为我们还没有有效地达到合理的「user-to-hardware expressiveness」。我们有一些有效利用硬件的用例,但还没泛化到「开箱即用」的程度。这里的「开箱即用」指的是在你写出一个全新的 AI 模型之后,你无需手动调整编译器或软件堆栈就能充分利用你的硬件。

图片

AI User-to-Hardware Expressiveness。上图说明了「user-to-hardware expressiveness」的主要挑战。我们必要准确地描述用户需求,并将其转换成硬件层(处置惩罚器、GPU、内存、收集等)可以理解的语言。这里的主要问题是,虽然左箭头(programming frameworks)主要是面向用户的,但将编程代码转换为机器码的右箭头却不是。因此,我们必要依靠智能的编译器、库和解释器来无缝地将你的高级代码转换为机器表示。这种语义鸿沟难以弥合的原因有两个:1)硬件中有丰富的方法来表达复杂的盘算。你必要知道可用的处置惩罚元素的数量(如 GPU 处置惩罚核心)、你的程序必要的内存数量、你的程序所展示的内存访问模式和数据重用类型,以及盘算图中不同部分之间的关系。以上任何一种都能够以意想不到的方式对系统的不同部分造成压力。为了克服这个问题,我们必要了解硬件 / 软件堆栈的所有不同层是如何交互的。虽然你可以在许多常见的场景中获得良好的功能,但现实中还有无尽的长尾场景,你的模型在这些场景中能够表现极差。2)虽然在盘算世界中,软件是慢的,硬件是快的,但部署世界却在以相反的方式运行:深度进修领域正在迅速变化;每天都有新的想法和软件更新发布,但构建、设计和试生产(流片)高端处置惩罚器必要一年多的时候。在此期间,目标软件能够已经发生了显著的变化,所以我们能够会发现处置惩罚器工程师一年前的新想法和设计假设已经过时。因此,你(用户)仍然必要探索正确的方法来识别盘算耗时瓶颈。为此,你必要了解处置惩罚器,特别是当前的 AI 加速器,以及它们如何与你的 AI 程序交互。原文链接:https://medium.com/@adi.fu7/ai-accelerators-part-i-intro-822c2cdb4ca4

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/xiang-jie-ai-jia-su-qi-yi-2012-nian-de-alexnet-dao-di-zuo/

(0)
上一篇 2022年 1月 12日 下午3:05
下一篇 2022年 1月 15日 上午8:32

相关推荐

  • ICLR2022:清华、腾讯AI Lab共同提出等变图力学网络,实现多刚体物理体系摹拟

    清华 AIR、计算机系与腾讯 AI Lab 合作,共同提出等变图力学网络,实现了理论力学中的一类重要任务—多刚体体系摹拟。

    2022年 3月 27日
  • CVPR 2021 Oral | 室内动向场景中的相机重定位

    本文是对发表于计算机视觉和模式识别领域的顶级会议 CVPR 2021的 Oral 论文 “Robust Neural Routing Through Space Partitions for Camera Relocalization in Dynamic Indoor Environments”(通过在空间区分中鲁棒的神经路由实现室内动向场景的相机重定位)的解读。
    该论文由北京大学陈宝权研究团队与山东大学、北京电影学院、斯坦福大学和 Google Research 合作,针对室内动向变化场景的相机重定位问题,提出在场景空间区分中进行路由的思想,记忆场景固态信息的同时感知场景动向信息,从而实现鲁棒的相机位姿预测。
    试验证明,该法子显著提升了动向变化场景中的相机重定位效果。

    2022年 7月 18日
  • 离群?非常十分?新类?开集?散布外检测?一文搞懂其间异同!

    你是否也曾迷惑于「离群检测,非常十分检测,新类检测,开集鉴别,散布外检测」之间错综复杂的关系?你是否也想要解决开放世界的问题却不知道从哪个任意入手?不知道利用什么方法解决问题?这篇最新综述将让你对开放世界畛域有全新的认识!

    2021年 10月 24日
  • Hologres揭秘:深度解析高效率分布式查问引擎

    Hologres(中文名交互式分析)是阿里云自研的一站式及时数仓,这个云原生体系融合了及时服务和分析大数据的场景,全面兼容PostgreSQL协议并与大数据生态无缝打通,能用同一套数据架构同时支持及时写入及时查问以及及时离线联邦分析。它的出现简化了业务的架构,与此同时为业务提供及时决策的能力,让大数据发挥出更大的商业价值。Hologres作为HSAP服务分析一体化的落地最佳实践,其查问引擎是一个完全自研的施行引擎,它的核心设计目标是支持所有类型的分布式分析和服务查问,并做到极致查问机能。为了做到这一点,我们借鉴了各

    2021年 8月 11日
  • 长城科技节开场要点:魏建军的「唯一机会」、华为与高德的「减法思考」,以及李克强提出的「落后束缚」

    在今日开幕的第8届长城科技节上,魏建军发布了长城汽车的2025战略——到2025年,实现全球年销量400万辆,其中80%为新能源汽车,营业收入超6000亿元。同时,长城汽车轮值总裁孟祥军也指出,长城正加速企业低碳智能升级,并计划2045年全面实现碳中和。为了实现这些目标,长城将在未来五年累计研发加入将达到1000亿元。这些加入,将集中在纯电动、氢能、混动等新能源领域,同时也将着力在低功耗、大算力芯片和碳化硅等第三代半导体关键核心技术,以及现代传感、信息融合、人工智能等方面,做好软件和硬件的交

    2021年 6月 29日
  • 无监督训练用重叠自编码器是否落伍?ML博士对比了8个自编码器

    柏林工业大学深度学习方向博士生 Tilman Krokotsch 在多项任意中对比了 8 种自编码器的性能。

    2021年 2月 17日
  • 汽车智能创业公司亿咖通科技,再获超2亿美元A+轮融资

    2021 年 2 月 25 日,亿咖通科技(ECARX)再获 A + 轮融资。此次融资由中国国有资本风险投资基金(中国国新控股集团旗下基金)领投,融资额超 2 亿美元。

    2021年 2月 25日
  • 扫鼻子找狗子:支付宝上线宠物鼻纹辨别,一键报失,全民帮寻

    世上没有两片完全相同的树叶,也没有完全相同的两个狗 / 猫鼻子。

    2021年 7月 20日
  • 大疆车载能否成为Tier1中的「小米」?

    4月19日,在上汽通用五菱与大疆联合发布的「奇遇·大疆」概念车前,当上汽通用五菱总经理沈阳高调提出要打造「人民的智能驾驭」时,正是对应了大疆车载那句看起来似乎很虚的口号——「为所有人,提供安全、轻松的出行体验」。可实际上,通过大疆在无人机领域所达成的成果,大疆车载的这句口号其实正是其重要的差异化定位:以低成本,达成高性能。在车展现场,大疆车载通过透明车身模型对大疆智能驾驭体系解决方案的零部件部署进行展示,通过车辆模型前部镶嵌的前向激光雷达,可以实时通过屏幕观看到车辆前方的点云信

    2021年 4月 22日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注