解读阿里云PAI模型紧缩手艺落地实时挪动端智能应用

随着挪动端AI应用摆设需求的日益增强,模型紧缩作为深度学习模型实现轻量化摆设的有用手段,在挪动端场景越来越受关注。尤其是剪枝、量化、权重稀疏化与网络结构搜索等算法政策,能够帮助减少深度模型端侧摆设时的资源消耗(Latency、Energy与Memory等),始终是学术界与工业界的发展焦点。阿里云机器学习PAI平台模型紧缩手艺,在端智能应用场景实现了端侧智能的快速赋能与应用落地。尤其在2020年阿里双十一期间,淘宝直播App的“一猜到底”语音交互游戏中,PAI模型紧缩手艺体现了关键作用。淘宝直播一猜到底背后的模型紧缩

随着挪动端AI应用摆设需求的日益增强,模型紧缩作为深度学习模型实现轻量化摆设的有用手段,在挪动端场景越来越受关注。尤其是剪枝、量化、权重稀疏化与网络结构搜索等算法政策,能够帮助减少深度模型端侧摆设时的资源消耗(Latency、Energy与Memory等),始终是学术界与工业界的发展焦点。

阿里云机器学习PAI平台模型紧缩手艺,在端智能应用场景实现了端侧智能的快速赋能与应用落地。尤其在2020年阿里双十一期间,淘宝直播App的“一猜到底”语音交互游戏中,PAI模型紧缩手艺体现了关键作用。

淘宝直播一猜到底背后的模型紧缩手艺

在2020年阿里双十一期间,淘宝直播App上线了趣味极强的“商品价格竞猜游戏”,由当红主播现场推荐商品,粉丝以“语音猜价”形式参与互动:

解读阿里云PAI模型紧缩手艺落地实时挪动端智能应用图1 淘宝直播“商品价格竞猜游戏”: 1) 在淘宝直播找到“一猜到底”; 2) 首席猜价官吴佳煜; 3) 游戏现场,薇娅直播;

我们知道,“价格竞猜游戏”已经是智能语音识别手艺在挪动端应用的成功案例,经受住了淘宝直播高访问流量的严格考验,一方面需要语音识别的准确无误(Low Error Rate),另一方面需要语音识别的高实时率(High RTF)。这背后是阿里巴巴多个手艺团队支持完成的,包括淘宝无线架构与开发手艺、达摩院ASR算法、阿里云PAI (Platform of A. I.)模型紧缩手艺与MNN挪动端推理引擎(参考文献[1])。此篇文章将详细解读涉及的模型紧缩手艺。

接下来,我们将解析PAI如何通过模型紧缩手艺,在帮助紧缩模型的同时,保证了语音识别的高准确率,并显著降低模型在挪动端摆设时的ROM/RAM/RTF,即参数存储、运行时内存与实时率开销。

PAI混淆精度量化手艺

模型紧缩是PAI云端一体解决方案的重要环节。如图2所示,在挪动端智能语音的E2E优化摆设链路中,PAI模型紧缩手艺(混淆精度后量化、量化训练、稀疏训练等)起着模型瘦身、复杂度降解的关键作用。

解读阿里云PAI模型紧缩手艺落地实时挪动端智能应用图2 PAI模型紧缩在E2E链路中的关健作用

智能语音应用涉及的ASR模型(SAN-M: Memory-block equipped Transformer ASR (参考文献[1]),如图3所示),属于典型的Transformer结构(Encoder + Auto-regressive Decoder架构),并通过全局与局部相关性信息编码的有用结合,提升了模型的收敛性能,确保模型结构获得有用精简。

解读阿里云PAI模型紧缩手艺落地实时挪动端智能应用图3 SAN-M模型结构: 由特征驱动的Self-Attention、与训练驱动的DFSMN记忆单元相结合,实现全局相关性与局部相关性特征的有用融合

基于PAI团队研发的混淆精度量化方法,有用实现了SAN-M模型的离线后量化(PTQ:Post-training Quantization)。混淆精度量化手艺的主要创新点包括:

支持端到端Transformer的离线后量化;相比于拆图量化、量化训练等方法,端到端后量化具备快捷、高效的优势,能够帮助用户一键摆设量化方案;集成了丰富的后量化政策,为后量化的精度鲁棒性提供了坚实保证;无Label干预的混淆精度量化流程,无需提供数据标注,且能准确反映逐层量化的敏感度;

支持端到端Transformer的离线后量化

由于Transformer模型存在自回归循环解码操作,较难直接获取解码器中的张量数据,因此现有的模型紧缩框架和推理优化工具,鲜少支持端到端Transformer的离线后量化如图4所示,PAI团队的后量化方法,引入了循环张量探针(Tensor Probe)的使用,有用支持了端到端Transformer模型的离线后量化。循环体内的张量(Tensor)通过若干个延迟单元的传输,构成了不同时刻的信号汇总。这些信号数据导出之后,便可有用支持离线量化参数的统计计算(KL、MSE或Cosine距离最小化等政策)。

解读阿里云PAI模型紧缩手艺落地实时挪动端智能应用图4 循环张量探针(Tensor Probe)的使用

集成了丰富的后量化政策

如图5所示,在执行Transformer模型的逐层量化(Layer-wise Quantization)时,每个网络层的输入/输出张量、以及网络权重的量化,都会引入量化噪声,主要包括Round误差、Clip误差。

解读阿里云PAI模型紧缩手艺落地实时挪动端智能应用图5 逐层量化引入的量化噪声

PAI团队的后量化方法,集成了多种可改善量化效果的PTQ政策,允许用户在Post-training阶段妥善解决量化误差问题,以避免进一步使用量化训练(QAT:Quantization-aware Training)等繁重方法。具体的PTQ政策,包括改进的KL算法、EasyQuant、Bias Correction、ADMM、Weight Adjustment等:

KL算法的改进,能够有用减少输入/输出张量的量化噪声;并且可以根据Activation的数据分布,自动选择最佳KL政策;EasyQuant(参考文献 [3])的使用,可进一步减少输入/输出张量的量化误差,尤其能改善INT7等更低精度量化的效果;Bias Correction(参考文献 [4])通过网络权重量化偏差(均值与方差的偏差)的补偿,减少权重量化噪声;同时对Bias Correction的适当改进,增强了对达摩院Transformer ASR的补偿效果;ADMM(参考文献 [5])亦可优化权重量化参数,减少权重量化噪声;也适当改进了ADMM的使用,从而在交替方向迭代范围内,确保权重量化误差最小;Weight Adjustment(参考文献 [6])在Kernel weight按Per-tensor量化时,通过Per-channel形式的等价均衡变换,可以减少Weight量化误差。

无Label干预的混淆精度量化流程

如图6所示,基于多种后量化政策的有用集成,PAI团队提出了Label-free混淆精度量化流程(Label-free AMP Pipeline, AMP:Automatic Mixed Precision):

该流程从模型输入到混淆精度决策,无需数据标注(Label)的干预,简洁易用、快捷有用;量化误差按逐层统计,并能准确表示每个网络层的量化敏感度,为混淆精度(INT8/FP32混淆)决策提供了有用基础;通过把控回退的网络层数,可选择出精度与模型容量折中最佳的帕累托最优解,完成多目标优化;生成的混淆精度量化表,能够对接挪动端推理框架MNN,以生成低延迟、高推理精度的运行时推理引擎;从而构成了完整的工具链路,即从混淆精度量化、到挪动端的推理摆设;AMP Pipeline不仅适用于挪动端,也适用于CPU/GPU优化摆设,体现了PAI云端一体的优势所在。

解读阿里云PAI模型紧缩手艺落地实时挪动端智能应用图6 Label-free混淆精度量化流程(Label-free AMP Pipeline)

基于AMP Pipeline,在挪动端摆设Transformer ASR模型时,通过回退Op数的把控,可以实现WER (SER)与ROM/RAM (RTF)之间的合理折中,妥善解决多目标优化问题。需要注意的原则主要有:

Model size、Latency与内存占用等,都会随着回退Op数的增加而增加,通常可以视作统一的目标函数,并以回退Op数作为自变量;在相同的帕累托前沿(Pareto front)上,回退Op数越多,通常WER越低、Model size越高,因此需要折中选择;不同的Pareto front (取决于PTQ政策的改善效果),回退相同的Op数,达到的折中状态有所不同;参考图7所示的Pareto fronts,都回退Op1,Pareto2的状态、优于Pareto1的状态;AMP目标:采用更有优势的PTQ政策,得到更好的Pareto front,为混淆精度择优提供有用基础;

解读阿里云PAI模型紧缩手艺落地实时挪动端智能应用图7 两种Pareto front的对比

表1列出了双十一使用的Transformer ASR模型,在业务测试集上的精度表现(WER:字错误率,SER:句错误率),包括FP32、全INT8、AMP INT8的对比。相比于原浮点模型,经过AMP INT8量化之后(回退3个Op,分类层保留为FP32实现),ASR模型的WER绝对损失低于0.1%、SER绝对损失低于0.5%、理论紧缩比约为3.19倍。并且,量化模型对Bad case也体现出了较强的容错性能,助力淘宝直播“价格竞猜游戏”经受住了直播场景的严格考验。

表1 ASR模型在业务测试集上的表现

量化方式

WER

SER

Theoretical Model Size

Encoder

Decoder

FP32

FP32

0.62%

4.27%

33.4MB

全INT8

1.06%

7.21%

9.36MB

AMP INT8 (回退3个Op)

0.70%

4.74%

10.48MB

PAI模型紧缩简介

离线量化相关的政策(包括PTQ/AMP等),已集成至PAI Blade,欢迎联系使用;并且面向挪动端应用,Blade紧缩工具支持随机稀疏紧缩与PTQ叠加使用,例如60%稀疏度时,叠加INT8量化、紧缩比可达6.6倍左右;

除了离线后量化之外,在诸如量化训练、网络剪枝、权重稀疏化与模型结构搜索等模型紧缩领域,PAI团队也长期坚持耕耘:

量化训练(QAT):Normal INT4/INT8、INT8 Winograd、Overflow-aware Quantization;网络剪枝:Channel-wise Pruning、AMC;权重稀疏化:Random/Block Sparsity;模型结构搜索:Channel-wise/Block-wise/Layer-wise NAS;

在模型紧缩方面,以量化训练为例,PAI与MNN团队合作提出了INT8 Winograd量化与计算加速手艺、并发表了合作论文 (参考文献[7])。在下游迁移阶段,针对带有一维卷积(kernel size>=3)的ASR模型,经过INT8 Winograd量化训练,能够有用确保Conv1D-based ASR模型的量化精度稳健性,并进一步实现一维卷积在挪动端的INT8计算加速。

从PAI量化训练、到MNN挪动端优化摆设,同样构成了完整的量化/优化工具链路(如图8所示),为端智能应用提供了一种可行的加速方案。此外,MNN的Overflow-aware Quantization (OAQ)也集成到了PAI平台:OAQ利用量化比特位宽的表示冗余,借助INT16单元,寄存中间、与最终乘累加结果,实现计算加速。

解读阿里云PAI模型紧缩手艺落地实时挪动端智能应用图8 从大规模预训练、到量化微调、再到优化摆设的工具链路

参考文献

[1] 淘宝直播“一猜到底”——挪动端实时语音识别手艺方案及应用: https://mp.weixin.qq.com/s?__biz=MzAxNDEwNjk5OQ==&mid=2650412372&idx=1&sn=74bbcdddb12f70ab31a936ef9ad8697c&chksm=8396dd4cb4e1545a19c4eb17da127c9ea344ec7652531a6ddd88f79a0b849b72e25f58285eba&token=821270436&lang=zh_CN

[2] Zhifu Gao, Shiliang Zhang, Ming Lei, Ian McLoughlin, “SAN-M: Memory Equipped Self-Attention for End-to-End Speech Recognition”, arXiv preprint 2006.01713.

[3] Di Wu, Qi Tang, Yongle Zhao, Ming Zhang, Ying Fu, Debing Zhang, “EasyQuant: Post-training Quantization via Scale Optimization”, arXiv preprint 2006.16669, 2020.

[4] Ron Banner, Yury Nahshan, Elad Hoffer, Daniel Soudry, “Post-training 4-bit quantization of convolution networks for rapid-deployment”, arXiv preprint 1810.05723, 2018.

[5] Cong Leng, Hao Li, Shenghuo Zhu, Rong Jin, “Extremely Low Bit Neural Network: Squeeze the Last Bit Out with ADMM”, arXiv preprint 1707.09870, 2017.

[6] Markus Nagel, Mart van Baalen, Tijmen Blankevoort, Max Welling, “Data-Free Quantization Through Weight Equalization and Bias Correction”, arXiv preprint 1906.04721, 2019.

[7] Yiwu Yao, Yuchao Li, Chengyu Wang, Tianhang Yu, Houjiang Chen, Xiaotang Jiang, Jun Yang, Jun Huang, Wei Lin, Hui Shu, Chengfei Lv, “INT8 Winograd Acceleration for Conv1D Equipped ASR Models Deployed on Mobile Devices”, arXiv preprint 2010.14841, 2020.

原创文章,作者:特邀精选,如若转载,请注明出处:https://www.iaiol.com/news/jie-du-a-li-yun-pai-mo-xing-jin-suo-shou-yi-luo-di-shi-shi/

(0)
上一篇 2021年 2月 17日 下午12:56
下一篇 2021年 2月 23日 下午2:59

相关推荐

  • 腾讯朱雀实验室推出代码防护技巧Deep Puzzling,让代码更难被猜透

    随着AI技巧与网络安全结合得越来越紧密,鉴于AI技巧的网络攻防手段也在日益更替。11月26日,全球顶级的信息安全峰会HITB+Cyberweek 2021于近日举办,腾讯朱雀实验室专家钻研员Jifeng Zhu和钻研员Keyun Luo受邀参加,并进行了题为《Deep Puzzling: Binary Code Intention Hiding based on AI Uninterpretability》(《鉴于AI不可解释性的二进制代码用意躲藏》)的议题分享。会上,腾讯朱雀实验室展示了如何行使AI模型的特性,实

    2021年 11月 27日
  • 物理学家在arXiv上怒斥自然封面常温超导论文,被禁言6个月

    在预印本平台上讨论学术问题也要文明、友好,这是 arXiv 刚刚给提交者上的一堂新课。

    2022年 3月 15日
  • 优化器怎么选?一文教你挑选适合不同ML项目的优化器

    为机械进修项目挑选符合的优化器不是一件简单的事。

    2021年 1月 5日
  • 宏景智驾CEO刘飞龙:利用「众筹法」接近主动驾驭终局

    作者 / 曹锦2018年,一支源自Cruise的初创团队准备在中国成立一家L4级主动驾驭公司。但是很快,他们就将定位由「Robotaxi量产公司」改为「L1-L4级智能驾驭规划服务商」。这是因为,当他们做了Robotaxi样车之后,却发现不管从法规还是商场接受度来看,L4级主动驾驭都还没迎来恰当的时机。之后的故事大家可能已经知道了,这家名为宏景智驾的公司,在刚成立三年半的时候,就实现了2亿元的营收,今年上半年的订单额更是高达4.9亿元。(左:宏景智驾创始人兼CEO刘飞龙,右:Auto Byte负责人 曹锦

    2022年 5月 31日
  • 参加这场大佬云集的开发者大会,还能抽RTX3060,请叫我「良心之心」

    这是一场 AI 开发者的盛会!2021 WAIC AI 开发者论坛上,多位业界大咖齐聚一堂,共同探讨后深度学习时代的 AI 发展。目前,AI 开发者论坛招募活动已经开启,1000 席免费专业观众席位 7 月 2 日报名截止。7 月 10 日上海,不见不散。

    2021年 6月 25日
  • NeurIPS 2020 | 微软亚洲研究院论文摘录之方针检测篇

    编者按:12月6日至12日,国际人工智能顶级会议 NeurIPS 2020(Conference and Workshop on Neural Information Processing Systems,神经信息处理系统大会)将在线上举办。相比前几年,2020年 NeurIPS 会议不管从论文投稿数量还是接收率都创下了记录:论文投稿数量创历史最高记录,比2019年增长了38%,但接收率却为史上最低。

    2020年 12月 3日
  • ICCV 2021 Anti-UAV Workshop & Challenge征稿啦,第二届“无人机追踪”挑战赛等你来战!

    作为计算机视觉规模的三大国际顶级会议之一,CCF A类国际会议ICCV 2021(IEEE International Conference on Computer Vision)将于2021年10月11-17日在线举办。近日,ICCV官方网站公布了Workshop Proposal的最终收录结果(http://iccv2021.thecvf.com/node/44),各式各样的Workshop和挑战赛已相继启动。其中,“全华班”AI 学者组织的The 2nd Anti-UAV W

    2021年 6月 8日
  • 机械进修获得了量子加速

    编辑 | 萝卜为了让 Valeria Saggio(麻省理工学院的量子物理学家)在她以前的维也纳试验室启动计算机,她需要一个特殊的水晶;水晶大概只有她的指甲那么大。Saggio 会轻轻地将它放入一个小铜盒,一个微型电烤箱,将晶体加热到 77 华氏度。然后她会打开激光,用一束光子轰击晶体。这种晶体,在这个精确的温度下,会将其中一些光子分裂成两个光子。其中一个会直接进入一个光探测器,它的旅程就结束了;另一个将进入一个微型硅芯片——一个量子计算处理器。芯片上的微型仪器可以驱动光子沿着不同的门路前进

    2022年 2月 11日
  • 从质料计划分解,到催化剂创新、碳中和,清华王笑楠团队探索「AI+质料」前沿与落地

    作者 | 清华大学王笑楠编辑 | 凯霞在当今科技飞速发展的时代,新质料的钻研与开发已成为推动迷信进步和工业革命的关键力量。从能源存储到信息技术,再到生物医药,创新质料的计划、分解及其功能表征是实现这些畛域突破的基石。随着人工智能(AI)技术的不断进步,其在新质料钻研中的集成利用已逐步开启一个全新的钻研范式,成为超越传统研发模式的新质生产力,特别是在质料的计划、分解和表征过程中,AI 的助力大大提高了钻研效率和精度。「17 岁上清华,27 岁做博导,30 岁回归清华,90 后科研女神,入选 2023 全球学者终身学术

    AI 2024年 4月 29日
  • 单芯片处理器走到尽头?苹果&英伟达倾心多芯片封装,互连技能最关键

    当单芯片处理器已达到极限,苹果和英伟达相继公布的芯片证明多芯片封装或许才是未来发展方向,但互连技能仍是一大难题和巨擘角逐的主战场。

    2022年 4月 10日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注