优化器怎么选?一文教你挑选适合不同ML项目的优化器

为机械进修项目挑选符合的优化器不是一件简单的事。

优化器是深度进修领域的重要组成模块之一,执行深度进修任务时采用不同的优化器会产生截然不同的效果。这也是研究者们不遗余力「炼丹」的原因之一。常见的优化算法包括梯度降落(变体 BGD、SGD 和 MBGD)、Adagrad、Adam、Momentum 等,如此繁多的优化器应该如何做出抉择呢?不久前,Lightly-ai 的机械进修工程师 Philipp Wirth 撰写了一篇指南,总结了计算机视觉、自然语言处理和机械进修领域普遍应用的盛行优化器,并就如何挑选符合的优化器给出了建议。

优化器怎么选?一文教你挑选适合不同ML项目的优化器

具体而言,这篇文章提出鉴于以下 3 个课题来挑选优化器:

找到相关的研究论文,开始时应用相同的优化器;

查看表 1,并一一对照自己所用数据集的属性以及不同优化器的优缺点;

根据可用资源调整优化器。

引言为机械进修项目挑选好的优化器不是一项容易的任务。盛行的深度进修库(如 PyTorch 或 TensorFLow)提供了多种优化器挑选,它们各有优缺点。并且,挑选不符合的优化器能够会对机械进修项目产生很大的负面影响。这使得挑选优化器成为构建、测试和部署机械进修模型过程中的关键一环。

优化器怎么选?一文教你挑选适合不同ML项目的优化器

上图显示了由于优化器不同,模型机能能够会差异很大。挑选优化器的课题在于没有一个可以解决所有课题的单一优化器。实际上,优化器的机能高度依赖于设置。所以根本课题是:「哪种优化器最适合自身项目的特点?」下文就围绕这个课题分两部分展开,第一部分简要介绍常用的优化器,第二部分讲述「三步挑选法」,帮助用户为自己的机械进修项目挑选出最佳优化器。常用优化器深度进修中几乎所有盛行的优化器都是鉴于梯度降落。这意味着它们要反复估计给定损失函数 L 的斜率,并沿着相反的目标移动参数(因此向下移动至假定的全局最小值)。这种优化器最简单的示例是自 20 世纪 50 年代以来一直应用的随机梯度降落(SGD)算法。21 世纪前 10 年,自符合梯度法(如 AdaGrad 或 Adam)变得越来越盛行。但最近的趋势表明,部分研究转而应用先前的 SGD,而非自符合梯度法。此外,当前深度进修中的挑战带来了新的 SGD 变体,例如 LARS、LAMB[6][7]。例如谷歌研究院在其最近的论文中应用 LARS 训练一种强大的自监督模型[8]。本文中用 w 代表参数,g 代表梯度,α为每个优化器的全局进修率,t 代表时间步(time step)。随机梯度降落(SGD)算法

优化器怎么选?一文教你挑选适合不同ML项目的优化器

在随机梯度降落算法(SGD)中,优化器鉴于小批量估计梯度降落最快的目标,并朝该目标迈出一步。由于步长固定,因此 SGD 能够很快停滞在平稳区(plateaus)或者局部最小值上。带动量的 SGD

优化器怎么选?一文教你挑选适合不同ML项目的优化器

其中β<1。当带有动量时,SGD 会在连续降落的目标上加速(这就是该法子被称为「重球法」的原因)。这种加速有助于模型逃脱平稳区,使其不易陷入局部极小值。AdaGrad

优化器怎么选?一文教你挑选适合不同ML项目的优化器

AdaGrad 是首批成功利用自符合进修率的法子之一。AdaGrad 鉴于平方梯度之和的倒数的平方根来缩放每个参数的进修率。该过程将希罕梯度目标放大,以允许在这些目标上进行较大调整。结果是在具有希罕特征的场景中,AdaGrad 能够更快地收敛。RMSprop

优化器怎么选?一文教你挑选适合不同ML项目的优化器

RMSprop 是一个未发布的优化器,但在最近几年中已被过度应用。其理念类似于 AdaGrad,但是梯度的重新缩放不太积极:用平方梯度的移动均值替代平方梯度的总和。RMSprop 通常与动量一起应用,可以理解为 Rprop 对小批量设置的符合。Adam

优化器怎么选?一文教你挑选适合不同ML项目的优化器

Adam 将 AdaGrad、RMSprop 和动量法子结合到一起。下一步的目标由梯度的移动平均值决定,步长大小由全局步长大小设置上限。此外,类似于 RMSprop,Adam 对梯度的每个维度进行重新缩放。Adam 和 RMSprop(或 AdaGrad)之间一个主要区别是对瞬时估计 m 和 v 的零偏差进行了矫正。Adam 以少量超参数微调就能获得良好的机能著称。AdamW

优化器怎么选?一文教你挑选适合不同ML项目的优化器

Loshchilov 和 Hutter 在自符合梯度法子中确定了 L2 正则化和权重降落的不等式,并假设这种不等式限制了 Adam 的机能。然后,他们提出将权重衰减与进修率解耦。实验结果表明 AdamW 比 Adam(利用动量缩小与 SGD 的差距)有更好的泛化机能,并且对于 AdamW 而言,最优超参数的范围更广。LARS

优化器怎么选?一文教你挑选适合不同ML项目的优化器

LARS 是 SGD 的有动量扩展,可以符合每层的进修率。LARS 最近在研究界引起了关注。这是由于可用数据的稳定增长,机械进修的分布式训练也变得越来越盛行。这使得批处理大小开始增长,但又会导致训练变得不稳定。有研究者(Yang et al)认为这些不稳定性源于某些层的梯度标准和权重标准之间的不平衡。因此他们提出了一种优化器,该优化器鉴于「信任」参数η<1 和该层梯度的反范数来重新调整每层的进修率。如何挑选符合的优化器?如上所述,为机械进修课题挑选符合的优化器能够非常困难。更具体地说,没有万能的解决方案,只能根据特定课题挑选符合的优化器。但在挑选优化其之前应该问自己以下 3 个课题

类似的数据集和任务的 SOTA 结果是什么?

应用了哪些优化器?

为什么应用这些优化器?

如果您应用的是新型机械进修法子,那么能够存在一篇或多篇涵盖类似课题或处理了类似数据的优秀论文。通常,论文作者会进行广泛的交叉验证,并且给出最成功的配置。读者可以尝试理解他们挑选那些优化器的原因。例如:假设你想训练生成对抗网络(GAN),以对一组图像执行超分辨率。经过一番研究后,你偶然发现了一篇论文 [12],研究人员应用 Adam 优化器解决了完全相同的课题。威尔逊等人[2] 认为训练 GAN 并不应该重点关注优化课题,并且 Adam 能够非常适合这种情况。所以在这种情况下,Adam 是不错的优化器挑选。此外,你的数据集中是否存在可以发挥某些优化器优势的特性?如果是这样,则需要考虑优化器的挑选课题。下表 1 概述了几种优化器的优缺点。读者可以尝试找到与数据集特征、训练设置和项目目标相匹配的优化器。某些优化器在具有希罕特征的数据上表现出色,而有一些将模型应用于先前未见过的数据时能够会表现更好。一些优化器在大批处理量下可以很好地工作,而另一些优化器会在泛化不佳的情况下收敛到极小的最小值。

优化器怎么选?一文教你挑选适合不同ML项目的优化器

举例而言:如果你需要将用户给出的反馈分类成正面和负面反馈,考虑应用词袋模型(bag-of-words)作为机械进修模型的输入特征。由于这些特征能够非常希罕,所以决定采用自符合梯度法子。但是具体挑选哪一种优化器呢?参考上表 1,你会发现 AdaGrad 具有自符合梯度法子中最少的可调参数。在项目时间有限的情况下,能够就会挑选 AdaGrad 作为优化器。最后需要考虑的课题:该项目有哪些资源?项目可用资源也会影响优化器的挑选。计算限制或内存限制以及项目时间范围都会影响优化器的挑选范围。如上表 1 所示,可以看到每个优化器有不同的内存要求和可调参数数量。此信息可以帮助你估计项目设置是否可以支持优化器的所需资源。举例而言:你正在业余时间进行一个项目,想在家用计算机的图像数据集上训练一个自监督的模型(如 SimCLR)。对于 SimCLR 之类的模型,机能会随着批处理大小的增加而提高。因此你想尽能够多地节省内存,以便进行大批量的训练。挑选没有动量的简单随机梯度降落作为优化器,因为与其他优化器相比,它需要最少的额外内存来存储状态。原文链接:https://lightly.ai/post/which-optimizer-should-i-use-for-my-machine-learning-project

Powered by Froala Editor

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/you-hua-qi-zen-me-xuan-yi-wen-jiao-ni-tiao-xuan-shi-he-bu/

(0)
上一篇 2021年 1月 5日 下午2:37
下一篇 2021年 1月 6日 下午2:51

相关推荐

  • 小鹏P5上海车展正式开启预订,载人飞行器同台亮相

    2021年4月19日,小鹏汽车携旗下第三款产品,全球首款搭载激光雷达的量产智能汽车——小鹏P5亮相2021上海车展,并举办以“天生智能 探究不止”为主题的新闻发布会。小鹏汽车董事长 CEO何小鹏与所有到场嘉宾一起分享如何让智能汽车更好地改变我们的出行生活,并宣布小鹏P5正式开启预订。2021上海车展小鹏汽车展台汽车董事长 CEO何小鹏在发布会现场,何小鹏表示:“我们始终在探究未来智能出行的可能性,无论是小鹏P5,还是旅航者X1,都是我们阶段性思考出来的产品

    2021年 4月 22日
  • AI保障反讹诈-病历结构化服务已落地应用

    保障科技的快速发展正在为保障业加速转型升级带来全新契机, 科技创新正深刻改变着保障的业务流程。病历结构化服务,助力其核保业务科技化高效化。项目背景1.政策背景近年来,随着保障覆盖面逐步扩大,保障讹诈案件数量也随之逐年增加,并且不断“花样”翻新。面对这一事关行业健康持续发展根基的难题,保障业正在积极寻求答案。根据国际保障监管者协会测算,全球每年约有20%-30%的保障赔款涉嫌讹诈,损失金额约800亿美元,险企迫切需要更加智慧化的核保风控系统解决这一问题。由于保费占比高、金额大,车险和健康险这两

    2021年 10月 18日
  • 相信AI的力量——「AI华夏」机械之心 2021年度评比奖项设置及参选说明

    在一年之末,机械之心将启动「AI华夏」机械之心2021年度评比暨「与AI俱进,化韶光为翎」分外策动,除了2021年度榜单之外还将分阶段推出一档年度内容专题、一份年度报告,并举办首届机械之心AI科技年会。

    2021年 9月 27日
  • 教授何恺明在MIT的第一堂课

    700 座的大教室,相比去年增加一倍容量,仍然座无虚席:这就是麻省理工学院(MIT)计算机视觉课《Advances in Computer Vision》6.8300 在 2024 新学期的盛况。今年是四位教授,每人负责一部分课程:课程信息:https://advances-in-vision.github.io/index.html有网友评论说,能选上这课的学生太幸运了,每节都是计算机视觉顶会 CVPR Oral 的体验。对于很多人来说,其中最为期待的自然是新晋教授何恺明的课。MIT 电气工程与计算机科学系副教授

    2024年 3月 11日
  • 伯克利抢手业余限人数,转入CS更难,斯坦福:我们不限,多多益善

    现在,世界名校也开始节制抢手业余人数了。

    2022年 9月 9日
  • 瑞莱聪慧完成新一轮战略融资,加速打造中国AGI危险基座

    近日,人工智能危险基础设施提供商瑞莱聪慧(RealAI)宣布完成新一轮战略融资,北京市人工智能产业投资基金等参与投资。本轮融资完成后,瑞莱聪慧将继续加速通用人工智能危险基座产物研发,并不断推进危险可控的大模型商业化落地。随着全球范围内最大规模的人工智能浪潮掀起,人工智能的可控性和危险性成为愈发重要的发展议题。如今,人工智能大模型的通用性和泛化性大幅提升,利用也从传统的判别式任务走向天生式任务,而人工智能的内生及衍生危险问题变得愈加复杂,其带来的挑衅和已经引起的各类危急事件也持续受到全球公众、企业和政府的广泛关注。当

    AI 2024年 4月 12日
  • 清华大学计图团队首创三角网格面片上的卷积神经搜集,首次取得100%正确率

    这项研究将极大地促进了三维视觉、虚拟现实、智慧城市和无人驾驶等领域的发展。

    2021年 6月 20日
  • Deadline提前,引入转动审稿,想投ACL 2022的同学要抓紧了

    新一年的 ACL 投稿新增了转动审稿阶段,请留意停止日期。

    2021年 8月 4日
  • 手把手教你,从零开始实现一个稀少混合大师架构语言模型(MoE)

    本文介绍了实现一个稀少混合大师语言模型(MoE)的方法,详细解释了模型的实施过程,包括采用稀少混合大师取代传统的前馈神经网络,实现 top-k 门控和带噪声的 top-k 门控,以及采用 Kaiming He 初始化技术。作者还说明了从 makemore 架构保持不变的元素,比如数据集处理、分词预处理和语言建模任务。最后还提供了一个 GitHub 仓库链接,用于实现模型的整个过程,是一本不可多得的实战教科书。内容简介在混合大师模型 Mixtral 发布后,混合大师模型(MoE)越来越受到人们的关注。在稀少化的混合专

    2024年 2月 16日
  • 无代码生产力对象赋能数字化供应链新发展

    「机器之心2021-2022年度AI趋势大咖说」聚焦「驱动将来的AI技术」与「重塑财产的AI科技」,推出线上分享,共邀请近40位AI领域知名学者、财产专家及企业高管通过主题分享及多人圆桌等形式,与行业精英、读者、观众共同回顾 2021年中的重要技术和学术热点,盘点AI财产的年度研究方向以及重大科技突破,展望2022年度AI技术发展方向、AI技术与财产科技融合趋势。

    2022年 8月 1日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注