超越全系列YOLO、Anchor-free+技巧组合,旷视开源本能更强的YOLOX

在本文中,来自旷视的研究者提出高本能检测器 YOLOX,并对 YOLO 系列进行了经验性改进,将 Anchor-free、数据加强等方针检测领域先进技术引入 YOLO。获得了超越 YOLOv3、YOLOv4 和 YOLOv5 的 AP,而且取得了极具竞争力的推理速率。随着方针检测技术的发展,YOLO 系列始终追寻可以实时应用的最佳速率和准确率权衡。学界人士不断提取当时最先进的检测技术(如 YOLOv2 的 anchor、YOLOv3 的残差网络),并对这些检测技术进行优化以兑现最佳本能。目前,YOLOv5 在速率和

在本文中,来自旷视的研究者提出高本能检测器 YOLOX,并对 YOLO 系列进行了经验性改进,将 Anchor-free、数据加强等方针检测领域先进技术引入 YOLO。获得了超越 YOLOv3、YOLOv4 和 YOLOv5 的 AP,而且取得了极具竞争力的推理速率。

随着方针检测技术的发展,YOLO 系列始终追寻可以实时应用的最佳速率和准确率权衡。学界人士不断提取当时最先进的检测技术(如 YOLOv2 的 anchor、YOLOv3 的残差网络),并对这些检测技术进行优化以兑现最佳本能。目前,YOLOv5 在速率和准确率上有最好的权衡,在 COCO 数据集上以 13.7ms 的速率获得 48.2% AP。然而,过去两年时间里,方针检测领域的主要进展集中在无锚点(anchor-free)检测器、先进的标签分派战略以及端到端的(NMS-free)检测器。但是,这些技术还没有集成到 YOLO 系列模型中,YOLOv4 、 YOLOv5 仍然还是基于 anchor 的检测器,应用手工分派战略进行训练。近日,旷视的研究者将解耦头、数据加强、无锚点以及标签分类等方针检测领域的优秀进展与 YOLO 进行了巧妙地集成组合,提出了 YOLOX,不仅兑现了超越 YOLOv3、YOLOv4 和 YOLOv5 的 AP,而且取得了极具竞争力的推理速率。

超越全系列YOLO、Anchor-free+技巧组合,旷视开源本能更强的YOLOX

论文地址:https://arxiv.org/abs/2107.08430

项目地址:https://github.com/Megvii-BaseDetection/YOLOX

考虑到 YOLOv4、YOLOv5 在基于 anchor pipeline 中可能会出现一些过拟合,研究者选择 YOLOv3 作为起点(将 YOLOv3-SPP 设置为默认的 YOLOv3)。事实上,由于计算资源有限,以及在实际应用中软件支持不足,YOLOv3 仍然是业界应用最广泛的检测器之一。如下图 1 所示,通过将方针检测领域优秀进展与 YOLO 进行组合,研究者在图像分辨率为 640 × 640 的 COCO 数据集上将 YOLOv3 提升到 47.3% AP(YOLOX-DarkNet53),大大超过了目前 YOLOv3(44.3% AP,ultralytics version2)的最佳实践。此外,当将网络切换到先进的 YOLOv5 架构,该架构采用先进的 CSPNet 主干以及一个额外的 PAN 头,YOLOX-L 在 COCO 数据集、图像分辨率为 640 × 640 获得 50.0% AP,比 YOLOv5-L 高出 1.8% AP。研究者还在小尺寸上测试所设计的战略,YOLOX-Tiny 和 YOLOX-Nano(仅 0.91M 参数和 1.08G FLOPs)分别比对应的 YOLOv4-Tiny 和 NanoDet3 高出 10% AP 和 1.8% AP。

超越全系列YOLO、Anchor-free+技巧组合,旷视开源本能更强的YOLOX

在 CVPR 2021 WAD 挑战赛的 Streaming Perception Challenge 赛道上,旷视提出的基于 YOLOX 模型(YOLOX-L)的 2D 实时方针检测系统在 Argoverse-HD 数据集上兑现了 41.1 的 streaming AP。此外,研究者在推理时用到了 TensorRT 优化器,使得模型在高分辨输入(即 1440×2304)时兑现了 30 fps 的推理速率。

超越全系列YOLO、Anchor-free+技巧组合,旷视开源本能更强的YOLOX

图源:https://eval.ai/web/challenges/challenge-page/800/overviewYOLOX-DarkNet53研究者选择将 YOLOv3+Darknet53 作为基线模型,并基于它详细介绍了 YOLOX 的整个系统设计。兑现细节从基线模型到最终模型,研究者的训练设置基本保持一致。他们在 COCO train2017 数据集上训练了 300 个 epoch 的模型并进行 5 个 epoch 的 warmup,应用随机梯度下降(SGD)来训练,学习率为 lr×BatchSize/64 ,初始学习率为 0.01,并应用了余弦(cosine)学习机制。权重衰减为 0.0005,SGD momentum 为 0.9。批大小默认为 128(8 个 GPU),其他批大小应用单个 GPU 训练也运行良好。输入大小以 32 步长从 448 均匀过渡到 832。FPS 和延迟在单个 Tesla V100 上应用 FP16-precision 和 batch=1 进行测量。 YOLOv3 基线模型基线采用了 DarkNet53 主干和 SPP 层的架构(在一些论文中被称作 YOLOv3-SPP)。与初始兑现相比,研究者稍微改变了一些训练战略,添加了 EMA 权重更新、余弦学习机制、IoU 损失和 IoU 感知分支。他们应用 BCE 损失训练 cls 和 obj 分支,应用 IoU 损失训练 reg 分支。这些通用的训练技巧对于 YOLOX 的关键改进呈正交,因此将它们应用于基线上。此外,研究者还添加了 RandomHorizontalFlip、ColorJitter 和多尺度数据加强,移除了 RandomResizedCrop 战略。通过这些加强技巧,YOLOv3 基线模型在 COCO val 数据集上兑现了 38.5% 的 AP,具体如下表 2 所示:

超越全系列YOLO、Anchor-free+技巧组合,旷视开源本能更强的YOLOX

解耦头在方针检测中,分类与回归任务之间的冲突是一个众所周知的难题,因此用于分类和定位的解耦头被广泛用于大多数单阶段和双阶段检测器中。但是,随着 YOLO 系列模型主干和特征金字塔(如 FPN 和 PAN)持续进化,它们的检测头依然处于耦合状态,YOLOv3 头与本文提出的解耦头之间的架构差异如下图 2 所示:

超越全系列YOLO、Anchor-free+技巧组合,旷视开源本能更强的YOLOX

下图 3 为应用 YOLOv3 头和解耦头时的检测器训练曲线:

超越全系列YOLO、Anchor-free+技巧组合,旷视开源本能更强的YOLOX

从下表 1 可以看到,应用耦合头时端到端本能降低了 4.2% 的 AP,而应用解耦头时仅仅降低了 0.8% AP。因此,研究者将 YOLO 检测头替换为一个轻量(lite)解耦头,由此极大地提升了收敛速率。

超越全系列YOLO、Anchor-free+技巧组合,旷视开源本能更强的YOLOX

具体地,这个轻量解耦头包含一个 1 × 1 卷积层以减少通道维度,之后紧接着两个 3 × 3 卷积层的并行分支,具体架构参见上图 2。研究者给出了在单个 Tesla V100 上,应用 batch=1 时的推理时间。如上表 2 所示,轻量解耦头可以带来 1.1 ms 的推理延时。强(strong)数据加强战略研究者在加强战略中加入了 Mosaic 和 MixUp 以提升 YOLOX 的本能,他们在模型中采用 MixUp 和 Mosaic 兑现,并在最后 15 个 epoch 的训练中关闭。如上表 2 所示,基线模型兑现了 42.0% 的 AP。在应用强数据加强战略之后,研究者发现 ImageNet 预训练不再具有更多增益,因此所有模型都从头开始训练。无锚点(anchor-free)YOLOv4 和 YOLOv5 都遵循 YOLOv3 的基于锚的初始 pipeline,然而锚机制存在许多已知的问题。过去两年,无锚检测器发展迅速。相关研究表明,无锚检测器的本能可以媲美基于锚的检测器。无锚点机制显著减少了兑现良好本能所需的启发式调整和技巧(如 Anchor Clustering、Grid Sensitive)的设计参数数量,从而使得检测器变得更简单,尤其是在训练和解码阶段。将 YOLO 转变为无锚点模式也非常简单。研究者将每个位置的预测从 3 降至 1,并使它们直接预测四个值,即两个 offset 以及预测框的高宽值。他们将每个方针的中心位置指令为正样本,并预定义一个尺度范围,以确定每个方针的 FPN 水平。这种改进减少了检测器的参数量和 GFLOP,并使其速率更快,与此同时获得了更好的本能,即 42.9% AP(具体如上表 2 所示)。多个正样本为了确保与 YOLOv3 的分派规则一致,上述无锚点版本仅为每个方针分派一个正样本(中心位置),同时忽略了其他高质量的预测。研究者将中心 3×3 区域分派为正样本,并命名为「中心采样」。如上表 2 示,检测器的本能提升至 45.0% AP,已经超越了当前 SOTA ultralytics/yolov3 版本的 44.3%AP。SimOTA先进标签分派(Advanced label assignment )是近年来方针检测领域中另一个重要进展。该研究将其作为候选标签分派战略。但是在实践中,该研究发现通过 Sinkhorn-Knopp 算法解决 OT 问题会带来 25% 额外训练时间,这对于 300 epoch 来说代价非常高。因此,该研究将其简化为动态 top-k 战略,命名为 SimOTA,以获得近似解。SimOTA 不仅减少了训练时间,同时避免了 SinkhornKnopp 算法中额外超参数问题。如表 2 所示,SimOTA 将检测器的 AP 从 45.0% 提高到 47.3%,比 SOTA ultralytics-YOLOv3 高出 3.0%。端到端的 YOLO该研究参考 PSS 添加了两个额外的卷基层、一对一的标签分派、stop gradient。这些使得检测器能够以端到端方式执行,但会略微降低本能和推理速率,如表 2 所示。该研究将其作为一个可选模块,但在最终的模型中并没有涉及。在其他主干网络的实验结果除了 DarkNet53,该研究还在其他不同大小的主干上测试了 YOLOX,结果表明 YOLOX 都兑现了本能提升。改进 YOLOv5 中的 CSPNet为了公平的进行比较,该研究采用 YOLOv5 主干,包括改进的 CSPNet、SiLU 激活函数、PAN 头。此外,该研究还遵循扩展规则来生成 YOLOXS、YOLOX-M、 YOLOX-L、YOLOX-X 模型。与 YOLOv5 在表 3 的结果相比,该模型在仅需非常少的额外推理耗时,取得了 3.0%~1.0% 的本能提升。

超越全系列YOLO、Anchor-free+技巧组合,旷视开源本能更强的YOLOX

Tiny 和 Nano 检测器该研究进一步将模型缩小为 YOLOX-Tiny,并与 YOLOv4-Tiny 进行比较。对于移动端设备,研究者采用深度卷积构建 YOLOX-Nano 模型,模型仅有 0.91M 参数量以及 1.08G FLOP。如表 4 所示,YOLOX 在更小的模型尺寸下表现良好。

超越全系列YOLO、Anchor-free+技巧组合,旷视开源本能更强的YOLOX

模型大小与数据加强在实验中,所有模型都保持了几乎相同的学习进度和优化参数。然而,研究发现适当的数据加强战略因模型大小而异。如表 5 所示,YOLOX-L 采用 MixUp 能提高 0.9%AP,对于诸如 YOLOX-Nano 这种小型模型来说,最好是弱化加强。具体来说,当训练诸如 YOLOX-S、 YOLOX-Tiny、YOLOX-Nano 这种小模型时,需要去除混合加强并弱化 mosaic(将扩展范围从 [0.1, 2.0] 降到 [0.5, 1.5])。这种改进将 YOLOX-Nano 的 AP 从 24.0% 提高到 25.3%。

超越全系列YOLO、Anchor-free+技巧组合,旷视开源本能更强的YOLOX

与 SOTA 结果对比下表 6 为 YOLOX 与 SOTA 检测器的对比结果。在 COCO 2017 test-dev 数据集上进行了不同物体检测器的速率和准确率比较。研究者选择在 300 epoch 上训练所有模型并进行了公平比较。由结果可得,与 YOLOv3、YOLOv4、YOLOv5 系列进行比较,该研究所提出的 YOLOX 取得了最佳本能,获得 51.2%AP,高于其他模型,同时具有极具竞争力的推理速率。

超越全系列YOLO、Anchor-free+技巧组合,旷视开源本能更强的YOLOX

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/chao-yue-quan-xi-lie-yolo-anchorfree-ji-qiao-zu-he-kuang/

(0)
上一篇 2021年 7月 22日 下午2:48
下一篇 2021年 7月 26日 下午4:03

相关推荐

  • 申请CS博士学位前,布朗大学Jeff Huang团队这份师资、排名和奖学金统计值得参考

    这是一份申请 CS 博士学位前可以认真参考的统计资料。

    2022年 5月 9日
  • 阿里数据中台底座的12年建造实践

    文/阿里云智能计较平台事业部研究员 关涛阿里巴巴数据平台发展的四大阶段建立数据中台,一个强大的数据平台作为底座必不可少。 阿里巴巴数据平台发展的四个阶段,一定程度上其实也是阿里巴巴数据中台发展的四个阶段。这四个阶段里,你可以看到阿里巴巴对自身数据的商业价值的萃取,对原有分而治之的数据系统的聚合,对计较数据财产化和数据高效应用的新思路以及对数据平台处置过程中面临的组织变革等。阶段一:交易百花齐放,发现数据价值2009年到2012年,阿里巴巴电商交易进入爆发期,涌现出非常多有名的交易团队,比如淘宝、

    2021年 9月 29日
  • google、Facebook频繁创造CPU内核不可靠,浮现无法预测估计过错

    最近google和 Facebook 两大公司频繁检测到 CPU 在一些情况下会以无法预测的方式浮现估计过错。

    2021年 6月 8日
  • 打造智能化交流及合营平台 长城汽车智能化技巧论坛成功举办

          7月1日,在长城汽车第8届科技节期间,以“合聚变 智领行”为主题的智能化技巧论坛在长城汽车哈弗技巧中心圆满落幕。本次智能化技巧论坛,邀请国表里行业大师、投资界大咖、科技届代表,以及汽车家当表里生态合营同伴等众多精英嘉宾与会,共同探讨智能汽车将来成长趋势及核心技巧立异突破等相关话题。长城汽车智能化技巧论坛现场      智能化技巧论坛从6月30日开始,至7月1日结束,为期2天。本次论坛聚焦软件定义汽车、

    2021年 7月 1日
  • 一个模型处理多种模态和工作,商汤等提出Uni-Perceiver,迈向通用预训练感知模型

    来自商汤、西安交通大学等机构的研究者提出了一种通用感知架构 Uni-Perceiver ,该方法可以更好地将预训练中学到的知识迁移到下流工作中。

    2021年 12月 12日
  • 开课啦!李宏毅2021《呆板进修》华文课程全面上新,纯线上,还不快跟?

    「宝可梦巨匠」李宏毅又开课了,小板凳搬好了吗?在呆板进修教育领域,台湾大学电机工程系助理教授李宏毅以鲜明的个人风格独树一帜。在课堂上,他经常用增强现实游戏「宝可梦 Go」举例,不仅语言滑稽滑稽,PPT 的可视化也做得非常用心。最重要的是,他的授课语言是华文(标准台湾普通话)。因此,不少人将其推荐为初学呆板进修的首选课程。李宏毅先生往期课程截图。2、3 月份是新学期的开始,李宏毅先生也宣布了他的《呆板进修》课程上新的消息。新课程从 2 月 26 日正式开始,6 月中旬正式结束,视频、PPT 都会上传到课程主页上。课程

    2021年 3月 6日
  • AI可诠释性及其在蚂蚁保险平安规模的运用简介

    可诠释性有关算法作为蚂蚁集团提出的“可托AI”技术架构的重要组成部分,已大量运用于蚂蚁集团保险平安风控的风险鉴别、欺诈举报审理等场景,取得了一些阶段性的成果。本系列文章,我们将以风控规模详细运用为例,尤其关注规模大师履历和机械进修要领的交互结合,介绍蚂蚁集团特点可诠释、图可诠释、逻辑可诠释等算法方案的探索和落地。大师点评:沈超 西安交通大学教授、网络空间保险平安学院副院长AI可诠释性是可托AI的重要组成部分,已成为野生智能规模的研究热点。可诠释性有助于用户了解系统的决议逻辑并建立信任,从而

    2022年 4月 24日
  • 融会趋势下基于 Flink Kylin Hudi 湖仓一体的大数据生态体系

    本文由 T3 出行大数据平台负责人杨华和资深大数据平台开发工程师王祥虎先容 Flink、Kylin 和 Hudi 湖仓一体的大数据生态体系以及在 T3 的相关应用场景,内容包括:

    湖仓一体的架构
    Flink/Hudi/Kylin 先容与融会
    T3 出行结合湖仓一体的实践

    2021年 8月 11日
  • WEY摩卡预售17.98万元起,激光雷达L3版11月交付

    作为WEY品牌全新定位下的旗舰车型,摩卡在本次上海车展上正式开启预售,包括入门款和4款「准L3主动驾驭」车型,价格区间为17.98万—22.08万元,用户可以通过WEY官方APP进行预订。不过,搭载激光雷达版本车型仍未公布价格,只显示「不高于同类产品定价」,且11月可以交付。据介绍,摩卡全系配备2.0T+9DCT+48V 的MHEV轻混动力体系,并集成了行业首创的E-Creep纯电蠕行技术,让起步响应缩短为仅0.3s。其中,E20N2.0T米勒循环发动机具有轻量化设计和全新优化燃烧体系等核心技术,配合4

    2021年 4月 22日
  • CVPR 2021 | 工夫序列疾病展望的因果隐马尔可夫模型

    本文是对发表于计算机视觉和模式识别领域的顶级会议 CVPR 2021的论文“Causal Hidden Markov Model for Time Series Disease Forecasting(工夫序列疾病展望的因果隐马尔可夫模型)”的解读。
    该论文由北京大学王亦洲课题组与深睿医疗等单位合作,针对工夫序列疾病展望的问题,提出了因果隐马尔可夫模型描述疾病的动态发展过程,并使用基于 VAE 的变分框架举行学习。通过对图象隐空间举行解耦,去除疾病有关因子与疾病展望的伪相关关系,从而提高展望的准确率和鲁棒性。

    2022年 7月 18日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注