超越全系列YOLO、Anchor-free+技巧组合,旷视开源本能更强的YOLOX

在本文中,来自旷视的研究者提出高本能检测器 YOLOX,并对 YOLO 系列进行了经验性改进,将 Anchor-free、数据加强等方针检测领域先进技术引入 YOLO。获得了超越 YOLOv3、YOLOv4 和 YOLOv5 的 AP,而且取得了极具竞争力的推理速率。随着方针检测技术的发展,YOLO 系列始终追寻可以实时应用的最佳速率和准确率权衡。学界人士不断提取当时最先进的检测技术(如 YOLOv2 的 anchor、YOLOv3 的残差网络),并对这些检测技术进行优化以兑现最佳本能。目前,YOLOv5 在速率和

在本文中,来自旷视的研究者提出高本能检测器 YOLOX,并对 YOLO 系列进行了经验性改进,将 Anchor-free、数据加强等方针检测领域先进技术引入 YOLO。获得了超越 YOLOv3、YOLOv4 和 YOLOv5 的 AP,而且取得了极具竞争力的推理速率。

随着方针检测技术的发展,YOLO 系列始终追寻可以实时应用的最佳速率和准确率权衡。学界人士不断提取当时最先进的检测技术(如 YOLOv2 的 anchor、YOLOv3 的残差网络),并对这些检测技术进行优化以兑现最佳本能。目前,YOLOv5 在速率和准确率上有最好的权衡,在 COCO 数据集上以 13.7ms 的速率获得 48.2% AP。然而,过去两年时间里,方针检测领域的主要进展集中在无锚点(anchor-free)检测器、先进的标签分派战略以及端到端的(NMS-free)检测器。但是,这些技术还没有集成到 YOLO 系列模型中,YOLOv4 、 YOLOv5 仍然还是基于 anchor 的检测器,应用手工分派战略进行训练。近日,旷视的研究者将解耦头、数据加强、无锚点以及标签分类等方针检测领域的优秀进展与 YOLO 进行了巧妙地集成组合,提出了 YOLOX,不仅兑现了超越 YOLOv3、YOLOv4 和 YOLOv5 的 AP,而且取得了极具竞争力的推理速率。

超越全系列YOLO、Anchor-free+技巧组合,旷视开源本能更强的YOLOX

论文地址:https://arxiv.org/abs/2107.08430

项目地址:https://github.com/Megvii-BaseDetection/YOLOX

考虑到 YOLOv4、YOLOv5 在基于 anchor pipeline 中可能会出现一些过拟合,研究者选择 YOLOv3 作为起点(将 YOLOv3-SPP 设置为默认的 YOLOv3)。事实上,由于计算资源有限,以及在实际应用中软件支持不足,YOLOv3 仍然是业界应用最广泛的检测器之一。如下图 1 所示,通过将方针检测领域优秀进展与 YOLO 进行组合,研究者在图像分辨率为 640 × 640 的 COCO 数据集上将 YOLOv3 提升到 47.3% AP(YOLOX-DarkNet53),大大超过了目前 YOLOv3(44.3% AP,ultralytics version2)的最佳实践。此外,当将网络切换到先进的 YOLOv5 架构,该架构采用先进的 CSPNet 主干以及一个额外的 PAN 头,YOLOX-L 在 COCO 数据集、图像分辨率为 640 × 640 获得 50.0% AP,比 YOLOv5-L 高出 1.8% AP。研究者还在小尺寸上测试所设计的战略,YOLOX-Tiny 和 YOLOX-Nano(仅 0.91M 参数和 1.08G FLOPs)分别比对应的 YOLOv4-Tiny 和 NanoDet3 高出 10% AP 和 1.8% AP。

超越全系列YOLO、Anchor-free+技巧组合,旷视开源本能更强的YOLOX

在 CVPR 2021 WAD 挑战赛的 Streaming Perception Challenge 赛道上,旷视提出的基于 YOLOX 模型(YOLOX-L)的 2D 实时方针检测系统在 Argoverse-HD 数据集上兑现了 41.1 的 streaming AP。此外,研究者在推理时用到了 TensorRT 优化器,使得模型在高分辨输入(即 1440×2304)时兑现了 30 fps 的推理速率。

超越全系列YOLO、Anchor-free+技巧组合,旷视开源本能更强的YOLOX

图源:https://eval.ai/web/challenges/challenge-page/800/overviewYOLOX-DarkNet53研究者选择将 YOLOv3+Darknet53 作为基线模型,并基于它详细介绍了 YOLOX 的整个系统设计。兑现细节从基线模型到最终模型,研究者的训练设置基本保持一致。他们在 COCO train2017 数据集上训练了 300 个 epoch 的模型并进行 5 个 epoch 的 warmup,应用随机梯度下降(SGD)来训练,学习率为 lr×BatchSize/64 ,初始学习率为 0.01,并应用了余弦(cosine)学习机制。权重衰减为 0.0005,SGD momentum 为 0.9。批大小默认为 128(8 个 GPU),其他批大小应用单个 GPU 训练也运行良好。输入大小以 32 步长从 448 均匀过渡到 832。FPS 和延迟在单个 Tesla V100 上应用 FP16-precision 和 batch=1 进行测量。 YOLOv3 基线模型基线采用了 DarkNet53 主干和 SPP 层的架构(在一些论文中被称作 YOLOv3-SPP)。与初始兑现相比,研究者稍微改变了一些训练战略,添加了 EMA 权重更新、余弦学习机制、IoU 损失和 IoU 感知分支。他们应用 BCE 损失训练 cls 和 obj 分支,应用 IoU 损失训练 reg 分支。这些通用的训练技巧对于 YOLOX 的关键改进呈正交,因此将它们应用于基线上。此外,研究者还添加了 RandomHorizontalFlip、ColorJitter 和多尺度数据加强,移除了 RandomResizedCrop 战略。通过这些加强技巧,YOLOv3 基线模型在 COCO val 数据集上兑现了 38.5% 的 AP,具体如下表 2 所示:

超越全系列YOLO、Anchor-free+技巧组合,旷视开源本能更强的YOLOX

解耦头在方针检测中,分类与回归任务之间的冲突是一个众所周知的难题,因此用于分类和定位的解耦头被广泛用于大多数单阶段和双阶段检测器中。但是,随着 YOLO 系列模型主干和特征金字塔(如 FPN 和 PAN)持续进化,它们的检测头依然处于耦合状态,YOLOv3 头与本文提出的解耦头之间的架构差异如下图 2 所示:

超越全系列YOLO、Anchor-free+技巧组合,旷视开源本能更强的YOLOX

下图 3 为应用 YOLOv3 头和解耦头时的检测器训练曲线:

超越全系列YOLO、Anchor-free+技巧组合,旷视开源本能更强的YOLOX

从下表 1 可以看到,应用耦合头时端到端本能降低了 4.2% 的 AP,而应用解耦头时仅仅降低了 0.8% AP。因此,研究者将 YOLO 检测头替换为一个轻量(lite)解耦头,由此极大地提升了收敛速率。

超越全系列YOLO、Anchor-free+技巧组合,旷视开源本能更强的YOLOX

具体地,这个轻量解耦头包含一个 1 × 1 卷积层以减少通道维度,之后紧接着两个 3 × 3 卷积层的并行分支,具体架构参见上图 2。研究者给出了在单个 Tesla V100 上,应用 batch=1 时的推理时间。如上表 2 所示,轻量解耦头可以带来 1.1 ms 的推理延时。强(strong)数据加强战略研究者在加强战略中加入了 Mosaic 和 MixUp 以提升 YOLOX 的本能,他们在模型中采用 MixUp 和 Mosaic 兑现,并在最后 15 个 epoch 的训练中关闭。如上表 2 所示,基线模型兑现了 42.0% 的 AP。在应用强数据加强战略之后,研究者发现 ImageNet 预训练不再具有更多增益,因此所有模型都从头开始训练。无锚点(anchor-free)YOLOv4 和 YOLOv5 都遵循 YOLOv3 的基于锚的初始 pipeline,然而锚机制存在许多已知的问题。过去两年,无锚检测器发展迅速。相关研究表明,无锚检测器的本能可以媲美基于锚的检测器。无锚点机制显著减少了兑现良好本能所需的启发式调整和技巧(如 Anchor Clustering、Grid Sensitive)的设计参数数量,从而使得检测器变得更简单,尤其是在训练和解码阶段。将 YOLO 转变为无锚点模式也非常简单。研究者将每个位置的预测从 3 降至 1,并使它们直接预测四个值,即两个 offset 以及预测框的高宽值。他们将每个方针的中心位置指令为正样本,并预定义一个尺度范围,以确定每个方针的 FPN 水平。这种改进减少了检测器的参数量和 GFLOP,并使其速率更快,与此同时获得了更好的本能,即 42.9% AP(具体如上表 2 所示)。多个正样本为了确保与 YOLOv3 的分派规则一致,上述无锚点版本仅为每个方针分派一个正样本(中心位置),同时忽略了其他高质量的预测。研究者将中心 3×3 区域分派为正样本,并命名为「中心采样」。如上表 2 示,检测器的本能提升至 45.0% AP,已经超越了当前 SOTA ultralytics/yolov3 版本的 44.3%AP。SimOTA先进标签分派(Advanced label assignment )是近年来方针检测领域中另一个重要进展。该研究将其作为候选标签分派战略。但是在实践中,该研究发现通过 Sinkhorn-Knopp 算法解决 OT 问题会带来 25% 额外训练时间,这对于 300 epoch 来说代价非常高。因此,该研究将其简化为动态 top-k 战略,命名为 SimOTA,以获得近似解。SimOTA 不仅减少了训练时间,同时避免了 SinkhornKnopp 算法中额外超参数问题。如表 2 所示,SimOTA 将检测器的 AP 从 45.0% 提高到 47.3%,比 SOTA ultralytics-YOLOv3 高出 3.0%。端到端的 YOLO该研究参考 PSS 添加了两个额外的卷基层、一对一的标签分派、stop gradient。这些使得检测器能够以端到端方式执行,但会略微降低本能和推理速率,如表 2 所示。该研究将其作为一个可选模块,但在最终的模型中并没有涉及。在其他主干网络的实验结果除了 DarkNet53,该研究还在其他不同大小的主干上测试了 YOLOX,结果表明 YOLOX 都兑现了本能提升。改进 YOLOv5 中的 CSPNet为了公平的进行比较,该研究采用 YOLOv5 主干,包括改进的 CSPNet、SiLU 激活函数、PAN 头。此外,该研究还遵循扩展规则来生成 YOLOXS、YOLOX-M、 YOLOX-L、YOLOX-X 模型。与 YOLOv5 在表 3 的结果相比,该模型在仅需非常少的额外推理耗时,取得了 3.0%~1.0% 的本能提升。

超越全系列YOLO、Anchor-free+技巧组合,旷视开源本能更强的YOLOX

Tiny 和 Nano 检测器该研究进一步将模型缩小为 YOLOX-Tiny,并与 YOLOv4-Tiny 进行比较。对于移动端设备,研究者采用深度卷积构建 YOLOX-Nano 模型,模型仅有 0.91M 参数量以及 1.08G FLOP。如表 4 所示,YOLOX 在更小的模型尺寸下表现良好。

超越全系列YOLO、Anchor-free+技巧组合,旷视开源本能更强的YOLOX

模型大小与数据加强在实验中,所有模型都保持了几乎相同的学习进度和优化参数。然而,研究发现适当的数据加强战略因模型大小而异。如表 5 所示,YOLOX-L 采用 MixUp 能提高 0.9%AP,对于诸如 YOLOX-Nano 这种小型模型来说,最好是弱化加强。具体来说,当训练诸如 YOLOX-S、 YOLOX-Tiny、YOLOX-Nano 这种小模型时,需要去除混合加强并弱化 mosaic(将扩展范围从 [0.1, 2.0] 降到 [0.5, 1.5])。这种改进将 YOLOX-Nano 的 AP 从 24.0% 提高到 25.3%。

超越全系列YOLO、Anchor-free+技巧组合,旷视开源本能更强的YOLOX

与 SOTA 结果对比下表 6 为 YOLOX 与 SOTA 检测器的对比结果。在 COCO 2017 test-dev 数据集上进行了不同物体检测器的速率和准确率比较。研究者选择在 300 epoch 上训练所有模型并进行了公平比较。由结果可得,与 YOLOv3、YOLOv4、YOLOv5 系列进行比较,该研究所提出的 YOLOX 取得了最佳本能,获得 51.2%AP,高于其他模型,同时具有极具竞争力的推理速率。

超越全系列YOLO、Anchor-free+技巧组合,旷视开源本能更强的YOLOX

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/chao-yue-quan-xi-lie-yolo-anchorfree-ji-qiao-zu-he-kuang/

(0)
上一篇 2021年 7月 22日 下午2:48
下一篇 2021年 7月 26日 下午4:03

相关推荐

  • Pravega Flink connector 的过去、现在和未来

    本文整理自戴尔科技集团软件工程师周煜敏在 Flink Forward Asia 2020 分享的议题《Pravega Flink Connector 的过去、现在和未来》,文章内容为:Pravega 以及 Pravega connector 简介Pravega connector 的过去回顾 Flink 1.11 高阶特性心得分享未来展望   一、Pravega 以及 Pravega connector 简介Pravega 项目的名字来源于梵语,意思是 good speed。项目起源于 2016

    2021年 7月 22日
  • TOG 2020 | 基于骨骼一致性的单目视频人体静止重建

    本文是对 2020 年 9 月发表于计算机图形学顶级期刊 ACM Transactions on Graphics(ToG)的论文《基于骨骼一致性的单目视频人体静止重建(MotioNet: 3D Human Motion Reconstruction from Monocular Video with Skeleton Consistency)》的解读。
    该论文由北京大学与山东大学、北京电影学院、以色列特拉维夫与耶路撒冷大学合作,针对从单目视频中提取人体静止的问题,区别于直接回归枢纽坐标的法子,作者在神经搜集中利用正向静止学,猜测出时序一致的人体骨架及所对应的枢纽扭转,减小了搜集猜测的空间搜索范围,搜集输出的结果也能直接运用于角色动画的驱动。

    2022年 7月 18日
  • Stability AI联合Morph AI共同发布一体式AI视频创作对象,助力手艺的落地与利用

    2024年2月28日,Stability AI在其官方社交账号上宣布与领先的text-to-video公司Morph AI告竣分工,双方基于各自的模型优势,共同推出了一款all-in-one(一体式AI视频创作)的创造对象——MorphStudio。该对象将颠覆保守视频创造过程,具备了让创作者可以在一个界面中完成天生、剪辑和后期等的便利功能,支持创作者调用AI模型选择每一个镜头并达到最佳效果。较保守视频创造过程而言,该对象可以极小的帮助创作者缩短创作时间,降低创作成本。与此同时,在双方的创作者社区中,每一个创作者都

    2024年 3月 1日
  • 外国传授在B站当UP主上课,网友直呼好家伙:滑铁卢大学《差分隐衷》课程上线

    Gautam Kamath 的课程,让网友们直呼好家伙。

    2021年 1月 5日
  • 腾讯朱雀实验室推出代码防护技巧Deep Puzzling,让代码更难被猜透

    随着AI技巧与网络安全结合得越来越紧密,鉴于AI技巧的网络攻防手段也在日益更替。11月26日,全球顶级的信息安全峰会HITB+Cyberweek 2021于近日举办,腾讯朱雀实验室专家钻研员Jifeng Zhu和钻研员Keyun Luo受邀参加,并进行了题为《Deep Puzzling: Binary Code Intention Hiding based on AI Uninterpretability》(《鉴于AI不可解释性的二进制代码用意躲藏》)的议题分享。会上,腾讯朱雀实验室展示了如何行使AI模型的特性,实

    2021年 11月 27日
  • 手把手教你,从零开始实现一个稀少混合大师架构语言模型(MoE)

    本文介绍了实现一个稀少混合大师语言模型(MoE)的方法,详细解释了模型的实施过程,包括采用稀少混合大师取代传统的前馈神经网络,实现 top-k 门控和带噪声的 top-k 门控,以及采用 Kaiming He 初始化技术。作者还说明了从 makemore 架构保持不变的元素,比如数据集处理、分词预处理和语言建模任务。最后还提供了一个 GitHub 仓库链接,用于实现模型的整个过程,是一本不可多得的实战教科书。内容简介在混合大师模型 Mixtral 发布后,混合大师模型(MoE)越来越受到人们的关注。在稀少化的混合专

    2024年 2月 16日
  • 亚马逊资深首席科学家李沐:工作这五年

    自CMU机器学习博士毕业至今,亚马逊资深首席科学家李沐的业界之路已经走过了五年空儿。期间,李沐博士对技巧、产物、管理、升职加薪等工作中的方方面面都有了更深的感悟。「专一于最有代价的工作」是他对过往五年工作历程的最好总结。

    2021年 5月 25日
  • 94岁诺奖得主希格斯去世,曾预言「上帝粒子」的存留

    一名用诗意的语言揭示宇宙秘密的人。一名 94 岁平凡科学家的逝世,引发了人们广泛的哀思。4 月 10 日消息,诺贝尔物理学奖得主、著名物理学家彼得・希格斯(Peter Higgs)于周一去世,享年 94 岁。希格斯因提出希格斯玻色子也被称为「上帝粒子」而闻名。根据爱丁堡大学的一份声明我们得知(彼得・希格斯是该校的名誉退休熏陶),希格斯经历短暂的生病后,于 4 月 8 日星期一在家中安静的离开。对于老爷子的去世,爱丁堡大黉舍长 Peter Mathieson 沉重的表示:「彼得・希格斯是一名杰出的科学家 &mdash

    2024年 4月 10日
  • baidu出席AI顶会IJCAI2020,学术创新成果全球领先

    近日,人工智能国际联合会议IJCAI2020受疫情影响延期后,顺利在线上举行。IJCAI(International Joint Conference on Artificial Intelligence)始于1969年,现为每年一次,学术水平和影响力极高,受到全球学术界和产业界高度关注。据知,IJCAI2020是史上最难的一届,论文接受率12.6%创历史最低;其中,baidu不仅贡献多篇优质论文,涵盖众多前沿领域,更有线上展台技术讲座,分享交流最新的学术突破。值得一提的是,baidu研究院量子盘算研究所所长段润尧还在会上发表

    2021年 1月 19日
  • 伯克利抢手业余限人数,转入CS更难,斯坦福:我们不限,多多益善

    现在,世界名校也开始节制抢手业余人数了。

    2022年 9月 9日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注