CVPR2022 | 利用域自符合思想,北大、字节跳动提出新型弱监视物体定位框架

将弱监视物体定位看作图象与像素特性域间的域自符合任务,北大、字节跳动提出新框架显著增强基于图象级标签的弱监视图象定位功能

物体定位作为计算机视觉的基本问题,可以为场景理解、自动驾驶、智能诊疗等领域提供重要的宗旨位置信息。然而,物体定位模型的训练依赖于物体宗旨框或物体掩模等密集标注信息。这些密集标签的获取依赖于对图象中各像素的类型判断,因此极大地增加了标注历程所需的时间及人力。为减轻标注工作的负担,弱监视物体定位 (WSOL) 通过利用图象级标签(如图象类型)作为监视信号从事物体定位模型的训练,以摆脱训练历程对像素级标注的需求。该类步骤大多采用分类激活图 (CAM) 的流程训练一个图象级特性分类器,而后将该分类器作用于像素级特性获得物体定位结果。但是图象级特性通常保有充足的物体信息,仅识别其中具有鉴别性的物体特性即正确分类图象。因此,在将该分类器作用于在所含物体信息并不充足的像素级特性从事物体定位时,最终获得的定位图往往只能感知到部分物体区域而非整个物体。为解决这一问题,本文将基于 CAM 的弱监视物体定位历程看作是一个特殊的域自符合任务,即在确保在源图象级特性域上训练的分类器应用在宗旨像素域时仍具有良好的分类表现,从而使其更好的在测试历程中从事宗旨定位。从这一视角来看,我们可以很自然的将域自符合步骤迁移到弱监视物体定位任务中,使得仅依据图象标签训练的模型可以更为精准的定位宗旨物体。

图片

文章地址:https://arxiv.org/abs/2203.01714

项目地址:https://github.com/zh460045050/DA-WSOL_CVPR2022

目前,这项研究已被 CVPR2022 接收,完整训练代码及模型均已开源。主要由北大分子影像/医学智能实验室朱磊和字节跳动佘琪参与讨论和开发,北大分子影像/医学智能实验室卢闫晔老师给予指导。步骤

图片

 图 1 – 步骤整体思想弱监视物体定位实际上可以看作是在图象特性域(源域 S)中依据图象级标签(源域金标 Y^s)完全监视地训练模型 e(∙),并在测试历程中将该模型作用于像素特性域(宗旨域 T)以获取物体定位热力求。总的来看,我们的步骤希望在此历程中引入域自符合步骤从事辅助,以拉近源域 S 与宗旨域 T 的特性疏散,从而增强在模型 e(∙)对于宗旨域 T 的分类效果,因此我们的损坏函数可以表示为:

图片

其中 L_c 为源域分类损坏,而 L_a 则为域自符合损坏。由于弱监视定位中源域和宗旨域分别为图象域和像素域,我们所面临的域自符合任务具有一些独有的性质:①宗旨域样本与源域样本的数量并不平衡(宗旨域样本是源域的 N 倍,N 为图象像素数);②宗旨域中存在与源域标签不同的样本(背景像素不属于任何物体类型);③宗旨域样本与源域样本存在一定联系(图象特性由像素特性聚合而获得)。为了更好地考虑这三个特性,我们进而提出了一种域自符合定位损坏(DAL Loss)作为 L_a (S,T)以拉近图象域 S 与像素域 T 的特性疏散。 

图片

图 2 – 弱监视定位中源域宗旨域的划分以及其在弱监视定位中的作用首先,如图 2-A,我们将宗旨域样本 T 进一步分为三个子集:①“伪源域样本集 T^f”表示与源域特性疏散相似的宗旨域样本;②“未知类样本集 T^u”表示类型在源域中不存在的 l 宗旨域样本;③“真实宗旨域样本集 T^t”表示其余样本。依据这三个子集,我们提出的域自符合定位损坏可以表示为:

图片

从上述公式可以看到,在域自符合定位损坏中,伪源域样本被看作源域样本的补充而非宗旨域样本,以解决样本不平衡问题。同时,为了减少具有源域未知类型的样本 T^U 对分类准确率的干扰,我们仅使用传统自符合损坏 L_d(如最大均值差异 MMD)拉近扩增后的源域样本集 S∪T^f 与真实宗旨域样本集 T^t 的特性疏散。而这些被排除在域自符合历程之外的样本 T^u,可以被用作 Universum 正则 L_u,以确保分类器所定义的类型边界也能更好的感应到宗旨域。图 2-B 也形象地展示了源域分类损坏及域自符合定位损坏的预期效果,其中 L_c 确保不同类型源域样本可以被正确区分,L_d 将源域宗旨域疏散从事拉近,而 L_u 将类型边界拉近到未知标签宗旨域样本处。

图片

图 3 – 整体工作流及宗旨样本分配器结构我们提出,域自符合定位损坏可以很便捷地将域自符合步骤嵌入到已有弱监视定位步骤中大幅提升其功能。如图 3 所示,在已有弱监视定位模型上嵌入我们的步骤仅需要引入一个宗旨样本分配器(Target Sample Assigner)从事宗旨域样本子集的划分,该分配器通过记忆矩阵 M 在训练历程中实时更新未知类宗旨域样本集 T^u 与真实宗旨域样本集 T^r 的锚点,并以将二者和源域特性作为聚类中心从事三路 K 均值聚类,获得每个宗旨域样本所属的子集。最后依此样本子集,我们可以获得域自符合损坏 L_d、以及 Universum 正则 L_u 并利用二者与源域分类损坏 L_c 一起对训练历程从事监视,使得在确保源域分类准确性的情况下,尽可能的拉近源域与宗旨域特性,并减少未知类型样本影响。这样一来,在将该模型应用于宗旨域(也就是像素特性)从事物体定位时,最终生成的定位热力求的质量将获得显著提升。

实验

图片

图 3 – 物体定位热力求及最终定位 / 分割结果我们在三个弱监视宗旨定位数据集上验证了我们步骤的有效性:从视觉效果来看,由于确保了图象与像素特性域的疏散一致性,我们的步骤可以更为全面的抓取物体区域。同时,由于 Universum 正则关注了背景像素对分类器的影响,我们的步骤生成的定位热力求可以更好的贴近物体边缘并抑制类型相关背景的响应程度,如水面之于鸭子。从定量结果中可以也看到,在宗旨定位功能方面,我们的步骤在三个数据上均取得了非常好的效果,尤其是在对于非细粒度宗旨定位的情况(ImageNet 和 OpenImages 数据集),我们的步骤均取得了最优的定位功能。而对于图象分类功能方面,由于引入域自符合会导致源域准确度的损坏,但通过借鉴多阶段策略利用一个附加的分类模型(仅使用 L_c 训练)生成分类结果即可解决域自符合带来的副作用。此外,我们也具备很好的泛化性,可以兼容多类域自符合及多种弱监视宗旨定位步骤,以提升定位功能。

图片

图片

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/cvpr2022-li-yong-yu-zi-fu-he-si-xiang-bei-da-zi-jie-tiao/

(0)
上一篇 2022年 3月 20日 下午12:53
下一篇 2022年 3月 22日 下午2:26

相关推荐

  • 港中文岳翔宇老师招收人工智能全奖博士生、博士后、钻研助理、练习生

    ​新的一期博士招生正式启动!本期我们将为大家介绍香港中文大学岳翔宇老师招收人工智能全奖博士生、博士后、钻研助理、练习生的相关信息。

    2022年 9月 28日
  • 李沐「下手学深度进修」第二全体CNN本周开课,也邀你挑战他10行代码的比赛问题

    本周六,课程将进入第二全体:卷积神经网络,接待对这全体有疑问的同砚上车进修。

    2021年 4月 23日
  • HAOMO AI DAY官宣定档,年末AI主动驾技术盛筵即将上演

    今日好消息,毫末智行HAOMO AI DAY定档12月23日! 特斯拉AI DAY后,中国AI主动驾驭领域也有了自己的AI主动驾驭技术盛筵!在即将过去的2021年中,毫末智行惊喜不断,三次品牌开放日接连带来Pre-A轮融资、全球首个L4无人车工厂、主动驾驭三定律、NOH 智慧领航辅佐驾驭零碎、全球算力最高的可量产主动驾驭计算平台ICU3.0等众多惊爆人眼球的业务及产品发布,特别是辅佐驾驭用户行驶里程仅150天即突破200万公里、辅佐驾驭零碎3年落地乘用车超100万台的成绩及目标,更是让人们看到了主动驾驭技术大规模量

    2021年 12月 14日
  • 宏景智驾CEO刘飞龙:利用「众筹法」接近主动驾驭终局

    作者 / 曹锦2018年,一支源自Cruise的初创团队准备在中国成立一家L4级主动驾驭公司。但是很快,他们就将定位由「Robotaxi量产公司」改为「L1-L4级智能驾驭规划服务商」。这是因为,当他们做了Robotaxi样车之后,却发现不管从法规还是商场接受度来看,L4级主动驾驭都还没迎来恰当的时机。之后的故事大家可能已经知道了,这家名为宏景智驾的公司,在刚成立三年半的时候,就实现了2亿元的营收,今年上半年的订单额更是高达4.9亿元。(左:宏景智驾创始人兼CEO刘飞龙,右:Auto Byte负责人 曹锦

    2022年 5月 31日
  • 颜水成、David Silver等10人当选,2022 AAAI Fellow名单公布

    2022 年度 AAAI Fellows 共有 10 位学者当选。

    2022年 2月 15日
  • 案例 | 二手车智能质检:以双流分组残差搜集为核心,结合计算机视觉构建智能车辆检测零碎

    汽车产业互联网平台大搜车针对车辆检测场景所开发的AI云检测解决规划,鉴于云-端交互的零碎架构,以双流分组残差搜集作为主干搜集,结合计算机视觉技能,以专业化的智能设备代替人眼识别,以数据分析代替主观经验,在最大程度降低人为影响因素的前提下,兑现毫秒级实时检测。中国二手车交易行业:二手车辆检测工作依赖人为、耗时冗长,亟待智能技能提高检测效能近年来,中国二手车消费市场规模进一步扩大,2019年中国二手车市场交易额已突破1万亿元。然而由于二手车的“非标”属性,一车一况之下,车辆检测作为二手车交易流程

    2021年 7月 27日
  • 曝光!阿里50余位工程师私藏的进修资本清单

    进修是⼀个不断精进的过程,没有 standard destination。我们经常听到技巧人各种进修困扰:●「AI 范围发展太快了,感觉囤积的进修资本好容易过时。」●「网上资料和课程太多了,不知道怎么挑选出适合自己的经典资料。」●「想知道阿里 p7p8 同砚的技巧发展路线,都有哪些精进方式?」工欲善其事,必先利其器。⼀份高质量的进修资本是每位技巧同砚的发展必需品。通常来说,只有当进修资本 catch 到我们学问盲点的时候才能勾起我们的兴趣,此外,相关范围的前辈根据自身经验的推荐,是不错的挑选标准。基于此,来自阿里淘

    2021年 9月 17日
  • GitHub代码一键转VS Code:只需+1s

    被微软收购后的 GitHub,正在变得越来越易用,现在又有人把它和「宇宙第一 IDE」VS Code 紧密联系起来了。

    2021年 2月 9日
  • 姚班、智班之后,清华创造量子信息班,网友:简称「期(QI)班」?

    在姚班、智班之后,清华大学又创造了「量子信息班」。

    2021年 5月 25日
  • 盘点如何用AI做动画,还有各种东西等你取用

    图象天生、视频天生、整合语音合成的人脸动画、天生三维的人物活动以及 LLM 驱动的东西…… 一切都在这篇文章中。天生式 AI 已经成为互联网的一个重要内容来源,现在你能看到 AI 天生的文本、代码、音频、图象以及视频和动画。今天我们要介绍的文章来自立陶宛博主和动画师 aulerius,其中按层级介绍和分类了动画领域应用的天生式 AI 手艺,包括简要介绍、示例、优缺点以及相关东西。他写道:「作为一位动画建造者,我希望一年前就有这样一份资源,那时候我只能在混乱的互联网上自行寻找可能性和不断出

    2024年 2月 19日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注