对抗图象变幻进犯,腾讯OVB-AI手艺中心获NeurIPS2021图象近似度寻衅赛季军

近日,在 AI 顶会 NeurIPS 2021 的图象近似度寻衅赛中(Image Similarity Challenge),来自腾讯在线视频 BU-AI 手艺中心的团队,在 Matching Track 赛道战胜来自全球 1000 多支队伍,荣获季军。

近似图象检索,该竞争中主要指图象的拷贝检测,是计算机视觉领域的一项经典任务。其目的是判断盘问图象(query),是否由库存(reference)中的任何图象编辑或进犯变幻而来。该手艺目前已广泛应用于互联网服务中,它作为交际媒体以及实质平台上的一个重要组成部分,主要用于低质实质识别、重复实质识别、版权保护等一系列实质审查领域,从而有助于互联网平台提供更加安全和可信的实质。近年来,随着交际媒体以及实质平台的发展,图象拷贝检测面临了新的寻衅点:大规模检索与复杂的进犯。以 Facebook 网站为例,每天将产生数十亿张新图片,如何快速的在较大库存检测这些新图片成为一个寻衅。另外,盘问图象在现实中会受到多种进犯变幻,如滤镜、遮挡、裁剪、模糊、手绘等等。导致检测工作仅靠人工无法完成,需要算法来帮助进行自动的标记,因此大规模检索变得越来越重要和实用。

图片

图象变幻进犯示例为了进一步促进图象拷贝检测手艺的研究,Facebook AI 在顶会 NeurIPS 2021 上举办了图象近似度寻衅赛(Image Similarity Challenge),竞争共分为 Matching Track 和 Descriptor Track 两个赛道。同时,竞争提供了一个具有寻衅性的数据集,该数据集来自于真实的交际媒体平台,主要由一百万库存图片、五万盘问图片,以及一百万训练集组成,它可以作为大规模图象近似性检测的新基准。本次竞争吸引了来自腾讯、百度、阿里、旷世、三星、Intel、DeNA 等国内外知名公司及研究机构,共 1000 多支队伍参加。

图片

竞争官网:https://sites.google.com/view/isc2021/program

nips 竞争介绍:https://nips.cc/Conferences/2021/CompetitionTrack

腾讯 imgFp 团队获得季军在本次 NeurIPS 2021 图象近似度寻衅赛中,来自腾讯的 imgFp 团队针对上述寻衅点,设计了一种结合全部特性与部分特性双路召回的高效检测算法,该算法能够以较高的鲁棒性来应对绝大多数的变幻进犯,并且实用性强,单图全流程检索耗时约 2-3 秒,最终获得 Matching Track 赛道季军。最终榜单:https://www.drivendata.org/competitions/84/competition-image-similarity-1-final/leaderboard/1、鲁棒的单一模型imgFp 团队采用以 Swin-Transformer 为主干网络的模型来提取盘问图象的全部特性,并基于 EsViT 的方式,设计了一种多阶段的自监督训练方式,以充分发挥网络的自注意力机制。

图片

为了提高模型的抗进犯能力,imgFp 团队在训练过程中设计了超过 40 种数据增强方式来生成正样本对,充分模拟各种图象进犯变幻,并在训练过程中使用 memory bank 来达到扩充 batch size 的效果,充分挖掘难分负样本。

图片

最终,imgFp 团队训练得到一个鲁棒的单一网络模型,来对每张盘问图象计算生成一个 256 维的特性向量。全部特性检索结果可视化如图所示,对于很多极其的进犯干扰依然可以获得较好的检索排序结果。

图片

2、双路召回,应对极其样本imgFp 团队发现,全部特性仍然较难表征某些极其的进犯变幻,例如,较大范围的裁剪或者作为很小的区域叠加在背景图象上等,如图所示。这导致了仅靠全部特性的召回率偏低。

图片

然而,这些极其样本在部分上具有较强的一致性,因此 imgFp 团队提出了结合部分特性做双路召回的方案,并使用 GPU Faiss 来加速大规模部分特性的搜索,最后采用 KNN-matching 的方式对两路召回的结果进行融合并计算近似分数。方式的整体 pipeline 如图所示,imgFp 团队发现,这种结合全部特性与部分特性的双路召回方式,能够发挥两种特性的互补优势,从而实现应对大多数进犯变幻的作用。

图片

详细方式见论文:https://arxiv.org/abs/2112.02373团队简介imgFp 团队的参赛成员均来自于腾讯在线视频 BU 的 AI 手艺中心。该团队作为腾讯 PCG 视频关系中台的主要建设者,自 2014 年开始,便积极探索视频间关系的建立与应用,并积累了丰厚的手艺和经验。团队所研发的视频排重、图文排重、短带长等手艺,已应用于公司内多项产品和业务,包括腾讯视频、腾讯微视、腾讯新闻、腾讯看点,以及微信视频号。据团队成员介绍,本次竞争,是团队在业务之余的一次探索,初衷是想验证其算法在高难度数据集上的表现。相较于第一和第二名的方式,他们的方式虽然精度略低,但却更加适用于线上生产环境。目前,图象拷贝检测手艺已经在互联网服务中发挥了重要价值,但仍面临着大规模检索和复杂进犯的寻衅,团队将继续钻研和打磨手艺,不断助力实质生态,积极创造更多社会价值。

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/dui-kang-tu-xiang-bian-huan-jin-fan-teng-xun-ovbai-shou-yi/

(0)
上一篇 2022年 1月 7日 下午5:22
下一篇 2022年 1月 10日 下午4:16

相关推荐

  • 图神经网络的困境,用微分多少和代数拓扑解决

    微分多少和代数拓扑在主流机器进修中并不常见。在本系列文章中,作者展示了如何使用这些规模的工具从头解释图神经网络并解决一些常见困境。

    2022年 3月 27日
  • WAIC开发者日Workshop预告:超参数科技如何索求海量AI计划问题

    近年来,无论是在学术研究还是产业落地层面,关注的焦点都在从智能感知向智能计划阶段过渡。「计划 AI」逐渐成为热点问题,不管是谷歌、微软、IBM 等全球科技巨头,还是国内一众 AI 龙头企业,均积极投身于智能计划的相关研究。其中,海量 AI 如何在大型开放世界做智能计划,是推动智能计划手艺发展、加速社会智能化转型的重要问题,也是人工智能领域的手艺难题之一。为深入研究海量 AI 前沿问题,超参数科技联合麻省理工学院、清华大学深圳国际研究生院,以及数据科学挑战平台 Alcrowd 主办了 Neural MMO 系列挑战赛

    2022年 8月 30日
  • 3D传感器芯片技能全球率先,灵明光子完成数亿元C轮融资

    新一代全球率先的3D传感器芯片服务商灵明光子完成数亿元C轮融资,领投方为美团龙珠,老股东昆仲资本和高榕资本继续加注,光源资本担任独家财务顾问。融资完成后,公司将加速推进产物量产,并继续在先进领域投入研发,保持技能率先性。灵明光子致力于用国际率先的单光子探测器(SPAD)技能,为手机、激光雷达、机器人、AR装备等提供自主研发的高性能dToF深度传感器芯片。自2018年成立以来,灵明光子已迅速完成多轮融资,并引入小米、OPPO、欧菲光等产业资本,显示出商场对于灵明光子dToF芯片研发能力和运用前景的看好。dToF(di

    2022年 4月 11日
  • 超越现有标的57.3%,邢波教授、胡志挺教授团队提出一致NLG评估框架

    长期以来,评估机器天生的文本比较困难。近日,CMU邢波(Eric Xing)教授和UCSD胡志挺(Zhiting Hu)教授的团队提出用一种运算符,一致各类天生恣意的评估方式,为未来各种新恣意、新要求提供了更加一致的指导。实验表明,基于一致框架安排的评估标的,在多个恣意上超过了现有标的与野生评分的类似度,现在通过PyPI和GitHub可以直接调用。

    2022年 1月 28日
  • 斯坦福《决议计划算法》教科书更新2022版,700页PDF开放下载

    这本书体系介绍了不确定性情况下的决议计划算法,作家已将册本内容重新修订,发布了 700 页的最新版。

    2022年 5月 12日
  • 我用YOLOv5做情绪识别!

    AI技术已经应用到了我们生活中的方方面面,而目标检测是其中应用最广泛的算法之一。本文将教大家如何快速上手目标检测模型YOLOv5,并将其应用到情绪识别中。

    2022年 3月 30日
  • Sora之后,OpenAI Lilian Weng亲自撰文教你从头设计视频天生散布模型

    过去几年来,散布模型强大的图象合成能力已经得到充分证明。研究社区现在正在攻克一个更困难的任务:视频天生。近日,OpenAI 安全系统(Safety Systems)负责人 Lilian Weng 写了一篇关于视频天生的散布模型的博客。                              Lilian Weng机器之心对这篇博客进行了不改变原意的编译、整理,以下是博客原文:视频天生任务本身是图象合成的超集,因为图象就是单帧视频。视频合成的难度要大得多,原因是:1. 视频合成还需要不同帧之间保持时光一致性,很自然

    AI 2024年 4月 22日
  • 暴雪也没拦住的新版本:Linux之父家中停电6天,「冰冻荒原」版Linux内核还是来了

    既然是冬天停电的时候诞生的,那就叫它「冰冻荒原」吧。

    2021年 3月 2日
  • 比照进修引领弱标签进修新SOTA,浙大新研究入选ICLR Oral

    本文介绍浙江大学、威斯康星大学麦迪逊分校等机构的最新工作 PiCO,相关论文已被 ICLR 2022 录用(Oral, Top 1.59%)!偏标签进修 (Partial Label Learning, PLL) 是一个经典的弱监视进修问题,它允许每一个训练样本关联一个候选的标签荟萃,适用于许多具有标签不确定性的的现实世界数据标注场景。然而,现存的 PLL 算法与完全监视下的法子依然存在较大差距。为此,本文提出一个协同的框架解决 PLL 中的两个关键研究挑战 —— 表征进修和标签消歧。具体地,

    2022年 2月 17日
  • CVPR 2021 Oral | 室内动向场景中的相机重定位

    本文是对发表于计算机视觉和模式识别领域的顶级会议 CVPR 2021的 Oral 论文 “Robust Neural Routing Through Space Partitions for Camera Relocalization in Dynamic Indoor Environments”(通过在空间区分中鲁棒的神经路由实现室内动向场景的相机重定位)的解读。
    该论文由北京大学陈宝权研究团队与山东大学、北京电影学院、斯坦福大学和 Google Research 合作,针对室内动向变化场景的相机重定位问题,提出在场景空间区分中进行路由的思想,记忆场景固态信息的同时感知场景动向信息,从而实现鲁棒的相机位姿预测。
    试验证明,该法子显著提升了动向变化场景中的相机重定位效果。

    2022年 7月 18日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注