现在入行CV还有前途吗?AI青年学者这样看「未来五年的计算机视觉」

为了推动 AI 技巧的应用创新,促进人工智能范围的学术交流、人才培养,打造人工智能的人才交流平台与产业生态圈,中国人工智能学会联合杭州市余杭区人民政府联合发起了首届全球人工智能技巧创新大赛,并得到了阿里云、OPPO 等头部科技企业的积极参与和支持。阿里云天池平台为本次大赛提供平台和算力支撑。

AI 青年说是大赛主办方为提升青年开发者对 AI 的认识而主办的系列活动,该活动邀请知名青年学者,探讨理论研究与应用实践中的热点话题。本文对 AI 青年说系列活动第三期「未来五年的计算机视觉」核心内容进行了总结回顾。

十年来,计算机视觉范围蓬勃发展,深度进修技巧突破让机器在良多视觉任务上超越了人类。计算机视觉也是目前应用最多、落地最广的人工智能技巧。与此同时,也有一些计算机视觉技巧应用引发了争议和担忧,比如人脸识别的隐私课题、换脸假视频。计算机视觉的终极宗旨是什么?未来 5 年计算机视觉的研究重点将是什么?伴随着「深度进修进入瓶颈期」论调的出现,2021 年,入行计算机视觉还有「前途」吗?这些都成为了最受关注的课题。为了推动 AI 技巧的应用创新,促进人工智能范围的学术交流、人才培养,打造人工智能的人才交流平台与产业生态圈,中国人工智能学会联合杭州市余杭区人民政府联合发起了首届全球人工智能技巧创新大赛,并得到了阿里云、OPPO 等头部科技企业的积极参与和支持。阿里云天池平台作为本次大赛的官方竞赛平台,为大赛提供平台和算力支撑。为扩大大赛影响力与社会关注度,推进人工智能技巧发展与交流,主办方特在大赛期间发起「AI 青年说」系列活动,邀请知名青年学者,面向人工智能与前沿科技从业者与泛科技人群,探讨理论研究与应用实践中的热点话题。现在入行CV还有前途吗?AI青年学者这样看「未来五年的计算机视觉」在「AI 青年说」系列第三期活动中,两位计算机视觉范围的青年学者纪荣嵘和林巍峣分别以《神经搜集的收缩及加速》和《视觉宗旨懂得与收缩》进行了精彩的主题分享,围绕「未来五年的计算机视觉」等话题给出了自己的真知灼见。

机器之心在不改变原意的基础上,对两位专家的分享进行了整理。纪荣嵘:《神经搜集的收缩与加速》同学们好,我是厦门大学的纪荣嵘,很高兴参加今天的「AI 青年说」。我汇报的主题是神经搜集的收缩与加速。深度神经搜集的发展离不开海量数据,也离不开强大的计算硬件设备,但更重要的是计算机视觉使得深度神经搜集的发展出现了无限大概。然而,深度神经搜集参数量特别很是巨大,且计算效率相对低下。因此,在各种场景里面,研究者都面临深度神经搜集加速与收缩的相关需求。一方面我们希望把模型参数量减少(对应收缩模型),另一方面我们希望把每张图片通过神经搜集出结果的浮点(float)运算次数减少(对应模型加速)。因此神经搜集的加速和收缩,近来已经成为的计算机视觉与机器进修范围的热门主题,各种各样的硬件实现设备和软件算法在企业界和在学术界已广泛使用。

现在入行CV还有前途吗?AI青年学者这样看「未来五年的计算机视觉」

因此神经搜集的加速与收缩,近年来已经成为计算机视觉与机器进修范围特别很是热门的主题,有各种各样的硬件实现设备和软件算法在企业界和学术界被使用。

现在入行CV还有前途吗?AI青年学者这样看「未来五年的计算机视觉」

例如上图是我们所研发的鉴于深度神经搜集的紧致化计算板卡,这个板卡几乎以实时的状态跑在 8 路摄像头上,可以达到传统大规模深度神经搜集所达到的计算性能与效率。

现在入行CV还有前途吗?AI青年学者这样看「未来五年的计算机视觉」

这个课题的背后带来了大量的研究。可以从下图看到,在计算机视觉范围顶级会议(CVPR、ICCV、ECCV 等)以及各机器进修的顶会上(NeurIPS 等),近几年来深度神经搜集加速与收缩的论文呈现爆发趋势。接下来我介绍几个深度神经搜集加速与收缩的主要研究方向

现在入行CV还有前途吗?AI青年学者这样看「未来五年的计算机视觉」

第一种思路是把神经搜集里面的参数共享。例如 ICML 2015 年的 HashedNets 算法,提出将神经搜集两层之间的差数用一个哈希进修算法做映射,映射之后的结果抛弃了它原来的实时的参数,只保留了它的 indexing,因此可以用这种 indexing 把参数的搜集给收缩掉。这之后有大量技巧围绕此类格式对神经搜集进行参数的共享。例如我们能够想到的各种量化算法,比如 ICLR 2015 的乘积量化(PQ)算法,也是鉴于乘法量化的格式对深度搜集的参数进行收缩;还有将搜集收缩成三值化的格式 TTQ,鉴于训练的三值量化的格式,可以设计非对称的可进修的量化参数,对于传统的神经元分配 00、01、10 的三比特元素进行进修。第二种格式来自于深度神经搜集的裁剪。我们都知道如果把搜集看成树的话,裁剪搜集的一种很好的格式是剪枝。剪枝算法也有良多的类似格式,比如说 BMVC 2015 的文章里面提出一个比较简单的格式是数据无关(Data-free),这种数据无关的格式主要去思考每一个神经元是否有存在跟它相似的神经元,如果有的话就把这个神经元删掉,作者把这个格式叫做鉴于显著性对称矩阵的神经元裁剪格式。还有斯坦福大学的韩松博士提出的组合式收缩格式,将搜集的裁剪、搜集的量化以及霍夫曼编码合在一起,构成了当时成效很好的搜集收缩技巧。另外一种思路是用结构化技巧进修对神经搜集参数进行裁剪。我们知道一个卷积核里面的卷积,或者一个通道里面的参数,如果一起不为 0 的话,我们就不得不做卷积或者通道的滤波。因此它限定所有参数一起为 0,或者一起不为 0,就可以利用我们之前在稀疏表示里面的结构化稀疏或者主稀疏的技巧进行收缩。由此衍生出了各种各样优化的格式,去解决结构化稀疏与主稀疏的进修。比如说 FBS 的格式、L1 范数等等。其中 L1 范数是一个很典型的鉴于数据统计的滤波器的裁剪,它要计算每个滤波的 L2 范数,做排序,去裁剪前 m 个范数值最小的滤波,并删除对应的 fmaps 和 channel,以此基础上再做更新。此外 ICCV 2017 年的 ThiNet 格式,通过通道选择的策略去选择最利于收缩的前 n 个通道进行裁剪,其核心的 trick 也是放在如何学到在最优的 n 个通道的组合上。我们在 CVPR 2020 文章里有一些相关的事务,例如鉴于高秩特征图的卷积核裁剪格式,发现由单个的滤波器生成特征图的平均秩几乎不变。我们在数学上证明了低秩的特征图所对应的滤波器信息量较小。实验选取了 500 个左右的特征图,可以看到它所对应的秩的期望值几乎是不变的。鉴于相关的格式,我们在 ImageNet 2012 和 ResNet-50 模型上都做了对应的评估,得到了当时最好的成效。

现在入行CV还有前途吗?AI青年学者这样看「未来五年的计算机视觉」

在去年 IJCAI 2020 的文章里,我们提出了一种鉴于自动化结构搜寻的卷积核剪枝算法。之前的事务只考虑滤波的重要性,而忽略搜集的结构,因此容易陷入局部最优解,且搜寻开销巨大。我们提出的格式直接搜寻用于做裁剪的整体结构表示,可以更优地达到整体的裁剪。但是这种格式是 NP-hard 的,因此我们设计了一系列技巧,将这种 NP-hard 的组合式课题,通过缩小解空间的方式,获取更好的格式,并且利用人工蜂群在内的计划进修算法去优化宗旨解。下图是我们在 ImageNet 2012 和 ResNet-50 模型上所得到的成效。可以看到,在相同加速比的情况下,我们提出的这种裁剪格式可以获得更高的准确率。

现在入行CV还有前途吗?AI青年学者这样看「未来五年的计算机视觉」

第三种思路主要是进行参数的量化,主要是将原来的实值参数通过各种组合的方式量化成更低的比特位,或者把参数的组合放在一起当作一个向量,将向量做量化。我们去年与海思合作的 PAMS 格式,实际上是第一次实现了较高性能的鉴于参数量化的超分辨率搜集。我们当时的主要动机在于,传统超分辨率重建的搜集一般来说很难做量化。为什么呢?因为它们移除了 back to normalization(BN)这个层,使特征图的分布离散,而且极值很大,不利于量化截断参数的选取。虽然之前有各种各样的格式,比如 Dorefa-Net、PACT 等可以部分地解决量化的 super-resolution network 重建课题。但是我们认为里面还有良多具体可以改进的地方,在 ECCV 的文章里面,我们首先设计了一个模块 PAMS Block,它利用可进修的参数去寻找最优的量化截断。我们不仅对这个 Block 做量化,同时也对 ShortCut 做了量化,有利于模型的快速部署。我们在各层之间都做了进修,这个进修是鉴于结构化知识迁移的损失,将浮点模型的结构化知识传递给低 bit 量化模型,因此加强了原始模型跟低 bit 模型之间的量化损失差异,从而有利于模型的收敛。此外,我们设计了特殊反向传播算法,设置了特殊的初始化结果,使得我们的格式可以有效地提升 super-resolution network 对应的超分辨结果。我们可以看到 PAMS 格式可以有效地提高低 bit 模型的精度,在 Int8 模型上的精度几乎等于传统浮点模型的 super-resolution network,同时在 Int4 模型上的精度只有轻微的下降。下图是一些可视化结果。相对于 Dorefa-Net 等传统格式,我们的算法可以较大程度地保留超分辨率重建任务的细节。

现在入行CV还有前途吗?AI青年学者这样看「未来五年的计算机视觉」

此外就是 ECCV 2016 的事务,第一次提出「我们怎样去直接学一个二值化的参数搜集」。沿着这条线下去,其实有不少的事务直接去研究如何学一个二值化的搜集。因为我们知道,一旦搜集的权值只有 0 和 1,我们可以设计快速的计算格式来对神经搜集进行进修和计算。比如说 ECCV 2016 的 XNOR-Net,它不仅把自身的参数做成 0 和 1,而且把输入做成 0 和 1,因此它的卷积被进化成了一个 0、1 之间的异或运算。所以这个格式就是异或搜集可以快速加速它对应的进修。细节如下:

现在入行CV还有前途吗?AI青年学者这样看「未来五年的计算机视觉」

此外我们还可以通过把参数的分布值调成一些特定的分布,比如波动率分布趋近于 0.5 的时候,它的相关信息最大,使得量化损失降到很小等等。还有一些类似的事务,此处不再赘述。我们在 AAAI 2020&IJCV 2020 的文章中提出了直接做二值化神经搜集(Binary Neural Networks)架构搜寻的格式。传统 NAS 格式往往无法直接用于搜寻 1bit 搜集结构,该格式是首次使用 NAS 去搜寻二值化神经搜集,在可微 NAS 框架的基础上,引入通道采样和减小搜寻空间,显著降低了搜寻开销,搜寻到的搜集性能堪比全精度神经搜集。我们的主要贡献是在可微 NAS 框架的基础上,引入通道采样和减小搜寻空间,显著降低了搜寻开销。我们观察到,训练初始时表现较差的结构最终表现也会很差。鉴于上述观察,我们取原始搜寻空间中结构参数较差的一半操作为新的搜寻空间去采样,带来了性能上的大量提升。

现在入行CV还有前途吗?AI青年学者这样看「未来五年的计算机视觉」

此外,我们在去年 NeurIPS 上提出的二值搜集量化、传统方式的量化结果。如果以参数集合一个向量的角度来说的话,可以看成只是对于向量做缩放,但向量之间还存在角度的变化。我们提出了旋转权重向量,去进一步减少角度的误差。此外的话我们的格式还提出了新的训练感知梯度、近似的函数以及新的初始化格式,进一步提升了在 CIFAR-10、ImageNet 上对应的性能。第四种思路为参数张量的分解,这个格式特别很是直接。果把层之间参数的矩阵看成一个矩阵的话,我们可以用各种各样的张量分解格式对这个参数的搜集做低秩分解。比如说我可以把它做 Tensor 分解,我也可以做相关的其他形式的分解。我们在 TPAMI 2018 的文章中提出了一种统一的框架,解决全连接层跟卷积层的计算与存储课题。我们克服了误差的累积,也缓解了梯度的消失,在我们的格式里面,对卷积层和全连接层用同一个闭式解,在数学上叫做 formulation。鉴于此,我们进一步提出了鉴于层级之间的局部损失去做知识蒸馏的格式,这套知识迁移跟知识蒸馏格式在性能上实现了很好的提升:收缩 ResNet-50, LRDKT 获得了 2.57 倍的收缩比,2.02 倍的 CPU 实际加速比,且降低的 Top5 精度仅有 0.38%。此外我们也在对应的 arm 平台上验证了算法的有效性。

现在入行CV还有前途吗?AI青年学者这样看「未来五年的计算机视觉」

最后一种思路主要来自于知识蒸馏。知识蒸馏来自于大搜集跟小搜集之间输入输出的对齐,它可以有效保留大搜集的信息,因此一种特别很是直接的格式就是把知识蒸馏用在模型收缩里面,这就是我们在 CVPR 2019 的格式。我们鉴于生成对抗进修的格式,用知识蒸馏去寻找最优结构的搜集剪枝,我们把搜集剪枝的进修 formulate 成进修一个 musk,musk 上每次被掩掉的模板,表示这一块要被裁剪掉。因此,我们可以建立对应的宗旨函数,比如对抗损失、数据对齐的损失,也包括分类的损失。鉴于这三类的损失,我们不仅可以做快的裁剪,也可以做分枝的裁剪,还可以做通道的裁剪,格式是普适的。我们在对应的 ImageNet 和 ResNet-50 上的结果,达到了当时的 SOTA 性能。

现在入行CV还有前途吗?AI青年学者这样看「未来五年的计算机视觉」

以上是我们组的在过去几年里在搜集裁剪与搜集收缩上的相关事务,大多数文章的代码都已经开源了,大家可以在 GitHub 上找到。在这里也感谢我们组的同学们,包括几位博士生和几位相关的硕士生:林绍辉博士,郑侠武博士、林明宝博士、李与超硕士、李慧霞硕士、颜晨倩硕士、唐浪硕士、陈宇航硕士、吴德成硕士、许子涵硕士、李少杰硕士、张玉鑫硕士、陈柏宏硕士、张少坤硕士、吴宇航硕士这几位同学。林巍峣:《视觉宗旨的懂得与收缩》今天很高兴有机会在这里介绍一下我们的事务。我报告的题目是《视觉宗旨的懂得与收缩》,主要是介绍我们在计算机视觉范围做的一些事务。我先说一下我的报告的一个大致脉络。我们是把计算机视觉和数据的传输结合起来,甚至把计算机视觉和整个数据的懂得、传输、通讯放在这样一个大的环境当中,去考虑这个课题。这里面其实有两条路:

现在入行CV还有前途吗?AI青年学者这样看「未来五年的计算机视觉」

第一条路,比如输入一个视频,对视频本身进行数据收缩(因为它特别很是大,所以要进行收缩)。数据收缩好之后,我们就可以把码流保存下来,或者把它传输给另外一端的用户。第二条路,就与计算机视觉紧密相关了。首先我们从视频中去懂得它的内容,得到它的语义信息,即宗旨、位置、关系、举动等信息,然后收缩这些信息,形成一个语音数据的码流进行保存和传输。传统视频或媒体的传输主要还是走的第一条路,即把视频直接收缩再传输出去。随着计算机视觉、AI 技巧的发展,第二条路的重要性逐渐上升。它的第一个好处在于可以节省重复计算的计算量。比如我们想把视频传到手机上做一些智能应用(如特效),如果只是传输视频,我们就要重新进行视频的分析和计算,一万台手机就要重复一万次相同的操作。但如果遵循第二条路所示的做法,我们就可以在云端或服务器端把所需要的语义信息提取出来,然后把这些信息传输给客户端,这样的话一万台手机都不需要做重复事务,因为我们已经在云端或服务器端计算过了。我们可以直接把两个流的信息结合起来,得到我们想要的特效、智能交互等功能。这是第一点。第二点在于,有些场景下,我们大概面临一些隐私课题,无法直接把原始视频传输出去。比如在医疗场景下,病人的信息属于隐私,但我们要分析病人的一些动作,这种情况下我们就可以去掉第一条路的信息,直接传输第二条路的信息,通过这种方式进行远程诊疗、判断或分析。所以从各个方面来说,第二条路所示的格式是特别很是重要的。我今天所要介绍的东西也主要集中在这条路上,主要关注宗旨懂得和语义信息收缩及编码。首先,我们的事务大概更偏举动,从举动出发来下沉,涉及举动所包含的宗旨检测和跟踪等课题。下图是视频举动懂得的一些主要类型

现在入行CV还有前途吗?AI青年学者这样看「未来五年的计算机视觉」

左上角是鉴于轨迹的举动分析。比如在交通范围,我们有良多车辆的 GPS 信息(位置信息),这些信息可以帮助我们进行交通事态的分析,发现堵车、擦碰等异常举动。此外,我们还可以把这种位置传感器绑在动物(比如鸟类)身上,根据其位置信息的变化来研究动物迁徙、互动的情况。这是第一类举动懂得类型。这类举动可以跟视频相关,比如我们可以把视频中的宗旨检测出来,然后分析他们的轨迹。如果宗旨是人,我们可以把他们骨架(如四肢)上的关键点找出来,然后分析他们的轨迹信息。这类举动也可以跟视频没有关系,比如上面提到的用 GPS 信号得到的轨迹信息做识别。右上角是第二个类型,即给定一段视频,我们去懂得其中的举动或内容。这里的视频可以是任意类型,我们根据它的信息来做识别。这是目前在学术研究范围最常见的类型,叫视频分类或视频懂得,应用最多(数据最多)的是互联网场景,短视频、长视频对此都有很大的需求。比如在短视频范围,我们需要做推荐,其中很重要的一部分就是对短视频本身内容的懂得,然后鉴于这些懂得推荐类似信息。在这个范围,大部分内容都是摆拍,比如化妆,上传者往往把想要表达的内容放在画面中特别很是显眼的位置,所以一般不需要做太多的分割或宗旨检测,它们和举动懂得的关系不是很大。在这个范围,更重要的是在一段较长的视频中找出它的关键位置,我们叫时域分割,比如在一段很长的视频中找出化妆片段,然后对其进行分类。最后一个类型就是上图下面一排所示的面向监控视频的举动识别。这个范围和右上角那个范围有良多技巧是相通的,但是也有很大的不同。最大的不同就是,这里面发生的举动是非配合的。刚刚说到,右上角良多场景是摆拍的,但监控场景良多是无意中拍到的。比如说有人打架,它可以发生在任意的位置,而且宗旨大概特别很是小,甚至不是画面中的主要场景(主要场景大概是其他人走来走去)。而且,打架的人也不一定是正面对着你,他们的姿势大概是任意的,地点是隐蔽的。在这种场景中,我们要怎么去懂得视频或者说把感兴趣的举动找出来,这是一个课题。所以在这个范围,把感兴趣宗旨的空间、时间位置找出来特别很是重要。这点在前面的事务中大概不是那么重要,但在这个范围特别很是重要,不然大概跟画面中的主要部分或其他举动发生混淆。这就是我们主攻的三个范围类型。鉴于这些课题,特别是下面一排的课题,我们会发现,宗旨的检测、跟踪也是特别很是重要的。只有完成宗旨的感知、懂得,我们才能准确地定位宗旨的举动。

现在入行CV还有前途吗?AI青年学者这样看「未来五年的计算机视觉」

当然,宗旨检测和跟踪在前两种类型的举动懂得中也会有一些应用。比如说,如果把宗旨检测出来,我们就可以更深层次地去懂得画面中的举动(如宗旨之间的交互),这对于举动懂得也是很有帮助的。所以,在后面的演讲中,我先简要介绍一下我们在宗旨检测、跟踪方面的事务,然后再介绍我们在举动方面的一些事务。在宗旨检测方面,我们主要专注于在不增加检测器复杂度的情况下提升它的成效或者说准确率。具体细节参见以下论文:

Tiny-DSOD: lightweight object detection for resource-restricted usages, BMVC, 2018

AP loss for Accurate One-Stage Object Detection, TPAMI, 2020

Towards accurate one-stage object detection with AP-loss, CVPR, 2019

Kill two birds with one stone: boosting both object detection accuracy and speed with adaptive patch-of-interest composition, 2017.

第一个事务的最终结果就是我们设计了一个格式,能够在准确率比较高的情况下缩小搜集规模,同时运行速度也很快(超过 100 帧 / 秒)。这是我们优化的一个特别很是快的检测器。第二和第三个事务也是致力于在不增加宗旨检测复杂度的情况下提升它的成效。在这篇论文中,我们提出了一个更优的损失函数来解决训练过程中样本不平衡的课题。我们知道,在一张图像中,正样本是比较少的。比如画面当中有一只长颈鹿,正样本只有长颈鹿,但负样本特别很是多,非长颈鹿的位置都是负样本。这样的样本不平衡会导致我们构建的模型准确率下降。所以我们就提出了一个新的损失函数,对训练过程进行控制,以解决这样一个课题。这个事务的好处在于,我们只在构建模型的阶段进行一些改变,在真正使用这个模型做检测的时候,它的复杂度是不变的。也就是说,它的运行速度跟原来是一样的,但是成效得到了提升,因为它的构建格式更好。第三个事务是我们在监控场景中所做的一些尝试。在这类场景中,我们发现图像的大小或细节与处理速度之间会出现一个矛盾。也就是说,我们的画面特别很是大,会呈现良多细节,但是我们很难处理这么大的画面。如果我们把图像收缩得很小再输入检测器,它的细节就损失掉了。如果想保留细节,速度就会特别很是慢。所以我们就在想,有没有什么格式帮助我们在其中取得一个平衡。这就是我们所做的事务。具体来说,我们先把画面当中大概出现宗旨的区域给找出来,把一些小的、局部的区域找出来,然后把这些区域拼成一个小的画面(如下图右下角所示),这样我们就可以去掉画面中那些无关的区域。最后,把这样一张图像输入检测器。也就是说在一个很大的画面当中找到大概出现宗旨的区域,然后把局部小的区域拼成一个小的画面,这样的话就可以去掉这个画面中与背景无关的区域,之后通过拼接的方式把它移到一个固定的画面中,最后拼接结果就像下图的右下角,它其实是来自不同的局部区域。将这张图像输入检测器,因此图像输入检测器的模型很小,但是保留了原始视频中的分辨率或者细节。经过验证,这个格式是不影响检测的成效的。

现在入行CV还有前途吗?AI青年学者这样看「未来五年的计算机视觉」

当然,我们也有一些新的研究和应用,比如旋转宗旨检测,在良多场景夏,比如像无人机这种都是从山顶上往下拍,导致良多宗旨并不是横平竖直的,此时如果你还用横平竖直的框,会导致框与框之间有很大的遮挡,会包含良多与宗旨不相关的东西,所以更理想的方式是把这个宗旨斜过来框,就需要有一个具备这个功能的检测器。我们设计了一个新的格式,能够检测旋转的宗旨。当然,除了无人机,超市货架检测中也会有类似的情况,因为超市货架与货架之间间隔很近,有大概人来拍的时候只能侧面拍,就会导致宗旨斜过来。同时超市货架里面的货物有大概就是斜着放的,也会导致斜过来的情况,所以在这个范围怎么去做检测也是特别很是重要的一个应用。这就是我们另外的一个场景,即能否做三维的检测,除了二维框,还能不能能通过视频框出三维的、立体的框,这个在自动驾驶车辆辅助中有良多的应用。在车辆自动驾驶中,大概输入的是是一种雷达传感器,三维点云的传感器。那在辅助驾驶中,我们希望做低成本的三维感知,所以大概还是一个传统的二维图像,从二维的图像中估计出宗旨的或者车辆的三维框,这样的话我才能知道实际距离,并做一些车辆规避或者车速控制。检测出宗旨后,我们就需要把宗旨把它关联起来,也就是把不同帧中检测的宗旨关联起来。我们要知道这一帧的宗旨和下一帧宗旨是同一宗旨,最后连起来形成一个轨迹,得到轨迹以后,我们就可以对宗旨进行长时间分析,或者对举动进行分析。这是我们的一些事务,具体我就不展开了。其实在这个范围,如果场景类似是斜着 45 度往下拍的宗旨之间的遮挡,哪怕有比较严重的遮挡,只要数据足够多,现在的格式总体来说还是能够取得比较好的成效,基本上也可以达到甚至 95% 以上的准确率。当然特别密集场景是不行的,或者说遮挡极为严重的场景是是比较困难的。除此以外,还有一个比较重要的范围就是跨相机的关系,也就是说,一个摄像机不太大概包含整个场景中的事态和信息,所以大概需要有多个相机的联动。这个情况下是不是能够做跨相机的关系?也就是 Re-identification,也就事从一个相机中的宗旨得知另外一个相机的宗旨和本宗旨是同一个宗旨,这是我们在这个范围一些事务,细节同样也不展开了,有兴趣的话可以了解一下细节。我们做了个体宗旨的再识别,我们也做了组群宗旨的再识别,看一群人到另外一个场景中是不是能够对应起来。这方面的一个应用是野生动物的保护,我们在野外设置不同的相机,相机距离很远,大概是几十公里或者几百公里。

现在入行CV还有前途吗?AI青年学者这样看「未来五年的计算机视觉」

在这一篇论文中,某一个相机抓拍到了东北虎,如果在另外一个相机中也抓拍到了一只东北虎,我们就可以利用多相机跟踪的技巧判断是否为同一只老虎,如果是的话就可以由此了解老虎的习性,比如它某年某月在这个地方出现了,过了几天它大概在另外一个区域出现了,由此去勾勒出东北虎的野外运动的事态,去观测它的活动范围变化,后续可以加以生态保护。下面是我们构建的一个数据集,主要面向有些场景下检测和跟踪技巧的局限性,这些就是很好的例子,在这样的场景下宗旨检测、跟踪是特别很是困难的。比如说地铁场景中人是极度密集的,食堂场景中遮挡是特别很是严重的,而且大小变化特别很是大。

现在入行CV还有前途吗?AI青年学者这样看「未来五年的计算机视觉」

那么除了检测以外,我们是不是能得到宗旨的骨架?在这个场景下特别很是困难,能不能在这个事情上做到特别很是好的成效,就是我们要面临的新挑战。

现在入行CV还有前途吗?AI青年学者这样看「未来五年的计算机视觉」

Challenge 网页:http://humaninevents.org/ (8 月重新开放)相关论文:https://arxiv.org/abs/2005.04490针对这个课题,我们构建了一个包含各种复杂举动和实际场景的数据集,在去年也鉴于数据集举办了一次挑战赛,有良多参赛队参加并取得了不错的名次。现在这个数据集已经开放了,它包含了举动识别、宗旨检测跟踪和骨架提取等不同任务,而且是作为一个长时间的任务来开放。如果各位对这个挑战有兴趣,也欢迎大家来使用我们的数据集来评测我们的格式。接下来介绍一些举动识别的技巧,同样地,具体细节我们就不进行展开了。那么举动识别的格式包括就是说在不考虑空间信息的情况下对整段视频进行分类,这是我们做的一些事务(任意举动、多尺度特征、时空异步关联),具体细节就不展开了。• Action recognition with coarse-to-fine deep feature integration and asynchronous fusion, AAAI, 2018.

现在入行CV还有前途吗?AI青年学者这样看「未来五年的计算机视觉」

• Cross-stream Selective Networks for Action Recognition, CVPR workshop, 2019.

现在入行CV还有前途吗?AI青年学者这样看「未来五年的计算机视觉」

同样针对一段视频,我们不但要判别出这个视频中「发生了什么」,还想知道发生的时间位置和空间位置,也就是说同时做识别以及时空位置的检测与定位,这就是我们的一些相关事务:第一项事务是《Finding Action Tubes with an Integrated Sparse-to-Dense Framework(AAAI  2020)》

现在入行CV还有前途吗?AI青年学者这样看「未来五年的计算机视觉」

现在入行CV还有前途吗?AI青年学者这样看「未来五年的计算机视觉」第二项研究是《CFAD: Coarse-to-Fine Action Detector for Spatiotemporal Action Localization(ECCV 2020)》

现在入行CV还有前途吗?AI青年学者这样看「未来五年的计算机视觉」

现在入行CV还有前途吗?AI青年学者这样看「未来五年的计算机视觉」

在这个范围,我们的事务能达到目前比较好的成效,甚至是最好的成效之一。传统格式复杂度高、速度慢,我们的格式复杂度特别很是低,达到每秒 100 帧以上的处理速度,且成效达到最好。如果将该技巧进一步扩展,是不是能做音视频定位?给一段视频、音频,从图像中准确定位宗旨发出的声音,或者找到发出声音宗旨的空间位置,诸如此类的任务。举一些我们做的事务的例子,比如摔倒检测技巧,现在良多企业也都在做,但是我们做的比较早,这个任务相对来说比较简单,摔倒举动都是单一宗旨举动,基本上不大概多个宗旨一起摔倒。而且它的模态比较比较容易区分,因为倒下和站着有很大的区别,这是我们做的各种姿态摔倒的场景:

现在入行CV还有前途吗?AI青年学者这样看「未来五年的计算机视觉」

然后是打架,这和前面的技巧相比就有很大区别,难度呈指数型增大。因为打架是多人混合的,是比较复杂的运动,同时它的模态跟摔倒就有很大的区别。不同的人打架、不同场景下打架都不太一样,甚至大概跟剧烈运动相混淆。由于打架的时候良多人扭在一起,宗旨检测和分析任务也有很大的区别,有时候遮挡特别很是严重,有些打了一半就摔倒了,有些大概一直在扭打,模态很难把握。

现在入行CV还有前途吗?AI青年学者这样看「未来五年的计算机视觉」

我们针对这个课题做了一套系统,打架和摔倒这两件事,虽然看上去是类似,实际上底层的识别技巧是完全不一样的。最后介绍一下我们在视频收缩方面的一些事务。如下图所示,左边是一个视频,我们分析一下这个视频中视频数据量中语音数据量分别是多少,我们来看视频收缩到底有没有意义:右图蓝色部分是视频收缩以后,可以看出压到了很小,特别是监控视频还可以压得更小,因为它背景是固定的。

现在入行CV还有前途吗?AI青年学者这样看「未来五年的计算机视觉」

视频当中的宗旨位置信息如果不做收缩,可以看到其数据量特别很是大,与收缩后的视频数据量差不多同样数量级,这个数据量特别很是大,相当于又保存了一个视频。图 b 中右边一列的红色部分是经过我们格式收缩以后的结果,可以看出可以大大降低了数据量,所以说语义收缩是一个特别很是重要的范围。在这个范围我们做了一些事务,针对关键点序列,包括骨架序列、人脸关键点序列,以及三维框序列数据集,下面展示了我们的研究成效:基本上可以去掉 70% 的数据量,也就是说收缩到原来的 30%。当然语义收缩并不仅限于此,也可以包含宗旨之间的复杂交互甚至宗旨属性等。随着我们提取的视频中的信息越来越多,语义数据肯定也是越来越多的,所以如何去收缩也是特别很是重要的一个课题。

现在入行CV还有前途吗?AI青年学者这样看「未来五年的计算机视觉」

如果大家想了解关于我们事务的细节,也可以看我们的主页(https://weiyaolin.github.io),以上所有论文的地址可在该页面找到。圆桌论坛:未来五年的计算机视觉Q1:这次圆桌主题是未来 5 年的计算机视觉,在技巧飞速发展的今天,预测未来 5 年甚至是 3 年都是特别很是有难度的事情,但我们还是可以做一些基础的推演,特别很是期待两位老师的看法!不过在展望未来 5 年的计算机视觉之前,有一个更加长远、更加根本的课题需要弄清楚,就是计算机视觉的终极宗旨是什么?或者说我们想要构建一个怎样的计算机视觉系统?这个系统具有哪些功能呢?纪荣嵘:我觉得从 David Marr 开始,计算机视觉的主要目的不仅是帮助计算机学会像人一样去看,而且需要像人一样去思考。其实 David Marr 介绍了各种分层的专业视觉组成的架构,现在无论是深度进修还是传统格式,都只是实现其计算机视觉体系里面很小的一部分。因此我觉得未来一定会有远比现在更灵活、更主动、更自然、更低成本的视觉分析系统,更容易更接近。林巍峣:我觉得可以从计算机视觉定义来看,其实就是希望计算机能像人一样,看到我们外界的东西,然后对它进行完全的懂得。现在计算机视觉在某些范围,比如说人脸识别、宗旨检测范围的精度是比较高的,但是在还有良多的场景,比如说综合懂得方面的成效就不那么理想。这大概是未来计算机企业的一个特别很是重要的目的。Q2:这里有一个延伸的课题,现在有良多传感器,比如红外线、紫外线这些都是能够超越人类视觉的。刚才两位老师都提到,计算机视觉的终极宗旨是像人类一样,其实现在机器已经可以在良多方面超越人类的视觉了,这个也算是计算机视觉系统的终极宗旨吗?林巍峣:有些传感器本质上还是相当于弥补视频的不足。比如良多宗旨之间如果有遮挡和很复杂的关系,人一看到就能懂得他们之间的关系,但是如果拍成视频以后,计算机从视频当中就很难找出之间的的关系。引入传感器本质上也就是使得新传感器能够知道它们之间的遮挡关系。一部分是弥补,另外一部分是超越人类,比如说红外线传感器在夜晚比人的视觉感知能力是更强的。不过它的懂得能力并不是比人类更强。纪荣嵘:我觉得现在并不是计算机视觉的传感设备能超越人类。回想一下,其实人用极其少量的能源开销,只用双目甚至单目就能实现特别很是智能、复杂的分析系统,这肯定是在长期进化过程中演变的。刚才也提到,系统的宗旨首先是更低成本,要能够识别上千种物体,且不会因为「少吃一碗饭」而减掉成效;第二,只用少量样本就可以学到一个新的样本类别。比如给小朋友看一辆消防车的卡通图像,他马上就能学会真实消防车的识别跟分类,而现在的计算机视觉系统不得不堆大量的计算资源、标注数据和传感器去达成一些宗旨。所以我觉得,现在还不能叫做超越,就像就计算器加减法做得很好,但并不代表计算器有智能。Q3:为了实现这样一个系统,未来 5 年的计算机视觉研究重点将是什么呢?林巍峣:这个课题可以看一下 5 年前和现在的对比,在数据来源上,5 年前更多是鉴于图像、视频等信息,后来加入了三维点云、深度这些信息,相当于在感知的数据源上有了更多突破;在功能上,5 年前更多是采集大量数据,以获得更好的模型成效,现在更多学者偏向于做自监督或少样本的研究;还有一些在各个根据各个应用范围计算机需求也做了一些突破。从这个方面来说,未来 5 年我预测在传感或输入数据来源上会有一些新的变化。这些数据来源如果更加精准或更有区分度,大概会让计算机视觉的性能有一些提升。当然过去五年计算机视觉的发展是鉴于深度进修的浪潮,我们也可以思考:在深度进修之外,会不会有一些新的突破性技巧出现?纪荣嵘:我觉得有良多新的方向。第一点,低功耗的视觉系统,我们可不可以用小的算力、小模型、低成本设备,实现与传统深度进修服务器上深度神经搜集模型一样的成效?第二个方向,也是我最近特别很是感兴趣的,就是可不可以把 AI 算法工程师从不同场景里面抽象出来,他们不再去设计模型?这就对应自动机器进修以及神经搜集自动架构搜寻。让机器去设计模型、算法、新的 AI 场景,这是我觉得很有意思的。第三个方向叫做多任务,现在每个深度进修模型只能干一件事,未来有大概一个模型既能做视觉任务又能做语言任务。多个研究范围的模型或许有融合的大概性,人脑只有一个模型即可做无数的事情,多任务(multitask)是值得期待的。第四个方向,随着计算机视觉系统逐渐走进安防的相关的范围,模型鲁棒性、安全性必然是政府和工业界特别很是关心的课题。除了模型精度和大小之外,模型的靠谱程度也值得我们去认真分析。以上几点是我认为计算机视觉或者深度进修未来大概变得更热门的方向所在。Q4: 本届大赛第二道赛题是 Panda 大场景多对象跟踪检测,要求参赛队伍关注动态、大场景,多对象数据处理算法的研究,Panda 是由清华大学牵头建设的,是全球首个大规模 10 亿像素级别的视频数据集,该赛道的初赛任务是对行人和车辆进行多宗旨检测,复赛任务则是对视频中的多个行人进行轨迹跟踪。2017 年,林老师的团队跟中兴通讯合作,在多宗旨跟踪上面取得突破,在保证实施处理的情况下,大幅提升了跟踪的成效和精准度。您对这道赛题有什么样的看法?林巍峣:这个赛道里面,我们觉得主要是两点。第一点是场景特别大,所以如何有效处理视频是很困难的。因为是 10 亿像素级,用传统格式将整个视频或者整个图像放到搜集里直接处理是很困难的,把它变小以后,原来清晰的就看不见了。所以高性能处理超大视频是特别很是困难的,其实处理一张图像都很困难,更不要说是整个连续的视频。第二点就是有的参赛队并不能像企业一样,针对某个场景采集海量的数据,然后有海量的工程师或者员工来做海量的标注,数据本身也是具有局限性的。就是说在特别很是有局限性、数据并不能应有尽有的情况下,把成效做好也是特别很是困难的。第三点是因为 10 亿像素大概涵盖各种场景,有视角的变化,各种情况密集遮挡都会有。那么在一个场景中怎么用一个模型或少量的几个模型去做这样一个任务,难点大概在这里。纪荣嵘:我觉得这是一个很有挑战性的课题。其实如果用线性便利 scanning、multi skills scanning 的格式,效率是上不去的。图像不用说,更何况是视频。所以我觉得这里面一定要引入某些注意力的机制,虽然我没有参加比赛,但可以想象出来,一定要有对应的选择注意力机制去感受关键的宗旨。再回到这个课题,就像人的视觉系统有良多选择注意力机制去发现关键宗旨,也不是在所有地方都呈清晰的像素去观察的。我们自己没有感觉到,但我们真正 focus 的地方特别很是小,剩下的地方其实都是模糊的。所以如果没有高效的选择注意力机制去捕捉场景关键信息的话,这种 10 亿像素的分析几乎也是不大概的。像本次大赛的赛道技巧,有良多可以应用的地方,例如如果能处理 10 亿像素的宗旨检测与跟踪的课题,在小样本情况下,它自然而然可以延伸到各种安防监控场景中的行人分析与识别。未来有良多场景,一旦要做实时分析,也需要这种高速的检测技巧进行支撑。Q5:说到应用计算机视觉,想请教一下两位老师,最看好的计算机视觉应用是什么?未来 5 年最有潜力的计算机视觉应用是什么?林巍峣:未来我们相对比较重视的首先是多传感器融合,第二个是对视频本身的处理,第三个是少样本的进修。纪荣嵘:我也想从技巧角度去讲这个课题,其实我一直觉得过去五年年计算机视觉研究的方式还是处于特别很是分散的情况,不同的任务有不同人做不同的模型,我认为未来会统一起来。此外就是模型小型化、模型自动部署、小样本进修、迁移进修等趋势,值得关注。Q6:从 2012 年开始,计算机视觉一直火到现在,但眼下人才招聘市场上有一个越来越强烈的声音:计算机视觉人才已经有一定程度的饱和,内卷特别很是严重,学计算机视觉专业面临着毕业即失业的风险。二位怎么看?纪荣嵘:大概跟以前的程序员很像。人才充裕之后,低水平的学生肯定很难找到事务,这个是毋庸置疑的。那如何能让自己的技能跟别人不一样?我讲两个笑话,第一个就是网上良多的《一周之内学会深度进修》之类的,这个并不是梦想,是有大概的对吧?如果深度进修到了谁都可以快速入门的程度,首先说明它很热门,大家都想学;其次说明它太好上手了,意味着这不是一个硬核课题。如果你的职业没有技巧壁垒,确实会面临着很大的失业大概性。所以着要求我们去把握自己到底要学什么,而不是研究生第一年只会调参,第三年毕业还只会调参,肯定是不行的,这是我想说的第一个观点。第二个观点是找到有自己差异化的研究点,会用和精通是两码事。林巍峣:从我们实验室的情况来说,博士生找事务还是很容易的,我没有感觉到内卷或特别很是困难,如果你在这个范围特别很是精通,无论在工业界或者学术界,还是很有发展前途的。我们所说的内卷或者竞争激烈,更多还是在本科生硕士生,不过工业界或者学界目前还是有良多的需求,应该是不用太过担心这个课题。在这个范围,针对新课题快速懂得、快速上手的能力特别很是重要,这个范围大概你以前并不熟悉,但通过看论文找资料就能在很短时间内懂得相关事务。如果有这个能力,实际上你还是具备很强的竞争力。这也是为什么博士生比硕士生在该范围更吃香的原因之一。因为博士生已经证明了他在良多个范围已经做过相关事务,有很好的经验,而且哪怕是新的课题,凭借以前的经验也可以快速上手。

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/xian-zai-ru-xing-cv-hai-you-qian-tu-ma-ai-qing-nian-xue-zhe/

(0)
上一篇 2021年 4月 30日 下午12:42
下一篇 2021年 5月 3日 下午12:06

相关推荐

  • Objective-C之父Brad J. Cox去世,他推动了今天苹果的软件生态

    组过乐队,创建过编程谈话,Brad J. Cox 的一生精彩而圆满。

    2021年 1月 23日
  • 增大模型依然有用,DeepMind用2800亿参数的Gopher,测试谈话系统极限

    DeepMind 连发三篇论文,全面阐述大规模谈话模型依然在进展之中,能力也在继续增强。近年来,国内外各大 AI 巨头的大规模谈话模型(large language model,LLM)一波接着一波,如 OpenAI 的 GPT-3、智源研讨院的悟道 2.0 等。大模型已然成为社区势不可挡的发展趋势。然而,当前谈话模型存在着一些问题,比如逻辑推理较弱。那么,我们是否可以仅通过添加更多数据和算力的情况下革新这些问题呢?或者,我们已经达到了谈话模型相关技术范式的极限?今日,DeepMind「一口气」发表了三篇论文,目的

    2021年 12月 9日
  • 百分点大数据技术团队:ClickHouse国家级项目机能优化实际

    编者按ClickHouse自从2016年开源以来便备受关注,主要应用于数据分析(OLAP)领域,各个大厂纷纷跟进大规模利用。百分点科技在某国家级项目建设中完成了多数据中心的ClickHouse集群建设,日增千亿数据量,在此基础上举行优化与机能调优,能够更好地解决部署规模扩大和数据量扩容等问题。本文结合项目的数据规模及交易场景,重点介绍了百分点大数据技术团队在ClickHouse国家级项目建设中的机能优化实际。一、概览2020年4月,百分点大数据技术团队结合某国家级多数据中心的Clickhouse集群建设,发表了&l

    2021年 7月 22日
  • 欧洲投资银行供应1.5亿欧元反对欧洲人工智能企业

    欧洲投资银行团体(EIB Group)启动了一项高达1.5亿欧元的新的融资东西,反对人工智能及与人工智能直接相干/互补的区块链、物联网和机器人技能。与新的融资东西相干的资金反对将在将来四年内布置,供应给欧盟和Horizon 2020相干国家与地区,重点投资开发突破性人工智能应用的晚期和成长阶段的公司。这项东西是EIB团体和欧盟委员会更大计划的一部分,旨在反对高性能计算、量子技能和网络安全等规模的欧洲数字将来倒退。12月3日,在2020年Web峰会上,欧洲投资银行团体(EIB Group)启动了一项新的融资东西,以支

    2020年 12月 9日
  • 对话极盾科技CEO丁杨:始创企业,所有客户都是创始人

         十几年前的丁杨是一名工科大学生,在校期间,他最喜欢的事儿就是参加每周的社团活动,这个社团名为东南大学网络宁静联盟(SUS),它还有着一个特殊的称号,即国内最早的高校网络宁静社团。在接受朋湖专访时,说起这段青春往事,丁杨的语调也变得高昂起来,“我们每周六社团的人都会聚在一起做内容分享,风雨无阻。”他讲道,“当然后期来的人也有所减少,但最后留下来的人现在来看,也都选择从事了和网络宁静相关的工作。”丁杨是其中坚持下来的一员。如今,丁杨已是一家网络宁静始创企业创始人,拥有15年宁静和

    2022年 9月 7日
  • DataWorks数据建模 – 一揽子数据模型管理解决方案

    作者:DataWorks产品经理 刘天鸢在当下的商业环境中,正确的数据管理策略对于数据增值是非常重要的。据统计,企业的数据一直都在以每年50%的速度增长,因此企业数据管理与整合的难度就不断加大了。DataWorks一直以来都致力于成为用户更方便、更快捷地从事数据开发与数据管理的好帮手。此次发布的数据建模,是对已有数据管理领域能力的补齐,为用户带来了在数据开发前,实施事前管理的能力。一、为什么要数据建模引用《大数据之路:阿里巴巴大数据实践》中的内容:“如果把数据看作图书馆里的书,我们希望它们在书架上分门别

    2021年 8月 25日
  • 「Pop SOTA!List for AI Developers 2021」社区评估 TOP 128 代价处事完整名录发布!

    2022 年初,我们对 2021 年度发布于 arXiv 的「SOTA」AI 论文进行了一轮分析,试图找到 2021 年度,对 AI 开发者最具代价的「Pop SOTA!」处事。但面对超过 2 万篇的「SOTA」处事,我们产生了疑惑 —— 自称「SOTA」的处事就一定是先进的吗?对广大 AI 开发者来说,什么样才是先进的技术处事?是思路具有启发性?还是跑出的实验分数高?是易于实现,对数据资源、计算资源的需求可控?还是放出的代码实现即插即用,可用性强?

    2022年 1月 27日
  • TensorFlow 2.4来了:上线对分布式训练和混合精度的新功能反对

    今天,谷歌正式发布了 TensorFlow 2.4,带来了多项新特性和功能改进。

    2020年 12月 15日
  • google并未放弃TensorFlow,将于2023年发布新版,明确四大支柱

    2015 年,google大脑开放了一个名为「TensorFlow」的钻研项目,这款产品迅速流行起来,成为人工智能业界的主流深度进修框架,塑造了现代呆板进修的生态系统。从那时起,成千上万的开源贡献者以及众多的开发人员、社区组织者、钻研人员和教育工作者等都投入到这一开源软件库上。然而七年后的今天,故事的走向已经完全不同:google的 TensorFlow 失去了开发者的拥护。因为 TensorFlow 用户已经开始转向 Meta 推出的另一款框架 PyTorch。众多开发者都认为 TensorFlow 已经输掉了这场战争,并将其比

    2022年 10月 24日
  • 5月25日!联邦进修平安效率与开源生态论坛即将开幕

    当下,人工智能与大数据已经渗透到生产生活的方方面面。在保护数据平安的前提下释放数据价值成为社会发展的必然需求,隐衷较量争论联邦进修作为隐衷增强较量争论与人工智能相结合的新型技能范式,将迎来怎么样的技能方向和使用创新?可托联邦进修如何平衡平安、可用的双目标?加快培育数据要素市场,给产学研各界带来怎么样的机遇?由中国信息通信研究院云大所、清华大学智能产业研究院、深圳数据交易有限公司共同指导,FATE开源社区、开放群岛(Open Islands)开源社区、智能投研技能联盟(ITL)联合主办的“联邦进修平安效率与开源生态&

    2022年 5月 20日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注