现在入行CV还有前途吗？AI青年学者这样看「未来五年的计算机视觉」

为了推动 AI 手艺的应用创新，促进人工智能畛域的学术交流、人才培养，打造人工智能的人才交流平台与产业生态圈，中国人工智能学会联合杭州市余杭区人民政府联合发起了首届全球人工智能手艺创新大赛，并得到了阿里云、OPPO 等头部科技企业的积极参与和支持。阿里云天池平台为本次大赛提供平台和算力支撑。AI 青年说是大赛主办方为提升青年开发者对 AI 的认识而主办的系列活动，该活动邀请知名青年学者，探讨理论研究与应用实践中的热点话题。本文对 AI 青年说系列活动第三期「未来五年的计算机视觉」核心内容进行了总结回顾。

十年来，计算机视觉畛域蓬勃发展，深度进修手艺突破让机器在许多视觉任务上超越了人类。计算机视觉也是目前应用最多、落地最广的人工智能手艺。与此同时，也有一些计算机视觉手艺应用引发了争议和担忧，比如人脸识别的隐私题目、换脸假视频。

计算机视觉的终极方针是什么？未来 5 年计算机视觉的研究重点将是什么？伴随着「深度进修进入瓶颈期」论调的出现，2021 年，入行计算机视觉还有「前途」吗？这些都成为了最受关注的题目。

为了推动 AI 手艺的应用创新，促进人工智能畛域的学术交流、人才培养，打造人工智能的人才交流平台与产业生态圈，中国人工智能学会联合杭州市余杭区人民政府联合发起了首届全球人工智能手艺创新大赛，并得到了阿里云、OPPO 等头部科技企业的积极参与和支持。阿里云天池平台作为本次大赛的官方竞赛平台，为大赛提供平台和算力支撑。

为扩大大赛影响力与社会关注度，推进人工智能手艺发展与交流，主办方特在大赛期间发起「AI 青年说」系列活动，邀请知名青年学者，面向人工智能与前沿科技从业者与泛科技人群，探讨理论研究与应用实践中的热点话题。

现在入行CV还有前途吗？AI青年学者这样看「未来五年的计算机视觉」

在「AI 青年说」系列第三期活动中，两位计算机视觉畛域的青年学者纪荣嵘和林巍峣分别以《神经收集的收缩及加速》和《视觉方针明白与收缩》进行了精彩的主题分享，围绕「未来五年的计算机视觉」等话题给出了自己的真知灼见。

机器之心在不改变原意的基础上，对两位专家的分享进行了整理。

纪荣嵘：《神经收集的收缩与加速》

同学们好，我是厦门大学的纪荣嵘，很高兴参加今天的「AI 青年说」。我汇报的主题是神经收集的收缩与加速。

深度神经收集的发展离不开海量数据，也离不开强大的计算硬件设备，但更重要的是计算机视觉使得深度神经收集的发展出现了无限大概。然而，深度神经收集参数量十分巨大，且计算效率相对低下。因此，在各种场景里面，研究者都面临深度神经收集加速与收缩的相关需求。

一方面我们希望把模型参数量减少（对应收缩模型），另一方面我们希望把每张图片通过神经收集出结果的浮点（float）运算次数减少（对应模型加速）。因此神经收集的加速和收缩，近来已经成为的计算机视觉与机器进修畛域的热门主题，各种各样的硬件实现设备和软件算法在企业界和在学术界已广泛使用。

现在入行CV还有前途吗？AI青年学者这样看「未来五年的计算机视觉」

因此神经收集的加速与收缩，近年来已经成为计算机视觉与机器进修畛域十分热门的主题，有各种各样的硬件实现设备和软件算法在企业界和学术界被使用。

现在入行CV还有前途吗？AI青年学者这样看「未来五年的计算机视觉」

例如上图是我们所研发的鉴于深度神经收集的紧致化计算板卡，这个板卡几乎以实时的状态跑在 8 路摄像头上，可以达到传统大规模深度神经收集所达到的计算性能与效率。

现在入行CV还有前途吗？AI青年学者这样看「未来五年的计算机视觉」

这个题目的背后带来了大量的研究。可以从下图看到，在计算机视觉畛域顶级会议（CVPR、ICCV、ECCV 等）以及各机器进修的顶会上（NeurIPS 等），近几年来深度神经收集加速与收缩的论文呈现爆发趋势。

接下来我介绍几个深度神经收集加速与收缩的主要研究方向

现在入行CV还有前途吗？AI青年学者这样看「未来五年的计算机视觉」

第一种思路是把神经收集里面的参数共享。例如 ICML 2015 年的 HashedNets 算法，提出将神经收集两层之间的差数用一个哈希进修算法做映射，映射之后的结果抛弃了它原来的实时的参数，只保留了它的 indexing，因此可以用这种 indexing 把参数的收集给收缩掉。这之后有大量手艺围绕此类方式对神经收集进行参数的共享。

例如我们能够想到的各种量化算法，比如 ICLR 2015 的乘积量化（PQ）算法，也是鉴于乘法量化的方式对深度收集的参数进行收缩；还有将收集收缩成三值化的方式 TTQ，鉴于训练的三值量化的方式，可以设计非对称的可进修的量化参数，对于传统的神经元分配 00、01、10 的三比特元素进行进修。

第二种方式来自于深度神经收集的裁剪。我们都知道如果把收集看成树的话，裁剪收集的一种很好的方式是剪枝。剪枝算法也有许多的类似方式，比如说 BMVC 2015 的文章里面提出一个比较简单的方式是数据无关（Data-free），这种数据无关的方式主要去思考每一个神经元是否有存在跟它相似的神经元，如果有的话就把这个神经元删掉，作者把这个方式叫做鉴于显著性对称矩阵的神经元裁剪方式。

还有斯坦福大学的韩松博士提出的组合式收缩方式，将收集的裁剪、收集的量化以及霍夫曼编码合在一起，构成了当时动机很好的收集收缩手艺。

另外一种思路是用结构化手艺进修对神经收集参数进行裁剪。我们知道一个卷积核里面的卷积，或者一个通道里面的参数，如果一起不为 0 的话，我们就不得不做卷积或者通道的滤波。因此它限定所有参数一起为 0，或者一起不为 0，就可以利用我们之前在稀疏表示里面的结构化稀疏或者主稀疏的手艺进行收缩。由此衍生出了各种各样优化的方式，去解决结构化稀疏与主稀疏的进修。比如说 FBS 的方式、L1 范数等等。其中 L1 范数是一个很典型的鉴于数据统计的滤波器的裁剪，它要计算每个滤波的 L2 范数，做排序，去裁剪前 m 个范数值最小的滤波，并删除对应的 fmaps 和 channel，以此基础上再做更新。

此外 ICCV 2017 年的 ThiNet 方式，通过通道选择的策略去选择最利于收缩的前 n 个通道进行裁剪，其核心的 trick 也是放在如何学到在最优的 n 个通道的组合上。

我们在 CVPR 2020 文章里有一些相关的歇息，例如鉴于高秩特征图的卷积核裁剪方式，发现由单个的滤波器生成特征图的平均秩几乎不变。我们在数学上证明了低秩的特征图所对应的滤波器信息量较小。实验选取了 500 个左右的特征图，可以看到它所对应的秩的期望值几乎是不变的。鉴于相关的方式，我们在 ImageNet 2012 和 ResNet-50 模型上都做了对应的评估，得到了当时最好的动机。

现在入行CV还有前途吗？AI青年学者这样看「未来五年的计算机视觉」

在去年 IJCAI 2020 的文章里，我们提出了一种鉴于自动化结构搜寻的卷积核剪枝算法。之前的歇息只考虑滤波的重要性，而忽略收集的结构，因此容易陷入局部最优解，且搜寻开销巨大。我们提出的方式直接搜寻用于做裁剪的整体结构表示，可以更优地达到整体的裁剪。

但是这种方式是 NP-hard 的，因此我们设计了一系列手艺，将这种 NP-hard 的组合式题目，通过缩小解空间的方式，获取更好的方式，并且利用人工蜂群在内的计划进修算法去优化方针解。下图是我们在 ImageNet 2012 和 ResNet-50 模型上所得到的动机。可以看到，在相同加速比的情况下，我们提出的这种裁剪方式可以获得更高的准确率。

现在入行CV还有前途吗？AI青年学者这样看「未来五年的计算机视觉」

第三种思路主要是进行参数的量化，主要是将原来的实值参数通过各种组合的方式量化成更低的比特位，或者把参数的组合放在一起当作一个向量，将向量做量化。

我们去年与海思合作的 PAMS 方式，实际上是第一次实现了较高性能的鉴于参数量化的超分辨率收集。我们当时的主要动机在于，传统超分辨率重建的收集一般来说很难做量化。为什么呢？因为它们移除了 back to normalization（BN）这个层，使特征图的分布离散，而且极值很大，不利于量化截断参数的选取。虽然之前有各种各样的方式，比如 Dorefa-Net、PACT 等可以部分地解决量化的 super-resolution network 重建题目。但是我们认为里面还有许多具体可以改进的地方，在 ECCV 的文章里面，我们首先设计了一个模块 PAMS Block，它利用可进修的参数去寻找最优的量化截断。

我们不仅对这个 Block 做量化，同时也对 ShortCut 做了量化，有利于模型的快速部署。我们在各层之间都做了进修，这个进修是鉴于结构化知识迁移的损失，将浮点模型的结构化知识传递给低 bit 量化模型，因此加强了原始模型跟低 bit 模型之间的量化损失差异，从而有利于模型的收敛。

此外，我们设计了特殊反向传播算法，设置了特殊的初始化结果，使得我们的方式可以有效地提升 super-resolution network 对应的超分辨结果。我们可以看到 PAMS 方式可以有效地提高低 bit 模型的精度，在 Int8 模型上的精度几乎等于传统浮点模型的 super-resolution network，同时在 Int4 模型上的精度只有轻微的下降。

下图是一些可视化结果。相对于 Dorefa-Net 等传统方式，我们的算法可以较大程度地保留超分辨率重建任务的细节。

现在入行CV还有前途吗？AI青年学者这样看「未来五年的计算机视觉」

此外就是 ECCV 2016 的歇息，第一次提出「我们怎样去直接学一个二值化的参数收集」。沿着这条线下去，其实有不少的歇息直接去研究如何学一个二值化的收集。

因为我们知道，一旦收集的权值只有 0 和 1，我们可以设计快速的计算方式来对神经收集进行进修和计算。比如说 ECCV 2016 的 XNOR-Net，它不仅把自身的参数做成 0 和 1，而且把输入做成 0 和 1，因此它的卷积被进化成了一个 0、1 之间的异或运算。所以这个方式就是异或收集可以快速加速它对应的进修。细节如下：

现在入行CV还有前途吗？AI青年学者这样看「未来五年的计算机视觉」

此外我们还可以通过把参数的分布值调成一些特定的分布，比如波动率分布趋近于 0.5 的时候，它的相关信息最大，使得量化损失降到很小等等。还有一些类似的歇息，此处不再赘述。

我们在 AAAI 2020&IJCV 2020 的文章中提出了直接做二值化神经收集（Binary Neural Networks）架构搜寻的方式。传统 NAS 方式往往无法直接用于搜寻 1bit 收集结构，该方式是首次使用 NAS 去搜寻二值化神经收集，在可微 NAS 框架的基础上，引入通道采样和减小搜寻空间，显著降低了搜寻开销，搜寻到的收集性能堪比全精度神经收集。

我们的主要贡献是在可微 NAS 框架的基础上，引入通道采样和减小搜寻空间，显著降低了搜寻开销。我们观察到，训练初始时表现较差的结构最终表现也会很差。鉴于上述观察，我们取原始搜寻空间中结构参数较差的一半操作为新的搜寻空间去采样，带来了性能上的大量提升。

现在入行CV还有前途吗？AI青年学者这样看「未来五年的计算机视觉」

此外，我们在去年 NeurIPS 上提出的二值收集量化、传统方式的量化结果。如果以参数集合一个向量的角度来说的话，可以看成只是对于向量做缩放，但向量之间还存在角度的变化。我们提出了旋转权重向量，去进一步减少角度的误差。此外的话我们的方式还提出了新的训练感知梯度、近似的函数以及新的初始化方式，进一步提升了在 CIFAR-10、ImageNet 上对应的性能。

第四种思路为参数张量的分解，这个方式十分直接。果把层之间参数的矩阵看成一个矩阵的话，我们可以用各种各样的张量分解方式对这个参数的收集做低秩分解。比如说我可以把它做 Tensor 分解，我也可以做相关的其他形式的分解。

我们在 TPAMI 2018 的文章中提出了一种统一的框架，解决全连接层跟卷积层的计算与存储题目。我们克服了误差的累积，也缓解了梯度的消失，在我们的方式里面，对卷积层和全连接层用同一个闭式解，在数学上叫做 formulation。鉴于此，我们进一步提出了鉴于层级之间的局部损失去做知识蒸馏的方式，这套知识迁移跟知识蒸馏方式在性能上实现了很好的提升：收缩 ResNet-50， LRDKT 获得了 2.57 倍的收缩比，2.02 倍的 CPU 实际加速比，且降低的 Top5 精度仅有 0.38%。此外我们也在对应的 arm 平台上验证了算法的有效性。

现在入行CV还有前途吗？AI青年学者这样看「未来五年的计算机视觉」

最后一种思路主要来自于知识蒸馏。知识蒸馏来自于大收集跟小收集之间输入输出的对齐，它可以有效保留大收集的信息，因此一种十分直接的方式就是把知识蒸馏用在模型收缩里面，这就是我们在 CVPR 2019 的方式。我们鉴于生成对抗进修的方式，用知识蒸馏去寻找最优结构的收集剪枝，我们把收集剪枝的进修 formulate 成进修一个 musk，musk 上每次被掩掉的模板，表示这一块要被裁剪掉。

因此，我们可以建立对应的方针函数，比如对抗损失、数据对齐的损失，也包括分类的损失。鉴于这三类的损失，我们不仅可以做快的裁剪，也可以做分枝的裁剪，还可以做通道的裁剪，方式是普适的。我们在对应的 ImageNet 和 ResNet-50 上的结果，达到了当时的 SOTA 性能。

现在入行CV还有前途吗？AI青年学者这样看「未来五年的计算机视觉」

以上是我们组的在过去几年里在收集裁剪与收集收缩上的相关歇息，大多数文章的代码都已经开源了，大家可以在 GitHub 上找到。

在这里也感谢我们组的同学们，包括几位博士生和几位相关的硕士生：林绍辉博士，郑侠武博士、林明宝博士、李与超硕士、李慧霞硕士、颜晨倩硕士、唐浪硕士、陈宇航硕士、吴德成硕士、许子涵硕士、李少杰硕士、张玉鑫硕士、陈柏宏硕士、张少坤硕士、吴宇航硕士这几位同学。

林巍峣：《视觉方针的明白与收缩》

今天很高兴有机会在这里介绍一下我们的歇息。我报告的题目是《视觉方针的明白与收缩》，主要是介绍我们在计算机视觉畛域做的一些歇息。

我先说一下我的报告的一个大致脉络。我们是把计算机视觉和数据的传输结合起来，甚至把计算机视觉和整个数据的明白、传输、通讯放在这样一个大的环境当中，去考虑这个题目。

这里面其实有两条路：

现在入行CV还有前途吗？AI青年学者这样看「未来五年的计算机视觉」

第一条路，比如输入一个视频，对视频本身进行数据收缩（因为它十分大，所以要进行收缩）。数据收缩好之后，我们就可以把码流保存下来，或者把它传输给另外一端的用户。

第二条路，就与计算机视觉紧密相关了。首先我们从视频中去明白它的内容，得到它的语义信息，即方针、位置、关系、举动等信息，然后收缩这些信息，形成一个语音数据的码流进行保存和传输。

传统视频或媒体的传输主要还是走的第一条路，即把视频直接收缩再传输出去。

随着计算机视觉、AI 手艺的发展，第二条路的重要性逐渐上升。它的第一个好处在于可以节省重复计算的计算量。比如我们想把视频传到手机上做一些智能应用（如特效），如果只是传输视频，我们就要重新进行视频的分析和计算，一万台手机就要重复一万次相同的操作。但如果遵循第二条路所示的做法，我们就可以在云端或服务器端把所需要的语义信息提取出来，然后把这些信息传输给客户端，这样的话一万台手机都不需要做重复歇息，因为我们已经在云端或服务器端计算过了。我们可以直接把两个流的信息结合起来，得到我们想要的特效、智能交互等功能。这是第一点。

第二点在于，有些场景下，我们大概面临一些隐私题目，无法直接把原始视频传输出去。比如在医疗场景下，病人的信息属于隐私，但我们要分析病人的一些动作，这种情况下我们就可以去掉第一条路的信息，直接传输第二条路的信息，通过这种方式进行远程诊疗、判断或分析。

所以从各个方面来说，第二条路所示的方式是十分重要的。我今天所要介绍的东西也主要集中在这条路上，主要关注方针明白和语义信息收缩及编码。

首先，我们的歇息大概更偏举动，从举动出发来下沉，涉及举动所包含的方针检测和跟踪等题目。

下图是视频举动明白的一些主要类型

现在入行CV还有前途吗？AI青年学者这样看「未来五年的计算机视觉」

左上角是鉴于轨迹的举动分析。比如在交通畛域，我们有许多车辆的 GPS 信息（位置信息），这些信息可以帮助我们进行交通事态的分析，发现堵车、擦碰等异常举动。此外，我们还可以把这种位置传感器绑在动物（比如鸟类）身上，根据其位置信息的变化来研究动物迁徙、互动的情况。这是第一类举动明白类型。

这类举动可以跟视频相关，比如我们可以把视频中的方针检测出来，然后分析他们的轨迹。如果方针是人，我们可以把他们骨架（如四肢）上的关键点找出来，然后分析他们的轨迹信息。这类举动也可以跟视频没有关系，比如上面提到的用 GPS 信号得到的轨迹信息做识别。

右上角是第二个类型，即给定一段视频，我们去明白其中的举动或内容。这里的视频可以是任意类型，我们根据它的信息来做识别。这是目前在学术研究畛域最常见的类型，叫视频分类或视频明白，应用最多（数据最多）的是互联网场景，短视频、长视频对此都有很大的需求。

比如在短视频畛域，我们需要做推荐，其中很重要的一部分就是对短视频本身内容的明白，然后鉴于这些明白推荐类似信息。在这个畛域，大部分内容都是摆拍，比如化妆，上传者往往把想要表达的内容放在画面中十分显眼的位置，所以一般不需要做太多的分割或方针检测，它们和举动明白的关系不是很大。在这个畛域，更重要的是在一段较长的视频中找出它的关键位置，我们叫时域分割，比如在一段很长的视频中找出化妆片段，然后对其进行分类。

最后一个类型就是上图下面一排所示的面向监控视频的举动识别。这个畛域和右上角那个畛域有许多手艺是相通的，但是也有很大的不同。最大的不同就是，这里面发生的举动是非配合的。刚刚说到，右上角许多场景是摆拍的，但监控场景许多是无意中拍到的。比如说有人打架，它可以发生在任意的位置，而且方针大概十分小，甚至不是画面中的主要场景（主要场景大概是其他人走来走去）。而且，打架的人也不一定是正面对着你，他们的姿势大概是任意的，地点是隐蔽的。

在这种场景中，我们要怎么去明白视频或者说把感兴趣的举动找出来，这是一个题目。所以在这个畛域，把感兴趣方针的空间、时间位置找出来十分重要。这点在前面的歇息中大概不是那么重要，但在这个畛域十分重要，不然大概跟画面中的主要部分或其他举动发生混淆。

这就是我们主攻的三个畛域类型。鉴于这些题目，特别是下面一排的题目，我们会发现，方针的检测、跟踪也是十分重要的。只有完成方针的感知、明白，我们才能准确地定位方针的举动。

现在入行CV还有前途吗？AI青年学者这样看「未来五年的计算机视觉」

当然，方针检测和跟踪在前两种类型的举动明白中也会有一些应用。比如说，如果把方针检测出来，我们就可以更深层次地去明白画面中的举动（如方针之间的交互），这对于举动明白也是很有帮助的。

所以，在后面的演讲中，我先简要介绍一下我们在方针检测、跟踪方面的歇息，然后再介绍我们在举动方面的一些歇息。

在方针检测方面，我们主要专注于在不增加检测器复杂度的情况下提升它的动机或者说准确率。具体细节参见以下论文：

Tiny-DSOD: lightweight object detection for resource-restricted usages, BMVC, 2018

AP loss for Accurate One-Stage Object Detection, TPAMI, 2020

Towards accurate one-stage object detection with AP-loss, CVPR, 2019

Kill two birds with one stone: boosting both object detection accuracy and speed with adaptive patch-of-interest composition, 2017.

第一个歇息的最终结果就是我们设计了一个方式，能够在准确率比较高的情况下缩小收集规模，同时运行速度也很快（超过 100 帧 / 秒）。这是我们优化的一个十分快的检测器。

第二和第三个歇息也是致力于在不增加方针检测复杂度的情况下提升它的动机。在这篇论文中，我们提出了一个更优的损失函数来解决训练过程中样本不平衡的题目。我们知道，在一张图像中，正样本是比较少的。比如画面当中有一只长颈鹿，正样本只有长颈鹿，但负样本十分多，非长颈鹿的位置都是负样本。这样的样本不平衡会导致我们构建的模型准确率下降。所以我们就提出了一个新的损失函数，对训练过程进行控制，以解决这样一个题目。这个歇息的好处在于，我们只在构建模型的阶段进行一些改变，在真正使用这个模型做检测的时候，它的复杂度是不变的。也就是说，它的运行速度跟原来是一样的，但是动机得到了提升，因为它的构建方式更好。

第三个歇息是我们在监控场景中所做的一些尝试。在这类场景中，我们发现图像的大小或细节与处理速度之间会出现一个矛盾。也就是说，我们的画面十分大，会呈现许多细节，但是我们很难处理这么大的画面。如果我们把图像收缩得很小再输入检测器，它的细节就损失掉了。如果想保留细节，速度就会十分慢。所以我们就在想，有没有什么方式帮助我们在其中取得一个平衡。这就是我们所做的歇息。具体来说，我们先把画面当中大概出现方针的区域给找出来，把一些小的、局部的区域找出来，然后把这些区域拼成一个小的画面（如下图右下角所示），这样我们就可以去掉画面中那些无关的区域。最后，把这样一张图像输入检测器。

也就是说在一个很大的画面当中找到大概出现方针的区域，然后把局部小的区域拼成一个小的画面，这样的话就可以去掉这个画面中与背景无关的区域，之后通过拼接的方式把它移到一个固定的画面中，最后拼接结果就像下图的右下角，它其实是来自不同的局部区域。将这张图像输入检测器，因此图像输入检测器的模型很小，但是保留了原始视频中的分辨率或者细节。经过验证，这个方式是不影响检测的动机的。

现在入行CV还有前途吗？AI青年学者这样看「未来五年的计算机视觉」

当然，我们也有一些新的研究和应用，比如旋转方针检测，在许多场景夏，比如像无人机这种都是从山顶上往下拍，导致许多方针并不是横平竖直的，此时如果你还用横平竖直的框，会导致框与框之间有很大的遮挡，会包含许多与方针不相关的东西，所以更理想的方式是把这个方针斜过来框，就需要有一个具备这个功能的检测器。

我们设计了一个新的方式，能够检测旋转的方针。当然，除了无人机，超市货架检测中也会有类似的情况，因为超市货架与货架之间间隔很近，有大概人来拍的时候只能侧面拍，就会导致方针斜过来。

同时超市货架里面的货物有大概就是斜着放的，也会导致斜过来的情况，所以在这个畛域怎么去做检测也是十分重要的一个应用。这就是我们另外的一个场景，即能否做三维的检测，除了二维框，还能不能能通过视频框出三维的、立体的框，这个在自动驾驶车辆辅助中有许多的应用。

在车辆自动驾驶中，大概输入的是是一种雷达传感器，三维点云的传感器。那在辅助驾驶中，我们希望做低成本的三维感知，所以大概还是一个传统的二维图像，从二维的图像中估计出方针的或者车辆的三维框，这样的话我才能知道实际距离，并做一些车辆规避或者车速控制。检测出方针后，我们就需要把方针把它关联起来，也就是把不同帧中检测的方针关联起来。我们要知道这一帧的方针和下一帧方针是同一方针，最后连起来形成一个轨迹，得到轨迹以后，我们就可以对方针进行长时间分析，或者对举动进行分析。这是我们的一些歇息，具体我就不展开了。

其实在这个畛域，如果场景类似是斜着 45 度往下拍的方针之间的遮挡，哪怕有比较严重的遮挡，只要数据足够多，现在的方式总体来说还是能够取得比较好的动机，基本上也可以达到甚至 95% 以上的准确率。当然特别密集场景是不行的，或者说遮挡极为严重的场景是是比较困难的。

除此以外，还有一个比较重要的畛域就是跨相机的关系，也就是说，一个摄像机不太大概包含整个场景中的事态和信息，所以大概需要有多个相机的联动。

这个情况下是不是能够做跨相机的关系？也就是 Re-identification，也就事从一个相机中的方针得知另外一个相机的方针和本方针是同一个方针，这是我们在这个畛域一些歇息，细节同样也不展开了，有兴趣的话可以了解一下细节。我们做了个体方针的再识别，我们也做了组群方针的再识别，看一群人到另外一个场景中是不是能够对应起来。

这方面的一个应用是野生动物的保护，我们在野外设置不同的相机，相机距离很远，大概是几十公里或者几百公里。

现在入行CV还有前途吗？AI青年学者这样看「未来五年的计算机视觉」

在这一篇论文中，某一个相机抓拍到了东北虎，如果在另外一个相机中也抓拍到了一只东北虎，我们就可以利用多相机跟踪的手艺判断是否为同一只老虎，如果是的话就可以由此了解老虎的习性，比如它某年某月在这个地方出现了，过了几天它大概在另外一个区域出现了，由此去勾勒出东北虎的野外运动的事态，去观测它的活动范围变化，后续可以加以生态保护。

下面是我们构建的一个数据集，主要面向有些场景下检测和跟踪手艺的局限性，这些就是很好的例子，在这样的场景下方针检测、跟踪是十分困难的。比如说地铁场景中人是极度密集的，食堂场景中遮挡是十分严重的，而且大小变化十分大。

现在入行CV还有前途吗？AI青年学者这样看「未来五年的计算机视觉」

那么除了检测以外，我们是不是能得到方针的骨架？在这个场景下十分困难，能不能在这个事情上做到十分好的动机，就是我们要面临的新挑战。

现在入行CV还有前途吗？AI青年学者这样看「未来五年的计算机视觉」

Challenge 网页：http://humaninevents.org/ （8 月重新开放）

相关论文：https://arxiv.org/abs/2005.04490

针对这个题目，我们构建了一个包含各种复杂举动和实际场景的数据集，在去年也鉴于数据集举办了一次挑战赛，有许多参赛队参加并取得了不错的名次。现在这个数据集已经开放了，它包含了举动识别、方针检测跟踪和骨架提取等不同任务，而且是作为一个长时间的任务来开放。如果各位对这个挑战有兴趣，也欢迎大家来使用我们的数据集来评测我们的方式。

接下来介绍一些举动识别的手艺，同样地，具体细节我们就不进行展开了。那么举动识别的方式包括就是说在不考虑空间信息的情况下对整段视频进行分类，这是我们做的一些歇息（任意举动、多尺度特征、时空异步关联），具体细节就不展开了。

• Action recognition with coarse-to-fine deep feature integration and asynchronous fusion, AAAI, 2018.

现在入行CV还有前途吗？AI青年学者这样看「未来五年的计算机视觉」

• Cross-stream Selective Networks for Action Recognition, CVPR workshop, 2019.

现在入行CV还有前途吗？AI青年学者这样看「未来五年的计算机视觉」

同样针对一段视频，我们不但要判别出这个视频中「发生了什么」，还想知道发生的时间位置和空间位置，也就是说同时做识别以及时空位置的检测与定位，这就是我们的一些相关歇息：

第一项歇息是《Finding Action Tubes with an Integrated Sparse-to-Dense Framework（AAAI 2020）》

现在入行CV还有前途吗？AI青年学者这样看「未来五年的计算机视觉」

第二项研究是《CFAD: Coarse-to-Fine Action Detector for Spatiotemporal Action Localization（ECCV 2020）》

现在入行CV还有前途吗？AI青年学者这样看「未来五年的计算机视觉」

在这个畛域，我们的歇息能达到目前比较好的动机，甚至是最好的动机之一。传统方式复杂度高、速度慢，我们的方式复杂度十分低，达到每秒 100 帧以上的处理速度，且动机达到最好。

如果将该手艺进一步扩展，是不是能做音视频定位？给一段视频、音频，从图像中准确定位方针发出的声音，或者找到发出声音方针的空间位置，诸如此类的任务。

举一些我们做的歇息的例子，比如摔倒检测手艺，现在许多企业也都在做，但是我们做的比较早，这个任务相对来说比较简单，摔倒举动都是单一方针举动，基本上不大概多个方针一起摔倒。而且它的模态比较比较容易区分，因为倒下和站着有很大的区别，这是我们做的各种姿态摔倒的场景：

现在入行CV还有前途吗？AI青年学者这样看「未来五年的计算机视觉」

然后是打架，这和前面的手艺相比就有很大区别，难度呈指数型增大。因为打架是多人混合的，是比较复杂的运动，同时它的模态跟摔倒就有很大的区别。不同的人打架、不同场景下打架都不太一样，甚至大概跟剧烈运动相混淆。由于打架的时候许多人扭在一起，方针检测和分析任务也有很大的区别，有时候遮挡十分严重，有些打了一半就摔倒了，有些大概一直在扭打，模态很难把握。

现在入行CV还有前途吗？AI青年学者这样看「未来五年的计算机视觉」

我们针对这个题目做了一套系统，打架和摔倒这两件事，虽然看上去是类似，实际上底层的识别手艺是完全不一样的。

最后介绍一下我们在视频收缩方面的一些歇息。如下图所示，左边是一个视频，我们分析一下这个视频中视频数据量中语音数据量分别是多少，我们来看视频收缩到底有没有意义：右图蓝色部分是视频收缩以后，可以看出压到了很小，特别是监控视频还可以压得更小，因为它背景是固定的。

现在入行CV还有前途吗？AI青年学者这样看「未来五年的计算机视觉」

视频当中的方针位置信息如果不做收缩，可以看到其数据量十分大，与收缩后的视频数据量差不多同样数量级，这个数据量十分大，相当于又保存了一个视频。图 b 中右边一列的红色部分是经过我们方式收缩以后的结果，可以看出可以大大降低了数据量，所以说语义收缩是一个十分重要的畛域。

在这个畛域我们做了一些歇息，针对关键点序列，包括骨架序列、人脸关键点序列，以及三维框序列数据集，下面展示了我们的研究动机：基本上可以去掉 70% 的数据量，也就是说收缩到原来的 30%。当然语义收缩并不仅限于此，也可以包含方针之间的复杂交互甚至方针属性等。随着我们提取的视频中的信息越来越多，语义数据肯定也是越来越多的，所以如何去收缩也是十分重要的一个题目。

现在入行CV还有前途吗？AI青年学者这样看「未来五年的计算机视觉」

如果大家想了解关于我们歇息的细节，也可以看我们的主页（https://weiyaolin.github.io），以上所有论文的地址可在该页面找到。

圆桌论坛：未来五年的计算机视觉

Q1：这次圆桌主题是未来 5 年的计算机视觉，在手艺飞速发展的今天，预测未来 5 年甚至是 3 年都是十分有难度的事情，但我们还是可以做一些基础的推演，十分期待两位老师的看法！

不过在展望未来 5 年的计算机视觉之前，有一个更加长远、更加根本的题目需要弄清楚，就是计算机视觉的终极方针是什么？或者说我们想要构建一个怎样的计算机视觉系统？这个系统具有哪些功能呢？

纪荣嵘：我觉得从 David Marr 开始，计算机视觉的主要目的不仅是帮助计算机学会像人一样去看，而且需要像人一样去思考。其实 David Marr 介绍了各种分层的专业视觉组成的架构，现在无论是深度进修还是传统方式，都只是实现其计算机视觉体系里面很小的一部分。因此我觉得未来一定会有远比现在更灵活、更主动、更自然、更低成本的视觉分析系统，更容易更接近。

林巍峣：我觉得可以从计算机视觉定义来看，其实就是希望计算机能像人一样，看到我们外界的东西，然后对它进行完全的明白。现在计算机视觉在某些畛域，比如说人脸识别、方针检测畛域的精度是比较高的，但是在还有许多的场景，比如说综合明白方面的动机就不那么理想。这大概是未来计算机企业的一个十分重要的目的。

Q2：这里有一个延伸的题目，现在有许多传感器，比如红外线、紫外线这些都是能够超越人类视觉的。刚才两位老师都提到，计算机视觉的终极方针是像人类一样，其实现在机器已经可以在许多方面超越人类的视觉了，这个也算是计算机视觉系统的终极方针吗？

林巍峣：有些传感器本质上还是相当于弥补视频的不足。比如许多方针之间如果有遮挡和很复杂的关系，人一看到就能明白他们之间的关系，但是如果拍成视频以后，计算机从视频当中就很难找出之间的的关系。引入传感器本质上也就是使得新传感器能够知道它们之间的遮挡关系。一部分是弥补，另外一部分是超越人类，比如说红外线传感器在夜晚比人的视觉感知能力是更强的。不过它的明白能力并不是比人类更强。

纪荣嵘：我觉得现在并不是计算机视觉的传感设备能超越人类。回想一下，其实人用极其少量的能源开销，只用双目甚至单目就能实现十分智能、复杂的分析系统，这肯定是在长期进化过程中演变的。

刚才也提到，系统的方针首先是更低成本，要能够识别上千种物体，且不会因为「少吃一碗饭」而减掉动机；第二，只用少量样本就可以学到一个新的样本类别。比如给小朋友看一辆消防车的卡通图像，他马上就能学会真实消防车的识别跟分类，而现在的计算机视觉系统不得不堆大量的计算资源、标注数据和传感器去达成一些方针。

所以我觉得，现在还不能叫做超越，就像就计算器加减法做得很好，但并不代表计算器有智能。

Q3：为了实现这样一个系统，未来 5 年的计算机视觉研究重点将是什么呢？

林巍峣：这个题目可以看一下 5 年前和现在的对比，

在数据来源上，5 年前更多是鉴于图像、视频等信息，后来加入了三维点云、深度这些信息，相当于在感知的数据源上有了更多突破；在功能上，5 年前更多是采集大量数据，以获得更好的模型动机，现在更多学者偏向于做自监督或少样本的研究；还有一些在各个根据各个应用畛域计算机需求也做了一些突破。

从这个方面来说，未来 5 年我预测在传感或输入数据来源上会有一些新的变化。这些数据来源如果更加精准或更有区分度，大概会让计算机视觉的性能有一些提升。当然过去五年计算机视觉的发展是鉴于深度进修的浪潮，我们也可以思考：在深度进修之外，会不会有一些新的突破性手艺出现？

纪荣嵘：我觉得有许多新的方向。第一点，低功耗的视觉系统，我们可不可以用小的算力、小模型、低成本设备，实现与传统深度进修服务器上深度神经收集模型一样的动机？

第二个方向，也是我最近十分感兴趣的，就是可不可以把 AI 算法工程师从不同场景里面抽象出来，他们不再去设计模型？这就对应自动机器进修以及神经收集自动架构搜寻。让机器去设计模型、算法、新的 AI 场景，这是我觉得很有意思的。

第三个方向叫做多任务，现在每个深度进修模型只能干一件事，未来有大概一个模型既能做视觉任务又能做语言任务。多个研究畛域的模型或许有融合的大概性，人脑只有一个模型即可做无数的事情，多任务（multitask）是值得期待的。

第四个方向，随着计算机视觉系统逐渐走进安防的相关的畛域，模型鲁棒性、安全性必然是政府和工业界十分关心的题目。除了模型精度和大小之外，模型的靠谱程度也值得我们去认真分析。

以上几点是我认为计算机视觉或者深度进修未来大概变得更热门的方向所在。

Q4: 本届大赛第二道赛题是 Panda 大场景多对象跟踪检测，要求参赛队伍关注动态、大场景，多对象数据处理算法的研究，Panda 是由清华大学牵头建设的，是全球首个大规模 10 亿像素级别的视频数据集，该赛道的初赛任务是对行人和车辆进行多方针检测，复赛任务则是对视频中的多个行人进行轨迹跟踪。

2017 年，林老师的团队跟中兴通讯合作，在多方针跟踪上面取得突破，在保证实施处理的情况下，大幅提升了跟踪的动机和精准度。您对这道赛题有什么样的看法？

林巍峣：这个赛道里面，我们觉得主要是两点。

第一点是场景特别大，所以如何有效处理视频是很困难的。因为是 10 亿像素级，用传统方式将整个视频或者整个图像放到收集里直接处理是很困难的，把它变小以后，原来清晰的就看不见了。所以高性能处理超大视频是十分困难的，其实处理一张图像都很困难，更不要说是整个连续的视频。

第二点就是有的参赛队并不能像企业一样，针对某个场景采集海量的数据，然后有海量的工程师或者员工来做海量的标注，数据本身也是具有局限性的。就是说在十分有局限性、数据并不能应有尽有的情况下，把动机做好也是十分困难的。

第三点是因为 10 亿像素大概涵盖各种场景，有视角的变化，各种情况密集遮挡都会有。那么在一个场景中怎么用一个模型或少量的几个模型去做这样一个任务，难点大概在这里。

纪荣嵘：我觉得这是一个很有挑战性的题目。其实如果用线性便利 scanning、multi skills scanning 的方式，效率是上不去的。图像不用说，更何况是视频。所以我觉得这里面一定要引入某些注意力的机制，虽然我没有参加比赛，但可以想象出来，一定要有对应的选择注意力机制去感受关键的方针。

再回到这个题目，就像人的视觉系统有许多选择注意力机制去发现关键方针，也不是在所有地方都呈清晰的像素去观察的。我们自己没有感觉到，但我们真正 focus 的地方十分小，剩下的地方其实都是模糊的。所以如果没有高效的选择注意力机制去捕捉场景关键信息的话，这种 10 亿像素的分析几乎也是不大概的。

像本次大赛的赛道手艺，有许多可以应用的地方，例如如果能处理 10 亿像素的方针检测与跟踪的题目，在小样本情况下，它自然而然可以延伸到各种安防监控场景中的行人分析与识别。未来有许多场景，一旦要做实时分析，也需要这种高速的检测手艺进行支撑。

Q5：说到应用计算机视觉，想请教一下两位老师，最看好的计算机视觉应用是什么？未来 5 年最有潜力的计算机视觉应用是什么？

林巍峣：未来我们相对比较重视的首先是多传感器融合，第二个是对视频本身的处理，第三个是少样本的进修。

纪荣嵘：我也想从手艺角度去讲这个题目，其实我一直觉得过去五年年计算机视觉研究的方式还是处于十分分散的情况，不同的任务有不同人做不同的模型，我认为未来会统一起来。此外就是模型小型化、模型自动部署、小样本进修、迁移进修等趋势，值得关注。

Q6：从 2012 年开始，计算机视觉一直火到现在，但眼下人才招聘市场上有一个越来越强烈的声音：计算机视觉人才已经有一定程度的饱和，内卷十分严重，学计算机视觉专业面临着毕业即失业的风险。二位怎么看？

纪荣嵘：大概跟以前的程序员很像。人才充裕之后，低水平的学生肯定很难找到歇息，这个是毋庸置疑的。那如何能让自己的技能跟别人不一样？

我讲两个笑话，第一个就是网上许多的《一周之内学会深度进修》之类的，这个并不是梦想，是有大概的对吧？如果深度进修到了谁都可以快速入门的程度，首先说明它很热门，大家都想学；其次说明它太好上手了，意味着这不是一个硬核题目。如果你的职业没有手艺壁垒，确实会面临着很大的失业大概性。

所以着要求我们去把握自己到底要学什么，而不是研究生第一年只会调参，第三年毕业还只会调参，肯定是不行的，这是我想说的第一个观点。第二个观点是找到有自己差异化的研究点，会用和精通是两码事。

林巍峣：从我们实验室的情况来说，博士生找歇息还是很容易的，我没有感觉到内卷或十分困难，如果你在这个畛域十分精通，无论在工业界或者学术界，还是很有发展前途的。我们所说的内卷或者竞争激烈，更多还是在本科生硕士生，不过工业界或者学界目前还是有许多的需求，应该是不用太过担心这个题目。

在这个畛域，针对新题目快速明白、快速上手的能力十分重要，这个畛域大概你以前并不熟悉，但通过看论文找资料就能在很短时间内明白相关歇息。如果有这个能力，实际上你还是具备很强的竞争力。这也是为什么博士生比硕士生在该畛域更吃香的原因之一。因为博士生已经证明了他在许多个畛域已经做过相关歇息，有很好的经验，而且哪怕是新的题目，凭借以前的经验也可以快速上手。

{{userData.name}}已认证

现在入行CV还有前途吗？AI青年学者这样看「未来五年的计算机视觉」

150页在线书「多少深度进修」上线：利用对称性和不变性解决机械进修问题

马斯克脑机接口公司Neuralink高层动荡：联合创始人兼总裁去职，曾想建侏罗纪公园

独家对话李岩：宿华、经纬、红点资金支持，第一个「生成式推荐」创业公司｜AI Pioneers

墙裂推荐！Karpathy大模型培训课LLM101n上线了，非常基础

baidu李彦宏：开源模型是智商税，闭源模型更强大、推理本钱更低

Python 3.11正式版来了，比3.10快10-60%，官方：这或许是最好的版本

Midjourney 再更新！V6 模型支持外绘拓展与局部重绘了!

无需训练，主动扩大的视觉Transformer来了

康奈尔大学发布用于增强型传感器以及高性能计算的a轴超导晶片

教授何恺明在MIT的第一堂课