中山大学林倞解读视觉语义了解新趋势:从抒发进修到学问及因果融合

2021 年模式识别与机器智能前沿研讨会于 10 月 29 日上午在线上举行,来自中山大学的林倞熏陶分享了题为《视觉语义了解的新趋势:从抒发进修到学问及因果融合》的主旨演讲。

2021 年模式识别与机器智能前沿研讨会于 10 月 29 日上午线上举行。会议由中国自动化学会模式识别与机器智能(Pattern Recognition and Machine Intelligence,PRMI)主办,旨在将从事模式识别与人工智能各个方向的顶尖学者与钻研人员聚集在一起进行技术分享,以便开展相关畛域的交流与合作。在研讨会中,来自中山大学的林倞熏陶分享了关于《视觉语义了解的新趋势:从抒发进修到学问及因果融合》的报告。抒发进修和学问推理一直是模式识别与计算机视觉中的核心钻研内容,两者的有效结合将成为打开当代通用人工智能的第一扇门。然而在机器视觉的背景下,如何将认知推理、学问表示与机器进修等多个畛域的技术融会打通,依然是一个极具挑战和迫切的难题。在报告中,林倞熏陶首先简要回顾了计算机视觉畛域从传统到现代的钻研发展趋势,然后分享了他在抒发进修和学问融合方面的一系列代表性歇息。林倞熏陶认为目前绝大部分的学问融合抒发进修歇息依然无法完全兑现两者的有效融合,主要原因是高维度的视觉大数据难以避免地夹杂了各种混淆因子,导致深度进修模型难以从这些数据中提取无偏误的表征与因果相关的学问。鉴于此,林倞熏陶提出融入因果关系了解的学问抒发进修的新视角和新要领。与现有因果推断作用于固定的低维度统计特征的做法分歧,融合因果关系了解的抒发进修往往需要结合复杂的多模态结构学问,以因果关系指导抒发进修,再用进修到的表征反绎因果关系。最后林倞熏陶分享了他所带领的中山大学人机物智能融合实验室(以下简称 HCP 实验室)最近在因果抒发进修畛域的钻研进展,并展示了如何将因果抒发进修与多模态结构学问融合兑现去数据偏见的解释性和优越模型性能。以下为机器之心根据林倞熏陶的演讲内容进行的整理。计算机视觉语义了解:从过去到现在

中山大学林倞解读视觉语义了解新趋势:从抒发进修到学问及因果融合

图 1.David Marr 首次对计算机视觉系统应该要做什么给出了观点。计算器视觉奠基人之一的 David Marr 在他的著作《视觉》[1]一书中提出了视觉了解钻研的核心题目(见图 1):视觉系统应以构建环境的二维或三维抒发,使得我们可以与之交互(这里的交互意味着进修,了解和推理)。David Marr 把计算视觉抒发分成几个层面,从单纯的二维视觉图象,然后到代表边缘结构和轮廓信息的原始简约图(Primal Sketch),再到包含一定程度深度信息的模态 2.5 维简约图(2.5-D Sketch),最后到完整的三维抒发。长期以来,计算视觉畛域都围绕这样一个脉络来开展钻研歇息。

中山大学林倞解读视觉语义了解新趋势:从抒发进修到学问及因果融合

图 2. 神经网络架构随着钻研的深入变得越来越复杂后续的视觉钻研越来越多地跟机器进修,特别是深度进修相关。2010 年,当时的主流做法是利用特征工程,比如 HOG[2],LBP[3],来提取图象的统计特征,再结合一些如特征金字塔等的特征增强要领,最后利用支持向量机等判别器来完成识别恣意。自 2012 年起,深度卷积神经网络在 ImageNET 图象识别大赛中大放异彩,其技术本质上是舍弃了人工构建特征时造成的信息丢失,转而直接从图象中进修并提取判别性更强的视觉抒发。于是越来越多的钻研者开始关注如何利用更强的深度模型去提升视觉抒发的进修能力,从残差网络到今天的 Visual Transformer 架构[4,5],近十年来的计算机视觉钻研围绕着如何构建强大的抒发进修模型这个主题。在深度进修蓬勃发展的过程中,各类视觉恣意(如物体识别,检测,图象分割等)的性能不断提升。然而,该钻研路线也逐渐遇到了瓶颈,这是因为仅仅通过设计神经网络模型,很多关于计算机视觉了解的题目无法得到根本解决。

中山大学林倞解读视觉语义了解新趋势:从抒发进修到学问及因果融合

图 3. 计算机视觉钻研的两大新出路:高效的视觉抒发进修与视觉学问推理这些题目我们可以归纳为两大方面(图 3)。第一是强调训练"性价比"(Cost-effective)的高效抒发进修。图灵奖得主 Yan Lecun 在三年前的神经信息处理系统大会上的专题报告中,曾拿蛋糕作为比喻,其大意是如何利用无标注数据或者挖掘无标注信息,才是人工智能目前最值得关注的钻研方向。这个方向包括了无监督进修,迁移进修或者自监督进修等[6,7],其技术核心是发掘图象视频数据中的一些内在属性和先验信息,通过预训练的要领先得到归纳偏置再拓展到下游恣意中去,从而提升整个深度神经网络模型的训练效率,这类要领在自然语言了解、计算机视觉等畛域有着诸多成功的应用,被认为是最近主流的一种钻研和工程实践要领。第二,当我们试图跳出视觉抒发进修的框架,用宏观的角度去看数据拟合的时候,我们会发现有很多畛域上的题目,由于数据并没有很好地呈现完整的学问,通过拟合数据得到的模型往往无法排除数据带来的偏见。因此不论采用的是卷积神经网络,图神经网络或者是最近大热的 Transformer 模型,最终模型进修到的学问可能是错误的,并且无法解释。于是从 18 年开始,就有许多歇息便试图将学问图谱、常识库等一些结构化、符号化的学问抒发与抒发进修相结合,转向更高了解层面的视觉学问推理钻研。这些学问规则有两个核心作用。首先,在有标注样本缺乏的一些情况下,可以用这种学问规则去改善模型的进修能力。其次,学问规则指导的进修也可以让训练出来的深度神经模型与人类认知保持一定程度的一致,增强其可解释性。高效抒发进修与视觉学问推理鉴于上述两个方面题目,本人分享一下我们实验室最近的几个钻研歇息。针对第一个题目,我们今年有一个与牛津大学 Philip Torr 合作的 ICCV 歇息[9],内容是关于如何有效地构建训练样本组合,来兑现高效的自监督抒发进修,从而促进模型训练(见图 4)。更具体地说,现有的钻研表明,即使自监督对比进修能够让预训练模型取得逼近甚至超越全监督预训练模型的效果,其代价是需要超过十倍的训练量。而我们的钻研揭示了对比进修中的两个矛盾现象,我们称之为欠聚类和过度聚类题目:欠聚类意味着当用于对比进修的负样本对不足以区分所有实际对象类时,模型无法有效地进修并发现类间样本之间的差异;过度聚类意味着模型无法有效地从过多的负样本对中进修特征,迫使模型将实际相同类型的样本过度聚类到分歧的聚类中。欠聚类和过度聚类是造成自监督进修效率低下的主要原因,而我们提出了一种高效的截断三元组样本对组合要领,采用三元组损失趋于最大化正对和负对之间的相对距离来解决聚类不足题目;并通过从所有负样本中选择一个负样本代理来构建负对,来避免过度聚类。从实验结果来看,我们的要领基本上能够在两倍于全监督训练量下达到其预训练模型水平,比起现有的自监督训练要领提高了 5 倍的效率。然后在下游恣意的迁移上,如物体检测和行人再识别,在主流的大型数据集上都验证了这种要领的高效性,该要领训练出来的模型性能甚至优于一些全监督要领。

中山大学林倞解读视觉语义了解新趋势:从抒发进修到学问及因果融合

图 4. 中山大学 HCP 实验室关于钻研高效自监督抒发进修的最新成果,可以节省 80% 训练量的情况下,达到同样的模型性能。

中山大学林倞解读视觉语义了解新趋势:从抒发进修到学问及因果融合

图 5. 中山大学 HCP 实验室在视觉推理方向上的代表性歇息:通用图象解析。而在视觉了解中的学问推理这一方面题目,我们实验室早在 2017 年就开展了相关钻研,取得的成果也比较多。我首先介绍一下我们团队利用学问推理去辅助高层视觉语义了解的两个歇息。第一个歇息是关于如何兑现通用的图象解析(Image Parsing,可看作是一种精细化的语义分割恣意)模型[10] (见图 5)。通常要兑现在某个畛域上的图象解析,我们是要利用大量本畛域上的图象数据参与模型训练的,这一方面往往不符合高效抒发进修的设定,而另一方面,要让其兑现在另一个畛域上面的图象解析,模型则必须重新进行训练,因为新畛域的图象分布和类型跟旧畛域不一样。为了摆脱这些局限,我们的歇息利用跨畛域之间的学问共通性作为桥梁,将人类学问和标签分类法纳入到图卷积网络中构造新的迁移进修跨畛域推理算法,再通过语义感知图推理和传输在多个域中保持一致性,兑现跨域图象解析的语义包融和互补。我们的要领在著名人体解析数据集 LIP(顺带一提,该数据集也是由我们团队于 2017 年的 CVPR 歇息中首次提出,在用于数次研讨会的专项比赛后,其已成为人体解析畛域里面的著名基准数据集)中表现出非常优秀的跨畛域人体解析效果。另外,在全景分割恣意中,我们的要领也在跨畛域迁移情况下达到了当前最先进的性能。

中山大学林倞解读视觉语义了解新趋势:从抒发进修到学问及因果融合

图 6. 中山大学 HCP 实验室在视觉推理方向上的代表性歇息:融合学问推理的视觉问答。第二个歇息是关于如何融入外部学问去完成视觉问答恣意[11](见图 6)。具体来说,视觉问答恣意的技术本质需要兑现对图象和对应语言的同步了解,这需要在完备的学问空间里面进行推理。然而现存的大部分视觉问答的推理是通过配对封闭畛域下的问答数据而兑现的,其训练的模型极容易产生偏误,难以泛化到开放世界下的问答场景中。我们的歇息提出了第一个融合外部学问进行多段推理的数据集,该数据集衍生于真实的问答情况,同时提供了从数据畛域到学问图谱的推理路径标签。这有助于衡量视觉问答过程的模型推理可解释性,同时也比较容易应对未出现过的提问情况。我们鉴于树层次结构提出了针对该题目的模块化视觉推理问答网络,能够灵活结合结构学问库进行视觉抒发进修,高效地推演出题目答案。除了高层视觉语义了解外,鉴于学问的视觉推理也可以被应用到一些传统的视觉恣意当中,突破现有模型的性能瓶颈。接下来我简要介绍一下我们团队在这方面的四个歇息。

中山大学林倞解读视觉语义了解新趋势:从抒发进修到学问及因果融合

图 7. 中山大学 HCP 实验室利用视觉推理技术提高复杂场景下大规模物体检测的性能。第一个是我们在 CVPR-19 提出的 RCNN 系列衍生模型 Reasoning-RCNN,将鉴于学问图谱的常识推理技术整合到神经符号模型中,从而让物体检测网络在所有对象区域上具备自适应全局推理的能力,能有效应对大规模物体检测题目中的长尾数据分布,严重的遮挡和类型模糊性等挑战。Reasoning-RCNN 不仅能在视觉层面上传播信息,同时也在全局学问范围内进修所有类型的高级语义表示。鉴于检测网络的特征表示,Reasoning-RCNN 首先通过收集每个类型先前的分类层权重来生成全局语义池,然后通过联系全局语义池中上下文的分歧语义来自适应地强化每个对象特征的信息。这让 Reasoning-RCNN 具备可扩展集成任何学问的能力。在三个大规模物体检测的基准数据集(物体种类可以多达数千个)中,Reasoning-RCNN 兑现了 15%-37% 的最优性能提升。该钻研也被全球人工智能行业战略钻研公司 TOPBOTS 评选为 2019 年计算机视觉畛域最前沿的十个歇息之一。

中山大学林倞解读视觉语义了解新趋势:从抒发进修到学问及因果融合

图 8. 中山大学 HCP 实验室利用视觉推理技术去解决大规模类型数量下的小样本单分类和多分类视觉物体识别题目。我们第二个歇息专注于利用外部学问推理去辅助小样本分类的建模。现有鉴于元进修的解决办法在分歧的小样本类型的子恣意之间的偏差较大,而我们的歇息通过外部学问构建小样本类型和多数类型之间的全局联系,其优势在于稳定小样本分类模型训练和提高其分类鲁棒性。具体来说,它首先构建一个结构化的学问图谱,通过推理分歧的类型的共现概率去建模所有类型的全局联系,然后引入标签语义来指导进修特定于语义的特征初始化标签。我们将学问图谱中每一个节点看作某个类型的单分类模型,并通过图神经网络推理去兑现它们的消息传播机制从而进行语义关联的模型训练。该要领能有效解决超大规模类型的单分类小样本物体识别题目,同时也能够轻易扩展到多标签小样本分类题目当中。

中山大学林倞解读视觉语义了解新趋势:从抒发进修到学问及因果融合

图 9. 中山大学 HCP 实验室利用视觉推理技术去解决视觉关系分类中的长尾题目。我们第三个歇息钻研的是以判别对象和关系标签为目的的长尾视觉关系分类。当前大多数要领通常通过遵循 {主体,客体} 的固定推理路径来识别低频率出现的关系三元组。然而,这种固定的依赖路径的学问整合往往忽略了常识学问和真实场景之间的语义差距,容易受到对象和关系标签的数据集偏差影响。为了缓解这种情况,我们提出了可配置图推理来分解视觉关系的推理路径,并结合外部学问,兑现对每幅图象中每种关系类型的可配置学问选择和个性化图推理。给定常识学问图,可配置图推理网络进修匹配和检索分歧子路径的学问,并有选择地组合学问路由路径,弥合了常识学问与现实场景之间的语义鸿沟。大量的实验表明,可配置图推理网络在几个流行的基准测试中始终优于以前的最新要领。在第四个歇息中,我们专注于图象描述分割题目。该恣意的实质是在给定某个自然语言描述下作出跟该表述相关的图象分割,而难点在于如何在抽象的语言表述中兑现精细化的分割结果。我们试图通过解析给定语言表述的依赖树结构去兑现多模态推理结果。技术上来说,我们提出了鉴于树结构的多模态循环神经网络模块,将低层特征通过语义引导融合到高层特征中,贯彻自底向上的语义一致性。实验证明了我们这个要领能够有效进修语言描述的粗粒度语义与像素层面的精细语义的对应,从而在该恣意中进行多模态推理兑现优秀的分割效果。

中山大学林倞解读视觉语义了解新趋势:从抒发进修到学问及因果融合

图 10. 中山大学 HCP 实验室利用视觉推理技术去兑现描述性图象分割中的多模态推理。

中山大学林倞解读视觉语义了解新趋势:从抒发进修到学问及因果融合

图 11. 鉴于构建辅助恣意去兑现数学推理题求解最后值得一提的是,我们鉴于高效自监督进修和学问推理的钻研思想也可拓展到一些自然语言处理的畛域。在今年 ACL 上(图 11),我们提出了一个鉴于自监督辅助恣意进修进行推理,再兑现数学应用题求解。每一个辅助恣意所解决的都是关于应用题里条件的具体描述情况,而对这类信息的正确把握实际上是推理过程中的中间结果,对最终求解起着重要作用。我们利用神经符号模型将辅助恣意信息和树结构推理模型结合起来,最后的模型在四个现有的基准数据集上达到了目前最优的效果。因果推理与因果抒发进修

中山大学林倞解读视觉语义了解新趋势:从抒发进修到学问及因果融合

图 12. 因果推理的两大技术流派:以 Judea Pearl 为首的结构因果模型和以 Donald Rubin 为首的潜在结果框架。结合学问与推理的抒发进修,推动着视觉了解从下层感知逐渐往上层认知过渡,极大地促进了模式识别与人工智能学界的发展。然而要通往认知智能的终点,单纯依赖学问与抒发进修仍然远远不够。一方面,现存的绝大部分深度进修技术无法避免的一个题目就是主要关注关联而忽略因果,因此其训练的模型在鲁棒性和解释性方面都会出现很多题目。另一方面,高维度视觉大数据的复杂性往往导致其模型训练难以避免各种混淆因子的影响,导致最后进修到的表征与学问蕴含难以预测的数据偏误。于是,相关钻研歇息开始考虑在视觉了解过程中去介入"反思"的机制,其本质就是试图将因果推理的思想融入到抒发进修中,达到真正的"知其然,亦知其所以然"的目的。因果发现与推理有关"因果"两字的定义往往可以追溯到上古各个哲学流派的讨论,而近代的多个学科也有独立提出其见解的一系列钻研。在统计进修与人工智能畛域中,比较广为人知的有两个技术派系。第一个派系以 Jerzy Neyman 熏陶和 Donald Rubin 熏陶各自独立提出的潜在结果框架(Potential Outcome Framework)[12]为主要分析工具,鉴于分歧的随机对照实验组作为钻研对象,考察其条件个体受试作用(Conditional Individual Treatment Effect)作为判别分歧变量之间是否存在因果关系的主要依据。而第二个派系则以 2010 年的图灵奖得主 Judea Pearl 熏陶为首,提倡从三个层次的因果阶梯出发去了解世事万物变量之间的因果关系 [13]。其阶梯的第一层"关联",指的是事物变量同时发生的联合概率,也正是目前深度进修能够解释的深层的变量统计关系。Reichenbach 熏陶[14] 明确指出统计相关性所蕴含的信息是严格小于因果关系的,因此要得到更深层次的因果关系信息我们必须把因果了解上升到第二层次的"干预",即对这个世界的我们感兴趣的事物做某种改变,那么有各种的可能性,而分歧的改变会有分歧的结果,从而让其反馈而获取更多信息。最后,由于现实世界并不允许我们能够进行任意的交互和改变,一个典型的例子是在固定某个时间变量下,我们往往只能做出一次干预和观察。因此,我们需要把因果关系的了解上升到第三层的"反事实",也就是对于每一次干预的发生,我们都能借助类似人类"反思"的过程,去比较其干预和不干预下的结果差异。鉴于对因果关系的深刻了解,Judea Pearl 熏陶进一步提出了因果图模型(Causal Diagram)和 Do 算子(Do-operator)作为其钻研因果关系的理论框架和兑现因果推理的工具。在其著作《为什么》一书中,他阐明了潜在结果框架和因果图模型之间的共通性,证明了真理纵使表现形式分歧,其结论总是殊途同归的道理。因果抒发进修

中山大学林倞解读视觉语义了解新趋势:从抒发进修到学问及因果融合

图 13. Joshua Bengio 熏陶对因果推理和抒发进修的新了解。值得注意的是,纵使因果推理已有广泛的算法钻研,要让其与深度进修模型结合指导复杂的视觉了解恣意,依然存在不少挑战。一方面是该类算法假设的因果图往往是固定的,而且复杂度也比较低,另一方面则是其因果假设与推理的变量单元也经常是低维度变量,蕴含的信息量很少。但是,真实世界的推理单元往往是具有丰富语义信息的高维度变量(如物体),察看结果最初往往并未对推理进行结构化。有鉴于此,图灵奖得主,深度进修钻研畛域的泰斗 Joshua Bengio 熏陶在最近的钻研中提出了他对深度进修和因果关系的独到见解[15]。他认为深度进修拟合的是一个单一的数据分布,其本意就是只有一个察看世界,而一般的深度进修则是去拟合该世界的唯一分布。但由于我们的世界是动态变化而且分裂通向多元未来的,这意味着现有的深度进修实际上是在过拟合我们的察看世界,而对未来的改变却显得无能为力。因此,Bengio 熏陶进一步提出了"因果表示进修"的概念,试图从数据中进修到这些变量抒发以及建立结构关系,同时去进修,拟合分歧世界,分歧可能下的分布情况。这过程当中就会对应到因果了解中的干预和思,从而与分歧的下游恣意构建起关系。Bengio 熏陶的"因果表示进修"概念深深地影响了最近的计算机视觉畛域的一些钻研,如弱监督语义分割,视觉对话,零样本进修等(见图 14)。

中山大学林倞解读视觉语义了解新趋势:从抒发进修到学问及因果融合

图 14. 最近的一些关于计算机视觉结合因果抒发进修的歇息钻研。因果进修与学问融合最后本人分享一下我们实验室最近在因果抒发进修的一些钻研进展,这包含了两个歇息。第一个是计算机视觉的歇息,钻研的是如何结合因果图进行图象合成的;而第二个歇息则跳脱计算机视觉的局限,钻研医学诊疗数据下面的无偏推理题目:多轮对话下的自动医疗问诊。分歧于现有大部分对因果抒发进修的探索,我们这两个歇息强调了如何利用外部学问或者数据中已有的结构信息,去辅助因果抒发进修完成更加复杂的恣意,对因果抒发进修畛域的未来钻研具有一定的启发性。

中山大学林倞解读视觉语义了解新趋势:从抒发进修到学问及因果融合

图 15. 中山大学 HCP 实验室关于抒发进修生成模型结合因果图推理的钻研歇息。在第一个歇息中,我们钻研如何在给定一个语义场景图的情况下,兑现从高层抽象语义到底层视觉数据的图象生成。这可以看成是场景图预测的反题目。而兑现的过程中有两个难点:一个是如何保证生成的图象蕴含的语义信息与给定场景图的语义信息保持一致;另一个则是如何让生成图象的布局具有解耦性,就是修改布局的其中一部分语义不会引起整个图象的扭曲。而要兑现这种结构上的布局解耦,实际上就是把相关变量看成是混淆因子来进行因果抒发进修的过程。于是我们可以看到,从场景图到合成图象的生成过程,我们都可以用结合外部学问的因果图来表示。我们利用了生成对抗进修网络架构兑现逼真的图象生成,同时采用变分自编码器的特性进修隐空间抒发,使生成图象中对应的元素符合解耦性。而生成进修的目的则是在保持生成图象尽可能逼真的前提下,如何让生成的图象语义在结构因果关系的约束下,同时保持内在语义和外部学问的一致性。实验的结果也验证了,我们的要领不但能从场景图中生成语义一致的图象,还可以对其中的结构语义信息进行动态删减和增加,同时保持被编辑外的图象语义不会受到干扰和改变。

中山大学林倞解读视觉语义了解新趋势:从抒发进修到学问及因果融合

图 16. 中山大学 HCP 实验室利用因果推理技术兑现可解释医疗自动诊断的钻研歇息。我们的第二个歇息钻研的是医疗自动诊断,即训练一个代理模型与患者进行动态交互问诊,在准确的前提下尽可能快地提前结束问诊并进行疾病的诊断。这本质上是一个数据挖掘建模结合机器进修的题目,现有的要领基本上是利用察看数据去构建一个患者模拟器,从而模拟交互问诊过程并对诊断代理模型进行训练。但这个医疗对话的模拟过程实际上使用的是察看的被动数据,这会造成两大因果类的偏误题目。第一个情况是,如果某一个病人的问诊记录存在从未被医生问起某种症状的时候,当问诊策略访问到该病人的记录进行交互训练的时候,患者模拟器只会返回 “不知道” 的空值回答,因而代理模型是无法构建针对该症状时的问诊策略的。这是因为该病人对于此症状的对话数据只存在于反事实世界中而没在真实世界中出现过。该题目被我们称为默认答案偏差,经常会发生在医疗诊断的数据中,原因非常好了解:真实世界中的医生往往都是通过先验学问去搜索最短的问诊路线,不存在试错的过程。而另外一个题目是,由于现存的患者模拟器是鉴于纯经验的,从因果推断的角度,它代表的数据往往只能反映出过去某一个察看。而鉴于这些察看训练出来的问诊代理模型,其策略也只会过拟合到这个察看世界中,而在面对医疗诊断的时候,这个分布查询偏差题目往往是致命的,因为这些信息在代理模型进行查询的过程中往往会带来数据偏见,使得最后的诊断结果产生错误。我们的歇息试图利用因果结构图对分歧症状和疾病因子进行分析,再结合潜在结果框架去消除这两类偏差,最终兑现无偏,可解释的医疗自动诊断。受到潜在结果模型技术的倾向评分匹配启发,我们首先提出鉴于倾向分数的患者模拟器,其目的是取代受到数据偏见影响的观察数据患者模拟器,通过从其他记录中提取学问来有效回答未记录的询问(图 – 16 的左边子图)。更具体地说,我们的要领首先通过因果结构图去判定出每次询问过程中的哪些因素是对撞因子,接着鉴于每个察看数据中被询问的症状和疾病的关系,用倾向性评分匹配策略去计算每个记录的倾向性评分并聚类分歧的询问记录。那么对于每个察看记录中不存在的症状询问,我们都可以通过其聚类的其他察看记录去寻找类似的答案,其询问结果满足潜在结果框架下的无偏估计。不但如此,这个要领可以被用于所有鉴于交互的自动问诊代理模型的训练中,让其克服由于交互方式不当造成的问诊答案偏差。另外,为了克服分布查询偏差,我们在利用鉴于倾向分数的患者模拟器同时,提出了一种渐进式代理网络模型,把策略分解为症状查询和疾病诊断的两部分(图 – 16 的右边子图)。询问过程由诊断过程以自上而下的方式驱动,以询问症状对患者的未知方面进行干预。其干预结果可以进一步推断多个在未来可能会产生的交互情景。鉴于交互对分歧的未来发展轨迹进行聚类,我们可以依据分歧的聚类结果对应到分歧的疾病判断中。因此每个完成交互后的轨迹,并将对应分歧的疾病诊断,而最大化分歧聚类簇之间的距离,则能够增强结束对话时候的疾病诊断置信度。该诊断过程实际上可以被看作是到神经科学里面的发散模型:在心理和概率上描绘患者,并通过干预想象的题目(例如“如果患者咳嗽怎么办?”)在该心理表征中进一步解释原因,具有现有疾病诊断智能体不能比拟的可解释能力。通过上述干预,我们提出的代理能够根据症状的存在与否进行诊断,以消除分布询问偏差。

中山大学林倞解读视觉语义了解新趋势:从抒发进修到学问及因果融合

图 17. 鉴于因果推理医疗自动诊断的具体兑现框架。我们采纳了两个真实场景下采样的数据集对我们的歇息进行评测。对于倾向分数的患者模拟器,由于真实场景的测试数据也是察看数据,我们鉴于反事实推断衍生的评价标注去衡量其是否能够有效兑现反事实推断。另外再引入症状密度(symptom density)去测量我们的模拟器是否可以避免陷入回答 “不知道” 这些无意义的回答中。最后,我们雇佣了一部分来自中山医学院的学生去评价分歧智能体代理的疾病诊断效果。我们的实验结果表明了现有鉴于察看数据进行交互训练的智能体,其诊断结果极容易受到现存交互记录数据影响,难以训练出在真实场景下可靠的问诊模型。而我们提出的患者模拟器则能够比较好地适应这种变化。同时,不论是鉴于察看测试数据的准确率还是专业人员评价,我们的代理策略模型也体现出了更优秀的疾病诊断效果。总结我们从计算机视觉作为切入点,见证了人工智能从 David Marr 朴素的视觉了解概念开始,一路到今天以深度神经网络模型和抒发进修为钻研轴心的蓬勃发展。同时,我们也发现了该路线渐渐走到了奇点。分歧于一些学派认为抒发进修难以进修高层认知,我们主张目前的抒发进修应该结合学问推理和因果模型去兑现下一阶段的技术飞跃:因为学问推理可以兑现从人类学问到机器认知的一致迁移,而因果模型则为了解机器推理提供严谨的技术手段。我们实验室关于学问推理和因果模型的一系列歇息也从侧面验证了我们的观点。参考文献:[1].Stevens K A. The vision of David Marr[J]. Perception, 2012, 41(9): 1061-1072.[2].Dalal N, Triggs B. Histograms of oriented gradients for human detection[C] 2005 IEEE computer society conference on computer vision and pattern recognition (CVPR'05). Ieee, 2005, 1: 886-893.[3].Ojala T, Pietikäinen M, Harwood D. A comparative study of texture measures with classification based on featured distributions[J]. Pattern recognition, 1996, 29(1): 51-59.[4].Dosovitskiy A, Beyer L, Kolesnikov A, et al. An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale[C] International Conference on Learning Representations. 2020.[5].Liu Z, Lin Y, Cao Y, et al. Swin transformer: Hierarchical vision transformer using shifted windows[C] Proceedings of the IEEE International Conference on Computer Vision, 2021.[6].Ganin Y, Lempitsky V. Unsupervised domain adaptation by backpropagation[C] International conference on machine learning. PMLR, 2015: 1180-1189.[7].He K, Fan H, Wu Y, et al. Momentum contrast for unsupervised visual representation learning[C] Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 9729-9738.[8].Kenneth Marino, Ruslan Salakhutdinov, Abhinav Gupta; The More You Know: Using Knowledge Graphs for Image Classification [C] Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, pp. 2673-2681[9].Wang G, Wang K, Wang G, et al. Solving Inefficiency of Self-supervised Representation Learning[C]. Proceedings of the IEEE International Conference on Computer Vision, 2021. [10].Lin L, Gao Y, Gong K, et al. Graphonomy: Universal Image Parsing via Graph Reasoning and Transfer[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020.[11].Qingxing Cao, Bailin Li, Xiaodan Liang, Keze Wang, and Liang Lin, “Knowledge-Routed Visual Question Reasoning: Challenges for Deep Representation Embedding”, IEEE Transactions on Neural Networks and Learning Systems (T-NNLS)[12].Sekhon, Jasjeet S. "The Neyman-Rubin model of causal inference and estimation via matching methods." The Oxford handbook of political methodology 2 (2008): 1-32.[13].Pearl, Judea, and Dana Mackenzie. The book of why: the new science of cause and effect. Basic books, 2018.[14].H. Reichenbach. The Direction of Time. University of California Press, Berkeley, CA, 1956.[15].Schölkopf B, Locatello F, Bauer S, et al. Toward causal representation learning[J]. Proceedings of the IEEE, 2021, 109(5): 612-634.林倞熏陶简介

中山大学林倞解读视觉语义了解新趋势:从抒发进修到学问及因果融合

林倞,中山大学计算机学院熏陶 / 博导,国家优秀青年基金获得者,教育部超算工程软件工程钻研中心副主任,IET Fellow,先后在美国加州大学洛杉矶分校、香港中文大学等机构歇息或访问钻研。长期致力于视觉计算与推理进修的基础钻研,提出认知模型引导的视觉表征进修理论和要领体系,包括结构化视觉语法模型、长效自主进修等基础要领,深入探索面向海量复杂视觉数据的模型泛化和推广能力,迄今在国际知名学术期刊与会议上发表论文 200 余篇,论文被引用接近 2 万次。获得 ICME 2017 最佳论文钻石奖,Pattern Recognition 期刊年度最佳论文奖,ICCV 2019 最佳论文提名;指导学生获得 ACM 中国区优秀博士论文奖(每年度 2 名)、中国计算机学会优秀博士论文奖;作为第一完成人获得 2018 年度吴文俊人工智能自然科学奖、2019 年度中国图象图形学会科学技术一等奖。

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/31275

(0)
上一篇 2021年11月16日 下午1:08
下一篇 2021年11月16日 下午2:37

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注