本文围绕近期的两项工作,讨论神经搜集中符号观点的展现现象,即『深度神经搜集的表征是否是符号化的』的问题。如果我们绕开 “应用技术提升” 的视角,从 “科学发展” 的角度来重新审视 AI,注明 AI 模型中的符号展现现象无疑是具有重大意义的。1. 首先,目前大部分的可注释性研究都在试图将神经搜集注释为一个 “清楚的”、“语义化的”、或 “逻辑化的” 模型。但是,如果无法注明神经搜集的符号展现,如果神经搜集内在表征成分真的有大量的混乱成分,那么大部分的可注释性研究就失去了其基本事实依据。2. 其次,如果无法注明神经搜集的符号展现,深度学习的发展将会大概率困在 “结构”、“损失函数”、“数据” 等外围因素的层面,而无法直接高层的认知层面去实现知识层面的交互式学习。往这个方向发展需要更干净清楚的理论支撑。因此,本文主要从以下三个方面介绍。1. 如何去界说神经搜集所建模的符号化观点,从而可靠地发现神经搜集的符号展现现象。2. 为什么所量化的符号化观点可以认为是可信的观点(茂密性、对神经搜集表征的 universal matching、迁移性、分类性、对历史注释性目标的注释)。3. 如何注明符号化观点的展现 —— 即理论注明当 AI 模型在某些情况下(一个并不苛刻的条件),AI 模型的表征逻辑可以解构为极少数的可迁移的符号化观点的分类功效(这部分会在 4 月底公开讨论)。
论文地址:https://arxiv.org/pdf/2111.06206.pdf
论文地址:https://arxiv.org/pdf/2302.13080.pdf该研究作者包括上海交通大学硕士二年级学生李明杰、上海交通大学博士三年级学生任洁,李明杰和任洁都师从张拳石老师。他们所在的实验室团队常年做神经搜集可注释性的研究。对于可注释性领域,研究者可以从差别角度来分析,有注释表征的,有注释性能的,有相对可靠合理的,也有不合理的。但是,深入讨论下去,对神经搜集的注释有两个根本的愿景,即「能否清楚且严谨地表示出神经搜集所建模的观点」和「能否准确注释出决定神经搜集性能的因素」。在「注释神经搜集所建模的观点」这一方向上,所有研究者都必须面对的一个核心问题 ——“神经搜集的表征到底是不是符号化观点化的”。如果这个问题回答不清楚,那么后续的研究很难进行 —— 如果神经搜集的表征本身都是混乱的,然后研究者强行用一堆 “符号化的观点” 或 “因果逻辑” 去注释,这样一来方向就错了?对神经搜集符号化表征的假设,是进行深入研究该领域的基础,但是对此问题的论证往往让人无从下手。
大部分研究者对神经搜集的第一直觉是 “它不可能是符号化的吧?” 神经搜集毕竟不是图模型。在一篇由 Cynthia 等人撰写的论文中《Stop explaining black box machine learning models for high stakes decisions and use interpretable models instead》 [3],,让人们误以为对神经搜集的事后注释(post-hoc explanation)天然地是不可靠的。
那么,神经搜集内在表征真的是非常混乱的?而不是清楚的、茂密的、符号化的吗?围绕这个问题,我们界说了博弈交互 [4,5],注明了神经搜集表征瓶颈 [6],研究了神经搜集对视觉观点表征的特点 [7,8],从而注明了交互观点与神经搜集泛化和鲁棒性的关系 [9,10,11,12],进而完善了沙普利值 [13],但是实验室前期仅仅围绕 “符号化表征” 核心的周边进行探索,始终无法直接探索神经搜集表征是否是符号化的。这里我们先说结论 —— 在大部分情况下,神经搜集的表征是清楚的、茂密的、符号化的。这个结论背后有大量的理论注明,以及大量的实验论证。在理论方面,我们目前的研究注明了一些可以支撑 “符号化” 的特性,但是目前注明还不足以对 “符号化表征” 给出严谨明确的解答。未来几个月,我们会有更加严谨、全面的注明。如何界说神经搜集所建模的观点在分析神经搜集之前,我们需要明确 “如何界说搜集所建模的观点”。实际上,对于这一问题,之前已经有了相关研究 [14,15],并且实验结果也比较优异 —— 但是,我们认为,“观点” 的界说在理论上应有 “严谨性” 的数学保证。因此,我们在论文 [1] 中界说了 I(S) 这一目标,用来量化观点 S 对于搜集输入的功效,这里 S 指的是组成这一观点的所有输入变量的集合。例如,给定一个神经搜集和一个输入句子 x=“I think he is a green hand.”,每个单词可以看成搜集的其中一个输入变量,句中的三个词 “a”,“green”,“hand” 可以构成一个潜在的观点 S={a,green,hand}。每个观点 S 表示了 S 中输入变量之间的 “与” 关系:当且仅当 S 中的输入变量全部出现时,这一观点才被触发,从而为搜集输入贡献 I (S) 的功效。而当 S 中任意变量被遮挡时,I (S) 这部分功效就从原本的搜集输入中移除了。例如,对于 S={a,green,hand} 这一观点,如果把输入句子中的 “hand” 一词遮挡,那么这一观点就不被触发,搜集输入中也不会包含这一观点的功效 I (S)。我们注明了神经搜集输入总可以被拆分为所有触发观点功效之和。即在理论上,对于一个包含 n 个输入单元的样本,最多有
种差别的遮挡方式,我们总可以用『少量观点』的功效来『精确拟合』神经搜集『所有
种』差别遮挡样本上的输入值,从而注明了 I (S) 的『严谨性』。下图给了一个简单的例子。
进一步,我们在论文 [1] 中注明了 I (S) 满足博弈论中 7 条性质,进一步说明了这一目标的可靠性。
除此以外,我们还注明了博弈交互观点 I (S) 能够注释博弈论中大量经典目标的基本机理,比如 Shapley value [16]、Shapley interaction index [17],以及 Shapley-Taylor interaction index [18]。具体地,我们可以将这三种目标表示为交互观点的差别线性和的形式。
实际上,课题组的前期工作已经基于博弈交互观点目标来界说 Shapley value 的最优基准值 [13],并探索视觉神经搜集所建模的『原型视觉观点』及其『美观度』[8]。神经搜集是否建模了清楚、符号化的观点表征有了这一目标,我们进一步探索上面提到的核心问题:神经搜集是否真的能从训练任务中总结出清楚的、符号化的、观点化的表征?所界说的交互观点真的能表示一些有意义的 “知识”,还是仅仅是一个纯粹从数学上凑出来的没有明确意义的 tricky metrics?为此,我们从以下四个方面回答这一问题 —— 符号化观点化的表征应该满足茂密性、样本间迁移性、搜集间迁移性,以及分类性。要求一(观点茂密性):神经搜集所建模的观点应该是茂密的差别于连结主义,符号主义的一个特性在于人们希望用少量的、茂密的观点来表示搜集学到的知识,而不是用大量、稠密的观点。实验中我们发现,在大量潜在观点中,仅有非常少量的显著观点。即大部分交互观点的交互功效 I (S) 趋近于 0,故可以忽略,仅有极少量的交互观点有较显著的交互功效 I (S),这样神经搜集的输入仅仅决定于少量观点的交互功效。换句话说,神经搜集对于每个样本的推断可以被简洁地注释为少量显著观点的功效。
要求二(样本间迁移性):神经搜集所建模的观点在差别样本间应该具有迁移性在单个样本上满足茂密性是远远不够的,更重要的是,这些茂密的观点表达应该能够在差别样本之间互相迁移。如果同一个交互观点可以在差别样本中表征,如果差别样本总提取出类似的交互观点,那么这个交互观点更可能代表一种有意义的普适的知识。反之,如果大部分交互观点仅仅在一两个特定样本上有表征,那么这样所界说的交互更倾向于一个仅有数学界说但没有物理意义的 tricky metric。在实验中,我们发现,往往存在一个较小的观点字典,它能够注释神经搜集为同类别样本所建模的大部分观点。
我们也可视化了一些观点,并且发现,相同的观点通常对差别的样本产生类似的效果,这也验证了观点在差别样本之间的迁移性。
要求三(搜集间迁移性):差别神经搜集所建模的观点之间应该具有迁移性类似地,这些观点应该能够被差别的神经搜集稳定地学到,无论是差别初始化的搜集,还是差别架构的搜集。虽然神经搜集可以设计为全然差别的架构,建模差别维数的特征,但是如果差别的神经搜集面对同一个具体任务可以实现『殊途同归』,即如果差别神经搜集都可以稳定地学习到类似的一组交互观点,那么我们可以认为这组交互观点是面向这个任务的根本的表征。比如,如果差别的人脸检测搜集都不约而同地建模了眼睛、鼻子、嘴之间的交互,那么我们可以认为这样的交互是更 “本质的”“可靠的”。在实验中,我们发现,越显著的观点越容易被差别的搜集同时学到,相对比例的显著交互是被差别神经搜集所共同建模的。
要求四(观点分类性):神经搜集所建模的观点应该具有分类性最后,对于分类任务而言,如果一个观点具有较高的分类性,那么它应该为大多数样本上的分类起到一致的正向作用(或是一致的负向作用)。较高的分类性可以验证这个观点可以独立地承担分类任务,从而更大可能的是一个可靠的观点,而不是不成熟的中间特征。我们同样设计了实验来验证这一性质,发现神经搜集建模的观点往往具有较高的分类性。
综上所述,上面的四个方面表明,在大部分情况下,神经搜集的表征是清楚的、茂密的、符号化的。当然,神经搜集也并不是每时每刻都能够建模这种清楚、符号化的观点,在少数极端情况下,神经搜集学不到茂密、可迁移的观点,具体请看我们的论文 [2]。此外,我们还利用此交互来注释了大模型[22]。神经搜集的符号化表征在神经搜集可注释性中的意义1. 从可注释性领域发展的角度来看,最直接的意义就是为 “观点层面注释神经搜集” 找到了一定的依据。如果神经搜集本身的表征都不是符号化的,那么从符号化观点层面对神经搜集的注释就只能是隔靴搔痒,注释的结果一定是似是而非的,并不能实质性的推导深度学习进一步的发展。2. 从 2021 年开始,我们逐步构建了一个基于博弈交互的理论体系。发现基于博弈交互,我们可以统一注释两个核心问题 “怎样量化神经搜集所建模的知识” 和 “怎样注释神经搜集的表征能力”。在 “怎样量化神经搜集所建模的知识” 方向上,除了本文提到的两个工作之外,课题组的前期工作已经基于博弈交互观点目标,来界说 Shapley value 的最优基准值 [13],并探索视觉神经搜集所建模的『原型视觉观点』及其『美观度』[7,8]。3. 在 “怎样注释神经搜集的表征能力” 方向上,课题组注明了神经搜集对差别交互的表征瓶颈 [6],研究了神经搜集如何通过其所建模的交互观点来确定其泛化性 [12,19],研究神经搜集所建模的交互观点与其对抗鲁棒性和对抗迁移性的关系 [9,10,11,20],注明了贝叶斯神经搜集更难以建模复杂交互观点 [21]。更多阅读请参考:https://zhuanlan.zhihu.com/p/264871522/参考文献[1] Ren et al. “Can we faithfully represent masking states to compute Shapley values on a DNN?”in CVPR 2023[2] Li et al. “Does a Neural Network Really Encode Symbolic Concepts?” in arXiv:2302.13080[3] Rudin, Cynthia. “Stop explaining black box machine learning models for high stakes decisions and use interpretable models instead.” Nature machine intelligence (2019): 206-215. URL: https://www.nature.com/articles/s42256-019-0048-x[4] Zhang et al. “Interpreting multivariate Shapley interactions in DNNs.” AAAI 2021. Vol. 35. No. 12. 2021. URL: https://arxiv.org/abs/2010.05045 Zhihu blog: https://zhuanlan.zhihu.com/p/264953129[5] Zhang et al. “Building interpretable interaction trees for deep NLP models.” AAAI 2021. URL: https://arxiv.org/abs/2007.04298. Zhihu blog: https://zhuanlan.zhihu.com/p/264953129[6] Deng et al. “Discovering and explaining the representation bottleneck of DNNs.” ICLR 2022. URL: https://arxiv.org/abs/2111.06236 Zhihu blog: https://zhuanlan.zhihu.com/p/422420088[7] Cheng et al. “A game-theoretic taxonomy of visual concepts in dnns.” arXiv:2106.10938 (2021). URL: https://arxiv.org/abs/2106.10938 Zhihu blog: https://zhuanlan.zhihu.com/p/386548661[8] Cheng et al. “A hypothesis for the aesthetic appreciation in neural networks.” arXiv:2108.02646 (2021). URL: https://arxiv.org/abs/2108.02646 Zhihu blog: https://zhuanlan.zhihu.com/p/395709713[9] Wang et al. “A unified approach to interpreting and boosting adversarial transferability.” ICLR 2021. URL: https://arxiv.org/abs/2010.04055 Zhihu blog: https://zhuanlan.zhihu.com/p/369883667[10] Ren et al. “A unified game-theoretic interpretation of adversarial robustness.” NeurIPS 2021. URL: https://arxiv.org/abs/2111.03536 Zhihu blog: https://zhuanlan.zhihu.com/p/361686461[11] Zhang et al. “Proving Common Mechanisms Shared by Twelve Methods of Boosting Adversarial Transferability.” arXiv:2207.11694 (2022). URL: https://arxiv.org/abs/2207.11694 Zhihu blog: https://zhuanlan.zhihu.com/p/546433296[12] Zhang et al. “Interpreting and boosting dropout from a game-theoretic view.” ICLR 2021. URL: https://arxiv.org/abs/2009.11729. Zhihu blog: https://zhuanlan.zhihu.com/p/345561960[13] Ren et al. “Can We Faithfully Represent Masking States to Compute Shapley Values on a DNN?” ICLR 2023. URL: https://arxiv.org/abs/2105.10719 Zhihu blog: https://zhuanlan.zhihu.com/p/395674023[14] Bau et al. “Network dissection: Quantifying interpretability of deep visual representations.” CVPR 2017. URL: http://openaccess.thecvf.com/content_cvpr_2017/html/Bau_Network_Dissection_Quantifying_CVPR_2017_paper.html[15] Kim et al. “Interpretability beyond feature attribution: Quantitative testing with concept activation vectors (TCAV).” ICML 2018. URL: http://proceedings.mlr.press/v80/kim18d.html[16] Shapley, L. S. A value for n-person games. Contributions to the Theory of Games, 2 (28):307–317, 1953.[17] Grabisch, M. and Roubens, M. An axiomatic approach to the concept of interaction among players in cooperative games. International Journal of game theory, 28 (4):547–565, 1999.[18] Sundararajan et al. "The Shapley Taylor interaction index." ICML 2020. URL: http://proceedings.mlr.press/v119/sundararajan20a.html[19] Zhou et al. “Concept-Level Explanation for the Generalization of a DNN” arXiv:2302.13091 (2023), URL: https://arxiv.org/abs/2302.13091[20] Wang et al. “Interpreting Attributions and Interactions of Adversarial Attacks” ICCV 2021.[21] Ren et al. “Bayesian Neural Networks Tend to Ignore Complex and Sensitive Concepts” arXiv:2302.13095 (2023), URL: https://arxiv.org/abs/2302.13095
[22] Shen et al. "Can the Inference Logic of Large Language Models be Disentangled into Symbolic Concepts?"arXiv:2304.01083(2023), URL: https://arxiv.org/abs/2304.01083
原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/26307