AAAI/CVPR论文详解 | 万字长文了解可注释AI工具及技术的最新进展

本文聚焦于研究和开发可注释性工具的内容,对AAAI-2022《Tutorial on Explanations in Interactive Machine Learning》提及的三类可注释性工具/方式(局部可注释性、条例可注释性、观念可注释性)举行了解读,重点了解可注释性工具和方式的最新研究进展。

1 背景

近年来,学术界、工业界以及政府部门对 AI 伦理的重视程度日益加强,从 AI 伦理监管政策到 AI 伦理技术手段,提升 AI 伦理合规性和打造 AI 伦理技术工具、产品服务成为不断提升 AI 市场竞争优势的一个核心点。从工业界的具体实践角度看,国外的主流科技公司,包括 IBM、微软、Google 等,以及国内的腾讯、微博、美团等,都持续加大对 AI 伦理的研究和实践,腾讯研究院还发布了业内首份《可注释 AI 发展报告 2022—打开算法黑箱的理念与实践》。可注释 AI 是一个非常庞杂的领域,除了涉及 AI 算法 / 模型等技术,还涉及伦理、法律法规等问题。同时,追求可注释 AI 还需要平衡 AI 的效率和性能的问题。因此,可注释 AI 是一个有待进一步探索的长期问题,也是迫切需要解决的关键问题。从可注释 AI 研究的切入点角度来说,目前主要可以分为两类,一类是关注如何促进模型透明性,例如,通过控制或注释 AI 模型 / 算法的训练数据、输入输出、模型架构、影响因素等,提高模型的透明性,使监管部门、模型使用者以及用户能够更加容易理解 AI 模型;另一类则是研究和开发可注释性工具,即利用工具对已有的 AI 模型举行注释,例如微软的用于训练可注释模型、注释黑盒系统的开源软件包 InterpretML、TensorFlow 2.0 可注释性分析工具 tf-explain、IBM 的 AI Explainability 360 toolkit 等。本文聚焦于研究和开发可注释性工具的内容,对 AAAI-2022《Tutorial on Explanations in Interactive Machine Learning》提及的三类可注释性工具 / 方式(局部可注释性、条例可注释性、观念可注释性)举行了解读,重点了解可注释性工具和方式的最新研究进展。

AAAI/CVPR论文详解 | 万字长文了解可注释AI工具及技术的最新进展

在刚刚过去的 AAAI-2022 中,有一个专门的 tutorial 介绍交互式机器进修的可注释性。整个 tutorial 由四名专家分别介绍了动机和挑战、通过局部注释举行交互、通过鉴于条例的注释举行交互和通过鉴于观念的注释举行交互四部分内容[2],聚焦于可注释性工具,即从技术角度上提升 AI 模型本身的可注释性,使其对于用户来说更加“透明”。2 通过局部注释举行交互通过局部注释举行交互的方式是最常见的可注释 AI 方式,即给定一个预测器和一个目标决策,输入属性确定哪些输入变量与决策 “最相关”,我们比较熟悉的 SHAP 注释模型(SHapley Additive exPlanation)、LIME 注释器(Local Interpretable Model-agnostic Explanations)都属于这一类方式。鉴于局部注释方式的特点包括:使用户能够建立个别预测的心理模型;较难获取足够多的样本来获得模型决策过程的概况;可能会根据用户观察到的样本而产生偏见。本文从 AAAI-2022 的 tutorial 中选择一种方式,即 FIND,来举行解读。本文正式发表在 EMNLP 2020 中,相关代码已公布 https://github.com/plkumjorn/FIND。FIND: Human-in-the-Loop Debugging Deep Text Classifiers

AAAI/CVPR论文详解 | 万字长文了解可注释AI工具及技术的最新进展

由于获得一个完美的训练数据集(即一个相当大的、无偏见的、能很好地代表未见案例的数据集)几乎是不可能的,许多现实世界的文本分类器是在现有的、不完美的数据集上训练的。因此,这些分类器有可能具有不理想的特性。例如,它们可能对某些子群体有偏见,或者由于过度拟合而在实际环境中不能有效工作。本文提出了一个框架,使人类能够通过禁用不相关的隐藏特性来调试深度进修文本分类器[3]。作者将这个框架命名为 FIND(Feature Investigation aNd Disabling,特性调查和禁用)。FIND 利用一种注释方式,即层级相关性传播(layer-wise relevance propagation,LRP)[1],来理解分类器预测每一个训练样本时的行为。然后,它使用词云汇总所有信息,以创建一个模型的全部视觉图,使得人类能够理解由深度分类器自动进修的特性,然后在测试期间禁用一些可能影响预测准确性的特性。LRP 是一种鉴于深度泰勒分解的注释方式,利用输入特性的重要性分数来注释神经网络预测。LRP 利用深度泰勒分解技术,通过预先训练的网络,将输出的相关性向后分配,并确定节点对分类的贡献。根据激活度和网络权值,通过在下一层传播相关性来获得每层的相关性。注释器给出了与输入图象具有相同维数的像素级热图,从而可视化了输入图象中对所选类型有贡献的重要区域。

现代 NLP 模型通常是端到端的,没有显式编码语义特性,理解和分析它们的工作都不直观,所以人们很想知道模型到底都学到了什么。如图 1 所示,NLP 黑盒模型很难清晰的表征单词 (x) 和类型概率 (p) 之间的关联关系:

AAAI/CVPR论文详解 | 万字长文了解可注释AI工具及技术的最新进展

图 1. 单词 (x) 和类型概率 (p) 之间的关联难以映射 (图片来自 Tutorial slides, https://sites.google.com/view/aaai22-ximl-tutorial)一般来说,深度文本分类器可以分为两部分。第一部分举行特性提取,将输入文本转化为代表输入的密集向量(即特性向量)。第二部分举行分类,将特性向量通过密集层后,用 softmax 激活来获得预测的类的概率。这些深度分类器都是不透明的,因为人类无法注释中间向量或用于特性提取的模型参数的含义。这使得人类无法运用他们的知识来修改或调试分类器。相反,如果我们了解每一个特性中捕获了输入的哪些模式或质量,就可以理解模型的整体推理机制,因为分类部分的密集层就变得可注释了。本文通过引入 LRP,检查每一个特性检测到的输入模式是否与分类有关。另外,这些特性可以应用于密集层以支持正确的类型。图 2 具体展示了 FIND 的架构。

AAAI/CVPR论文详解 | 万字长文了解可注释AI工具及技术的最新进展

图 2. FIND 调试框架概述考虑一个包含 | C | 个类型的文本分类任务,其中 C 是所有类型的集合,V 表征语料库(词汇)中唯一的词汇集合。给定训练数据集 D = {(x_1, y_1), …, (x_N, y_N)},其中 x_i 是第 i 个文档,包含 L 个词的序列[xi1, xi2,…, xiL],y_i 为 x_i 的类型标签。使用一个在数据集 D 上训练的深度文本分类器 M 将一个新的输入文件 x 归入其中一个类型 M(x) 。M 可以分为两部分—特性提取部分 M_f 和分类部分 M_c:AAAI/CVPR论文详解 | 万字长文了解可注释AI工具及技术的最新进展

AAAI/CVPR论文详解 | 万字长文了解可注释AI工具及技术的最新进展

其中,f 为 x 的特性向量,W 和 b 为 M_c 的层参数。最终输出为预测概率向量 p。为了了解模型 M 是如何工作的,作者分析了激活每一个特性 f_i 的输入模式或特性。具体来说,使用 LRP,对于训练数据集中的样本 x_j 的每一个 f_i,我们计算一个相关性向量 r_ij,以表征 x_j 中每一个词对于 f_i 值的相关性分数(贡献)。具体的,对于一个一般的神经网络

AAAI/CVPR论文详解 | 万字长文了解可注释AI工具及技术的最新进展

z_ij 为神经元 i 神经元 i 与神经元 j 之间的权重把所有神经元到神经元 j 的 z_ij 合起来加上 bias term 偏置项,得到上一层所有神经元到神经元 j 的向量 zj经激活函数 g 处理得到下一层神经元 xj了解特定神经元与分类决策函数 f(x)的相关性 R_j ^( l + 1 ),希望根据发送到前一层的神经元的消息来获得这种相关性的分解,将这些消息记作 R_ (i ← j)。

AAAI/CVPR论文详解 | 万字长文了解可注释AI工具及技术的最新进展

l + 1 层的某个神经元 j 的相关性 = l + 1 层的神经元 j 给 l 层所有神经元的相关性之和。

AAAI/CVPR论文详解 | 万字长文了解可注释AI工具及技术的最新进展

x_j 和 f_i 的相关性向量 r_ij 可以依上式计算得到。在对训练样本的所有 d 个特性执行上述操作后,可以生成词云来帮助用户更好地理解模型 M。这样就做到了:不清楚潜伏特性是什么意思,但清楚它是如何映射到每一个类型的,即模型的可注释性。词云: 对于每一个特性 f_i,创建(一个或多个)词云,以可视化输入文本中高度激活 f_i 的模式。这可以通过分析训练数据中所有 x_j 的 r_ij 并在词云中显示获得高相关性分数的词或 n-grams 来实现。作者表示,不同的模型架构可能有不同的方式来生成词云,以有效地揭示特性的行为。本文选择 CNN 作为分类器,来自训练样本的每一个特性都有一个包含 n-grams 的词云,由 CNN 的 max-pooling 选择。如图 3,对应于过滤器大小为 2 的特性,给出了 bi-grams(例如,“love love”, “love my”, “loves his” 等),其字体大小与 bi-grams 生成的特性值的大小相对应。这与之前的工作分析 CNN 特性的方式类似,相当于使用 LRP 对输入的特性值举行反向传播,并裁剪出 LRP 得分不为零的连续输入词,显示在词云中。

AAAI/CVPR论文详解 | 万字长文了解可注释AI工具及技术的最新进展

图 3. 来自 CNN 的一个特性的词云(或字面意思是 n-gram)如前所述,我们想知道学到的特性是否有效,是否与分类任务相关,以及它们是否从下一层获得适当的权重,可以通过让人类考虑每一个特性的词云并告诉我们该特性与哪个类型相关来实现。不过,在实际场景中这样的直接应用还是存在问题。如果一个词云接收的答案与它真实的类型(表征为 W)不同,则表明该模型存在问题。例如,假定图 3 中的词云表征情感分析任务中的特性 f_i,但 W 的第 i 列暗示 f_i 分类为“负面情感类型(negative sentiment class)”,则我们可以判断这个模型是不正确的。如果这个词云出现在产品分类任务中,这也是有问题的,因为词云中的短语对任何产品类型都不具有鉴别性,是无法给出正确的分类结果的。因此,作者进一步修正该方式,为用户提供了禁用与任何有问题的词云相对应的特性的处理方式。将 M_c 修正为 M’_c:

AAAI/CVPR论文详解 | 万字长文了解可注释AI工具及技术的最新进展

Q 是一个掩码矩阵,⊙是一个元素相乘的运算符。最初,Q 中的所有元素都是能够实现特性和输出之间所有连接的元素。为了禁用特性 f_i,将 Q 的第 i 列设置为零向量。禁用特性后,冻结 M_f 的参数并微调 M’_c 的参数 (除了掩码矩阵 Q) 在最后一步用原始训练数据集 D 举行微调。作为示例,作者在 Yelp 数据库中举行了实验。Yelp 库用于预测餐厅评论的情绪(正面或负面),作者抽出 500 个样本作为 Yelp 的训练数据。使用 MTurk 上的人类反应来给特性分配等级。由于每一个分类器有 30 个原始特性(d = 30),作者将它们分为三个等级(A、B 和 C),每一个等级有 10 个特性。预计排名 A 的特性对预测任务最相关、最有用,而排名 C 的特性最不相关,可能会破坏模型的性能。图 4 显示了来自 Yelp 数据集的三个 CNN 样本之一的平均特性分数的分布。图 5 给出了每一个等级的词云的示例。我们可以清楚地看到这三个特性的不同质量。一些参与者回答说,图 5 中的等级 B 特性与正面类型相关(可能是由于 “delicious” 这个词),W 中这个特性的权重也是如此(正面:负面 = 0.137:-0.135)。有趣的是,图 5 中的等级 C 特性得到了负分,因为一些参与者认为这个词云与正面类型有关,但实际上模型将这个特性作为负面类型的证据(正面:负面 = 0.209:0.385)。

AAAI/CVPR论文详解 | 万字长文了解可注释AI工具及技术的最新进展

图 4. 在 Yelp 数据集上训练的 CNN 模型的平均特性分数的分布

AAAI/CVPR论文详解 | 万字长文了解可注释AI工具及技术的最新进展

图 5. 排名 A、B、C 的 CNN 特性的词云示例3 通过鉴于条例的注释举行交互通过鉴于条例的注释可以看做是一种鉴于全部注释的方式。鉴于全部注释方式的特点包括:能够提供一个概述图;能够避免表述性偏见;这种全部简化的概述处理是以忠实性为代价的。条例可以直接从数据中进修(白盒模型),也可以从模型的替代物中进修(黑盒模型)。现有鉴于条例的注释方式的区别主要在于“条例的复杂性、准确性、非重叠性” 这三方面。此外,他们在展示条例的方式上也有差异(决策列表、决策集)。为了准确反映决策边界,条例必须涵盖越来越窄的数据片 / 集,而这反过来会对可注释性产生负面影响。我们也从 tutorial 给出的方式中选择一篇举行深入解读。Machine Guides, Human Supervises: Interactive Learning with Global Explanations

AAAI/CVPR论文详解 | 万字长文了解可注释AI工具及技术的最新进展

本文是 AAAI 2021 中的一篇文章,提出了注释性引导进修(explanatory guided learning,XGL),这是一种新型的交互式进修策略,在这种策略中,机器引导人类监督者为分类器选择信息丰富的样本。这种引导是通过全部注释来提供的,全部注释总结了分类器在样本空间的不同区域的行为,并暴露出其缺陷。与其他由机器发起并依赖局部注释的注释式交互进修策略相比,XGL 的设计是为了应对机器提供的注释超过分类器质量的情况。此外,XGL 利用全部注释来打开人类发起的互动的黑匣子,使监督员能够选择挑战所学模型的信息样本。XGL 最大的优势在于:条例可以是简单的,同时用来指导人类的反馈[4]。令 H 表征一类黑盒分类器 h,即神经网络或内核机。我们的目标是从数据中进修一个分类器 h。最初我们可能只能获得一个小的训练集 S_0,随后可以通过 supervisor 获取更多的样本。为了便于理解和控制,还要求机器以专家 supervisor 可以理解的方式注释自己的信念(belief),这将有助于识别预测器逻辑中的错误。注释式主动进修(explanatory active learning,XAL)就是这一类代表方式。在 XAL 中,机器从一个未标记的样本池中选择 queries x,并要求 supervisor 对其举行标记,此外,XAL 还给出对 queries 的预测结果以及对预测结果的局部注释。这些注释揭示了生成这些预测结果的原因,例如特性相关性,并与预测结果一起构建一个 narrative。此外,supervisor 还可以通过对注释提供反馈来控制 predictor,例如,可以指出 predictor 错误地依赖了哪些特性。不过,由于局部注释侧重于 queries,XAL 输出的 “narrative” 忽略了未知数(unknown unknowns,UU),根据定义,机器在这种情况下表现得很差。UU 可能会诱使机器向用户过度推销自己的性能,特别是当它们与高成本相关联时。这就导致了叙述性偏见(narrative bias,NB)。直观地说,NB 衡量的是 queries x1,…,X_T 传达给用户的性能与真正的风险 R_T。用户感受到的性能是 XAL 的 narrative 随着时间推移所暴露的损失的函数。图 6(左)具体展示了这个问题,合成数据的设计是为了诱发未知的 UU。将红色的样本分组为间隔均匀的集群,而蓝色的样本则均匀地分布在其他地方。主动 RBF SVM 经过 140 次不确定性采样迭代后选择的 queries 被圈在黄色的地方,背景是决策面。queries 明显集中在已知的红色集群周围,在这些区域中分类器的预测和注释(如特性相关性或梯度信息)性能都较好。queries 完全忽略了模型在未知的红色集群上的糟糕表现,因此也被 XAL 的输出 narrative 所忽略。

AL(active learning)在存在未知数(unknown unknowns,UU)的情况下,也就是分类器会犯高置信度错误的区域,工作效果很差。这在类型偏移和观念漂移的情况下是很常见的,而当与高错误标记成本相关时,尤其具有挑战性。图 6(左)说明了这个问题,合成数据的设计是为了诱发未知的未知数 UU。将红色的样本分组为间隔均匀的集群,而蓝色的样本则均匀地分布在其他地方。主动 RBF SVM 经过 140 次不确定性采样迭代后选择的查询被圈在黄色的地方,背景是决策面。查询明显集中在已知的红色集群周围,该区域中分类器在预测和注释(如特性相关性或梯度信息)方面都已经表现良好。模型在未知的红色集群上的糟糕表现完全被查询所忽略,因此也被 XAL 的表述输出所忽略。AAAI/CVPR论文详解 | 万字长文了解可注释AI工具及技术的最新进展图 6. 左图:鉴于不确定性的 AL 查询已知红色聚类周围的点(黄色圈出)而忽略了未知的聚类;中图:XGL 发现了大多数的红色集群;右图:HINTER 从肝炎数据集中提取的条例样本(类型为活体、死体):医生只需花费很少的精力就能理解和(验证)这样的条例本文提出使用由人类发起的互动进修作为解决叙述性偏见(NB)的方式。该方式的出发点是:如果 supervisor 能看到并理解 h 的决策面,她就能识别已知和未知的错误—从而确定 predictor 是否行为不当—并明智地选择可以纠正这些错误的例子。当然,在实际应用的场景中 h 是非常复杂的,所以本文所讨论的问题是理想状态下的,真正的挑战是如何使其可行。本文提出了一种使用人类发起的互动进修作为应对表述性偏见的方式,即 XGL。如果一个有动力的、有知识的监督者能看到并理解 h 的决策面,她就能识别已知和未知的错误,从而确定预测者是否有错误行为,并智能地选择纠正这些错误的样本。当然,由于 h 的决策面可能非常复杂,这种策略纯属在理想状态下的措施。因此,应用这种策略的关键性挑战在于如何使其实用。作者提出通过利用全部注释以一种紧凑和可注释的方式概括 h 来解决这个问题。全部注释是一个可注释的 h 的替代品 g,通常是一个浅层决策树或一个条例集。这些模型能够分解成简单的原子元素,如简短的决策路径或简单的条例,从而可以独立描述和可视化,并与个别样本相关联。图 6(右)展示了一个样本模块。通常 g 是通过模型蒸馏得到的,即,通过使用一个全部注释器π将 h 投影到 G 上:

AAAI/CVPR论文详解 | 万字长文了解可注释AI工具及技术的最新进展

其中,P 是 ground-truth 分布,M 为损失函数,Ω用于衡量注释的复杂度,λ>0 控制忠实于 h 和简单性之间的权衡。期望值通常由一个经验性的蒙特卡洛估计所取代,该估计使用来自 P 的新的 i.i.d. 样本或使用任何可用的无标签样本。XGL 的伪代码如 Algorithm 1 所示。在每次迭代中,在当前训练集 S 上拟合一个分类器 h,并使用全部注释 g=π(h)举行概括。然后,将 g 提交给 supervisor。每条条例都被翻译成 visual artifact 或文字描述,并与它所涵盖的样本一起展示。按照条例对样本举行标注。然后要求 supervisor 提供一个或多个注释有误的样本,将这些样本添加到训练集 S 中。循环往复,直到 h 足够好或查询 budget 用完。

AAAI/CVPR论文详解 | 万字长文了解可注释AI工具及技术的最新进展

在实践中,supervisor 可以通过以下方式查找错误:扫描样本,每一个样本都与预测和条例一起显示,并指出一个或多个错误;搜索错误的条例,然后为其提供反例。第一种策略模仿的是引导式进修(guided learning,GL):在 GL 中,给定一个关于某些目标观念的文本描述和一个通过搜索引擎获得的样本列表,用户必须在列表中识别该观念的样本。不同的是,在 XGL 中,样本与相应的预测结果和注释一起呈现,这使得用户有可能识别实际的错误并理解模型。从这个角度讲,XGL 之于 GL,就像 XAL 之于 AL 一样:一种让无交互的东西变得不透明的方式。样本可以按条例分组,以便于对它们举行扫描。鉴于 GL 已经成功地部署在工业应用中,作者认为 XGL 也可以做到。第二种策略是针对有能力识别不良条例并识别或合成反例的专家。由于条例通常比样本少得多(在本文实验中,通常是 5-30 条条例 vs 数百或数千条样本),这种策略可能效率更高。通过对条例举行适当的规范化,可以促进条例的可注释性。XGL 的设计是为了抵御叙述性偏见(NB),同时使专家 supervisor 能够识别错误。作者强调,简单地将全部注释与机器启动的交互式进修结合起来,并不能达到同样的效果,因为 queries 的选择仍然会受到 UU 的影响。XGL 的另一个好处是,它原生支持在每次迭代中选择成批的实例,从而降低了 queries 成本。作者在本文中将讨论和实验限制在 one example-per-query 的情况下,以简化与竞争对手的比较。将选择例子的责任转移给人类 supervisor 也存在风险。全部性的注释可能是一个太粗略的总结,或者可能被 supervisor 误解。这一问题同样影响了 AL 和 XAL。所以,作者表示,应将 XGL 应用于不太可能出现这些问题或其影响可以忽略的环境中。XGL 的主要缺点无疑是全部注释的认知和计算成本。计算成本可以通过随着 h 的更新而递增地更新 g 来减少。认知成本可以通过以下几种方式改善:可以将全部注释限制在实例空间的那些区域中;根据需要调整全部注释的分辨率,例如可以先向 supervisor 提供粗略的条例 g,然后允许他完善 g,并 “放大” 那些看起来可疑的区域或子空间。不管怎么说,全部注释必然比局部注释或不注释要求更高。像其他互动协议一样,XGL 涉及一个 human-in-the-loop 的步骤,supervisor 必须参与进来并在其中投入时间和注意力。作者的论点是:在高估错误模型的代价很大的应用中,这种额外的努力是合理的。作者将本文鉴于条例的 XGL 的实现方式命名为 HINTER(Human-INiTiated Explanatory leaRning),并在几个 UCI 数据集上使用标准的二元分类器(SVM 和梯度提升树)与几个由人类和机器发起的替代方案举行了比较。作者在图 6 所示的合成数据集以及来自 UCI 存储库的几个分类数据集中举行了实验,实验结果见图 7。在大多数数据集中,HINTER 的预测结果与竞争对手的预测结果相同或更好。在特别难的合成数据上,性能差异相当明显,XGL 比竞争对手高出近 20% 的 F1 分数。作者分析这也是由于 UU 的原因。AL 和随机抽样只是很少查询红色类型的样本,这就是他们在图 7(左)中显示的进展缓慢的原因,而 GL 对少数类型过度抽样。在所有原始数据集和所有 “+uu” 变体中,XGL 的表现与所有竞争对手相似或更胜一筹。表现最差的是 german 数据集,无论选择何种基础分类器,XGL 在 F1 方面的表现都很差,但在表述性偏见(NB)方面仍然表现最好。综上所述,结果表明,在存在 UU 的情况下,XGL 倾向于进修更好的分类器,而如果 UU 的问题不大,XGL 的表现也是合理的。AAAI/CVPR论文详解 | 万字长文了解可注释AI工具及技术的最新进展图 7:在三个有代表性的数据集上,当查询次数增加时,所有竞争者的 F1 得分(上)和表述偏见(下,越低越好):合成任务(左),banknote(中)和 german(右)4 通过鉴于观念注释举行交互本节重点讨论鉴于观念注释的交互方式,包括鉴于观念的模型(Concept-based models,CBMs)和神经符号模型(Neuro-symbolic models), 这些模型注重模型注释的更高语义水平的优势。前述的局部或鉴于条例的方式难以访问模型内部、观念层面的原因,特别是对于黑箱模型而言。而鉴于观念注释的方式则试图从观念和语义的角度分析 AI 模型的工作机理。文献 [5] 为 tutorial 中提及的一篇文章,我们对其加以解读。Interactive Disentanglement: Learning Concepts by Interacting with their Prototype Representations  

AAAI/CVPR论文详解 | 万字长文了解可注释AI工具及技术的最新进展

本文最新发表在 CVPR 2022 中,主要研究目的是通过弱监督和人机互动在原型离散的潜伏空间上进修视觉观念。本文提出了交互式观念交换网络(interactive Concept Swapping Networks,iCSNs),这是一个通过弱监督和隐性原型表征来进修以观念为基础的表征的新框架[5]。这种以语义为基础的、离散的潜伏空间有利于人类理解和人机互动。由于观念进修的复杂性,同时受到心理学和认知科学领域中关于观念原型的研究结果的启发,作者研究了原型表征在进修人类可理解和可修订的观念表征方面对神经观念进修者的优势。为此,本文提出了 iCSN,它通过弱监督方式来进修隐含地将语义观念与原型表征结合起来。这种结合是通过离散的距离估计和配对数据样本之间的共享观念表征的交换来实现的。iCSN 允许查询和修订其进修的观念(如图 8),并整合关于未见过的观念的知识(如图 9)。

AAAI/CVPR论文详解 | 万字长文了解可注释AI工具及技术的最新进展

图 8. 一个经过训练的模型(左)询问人类用户(右),如果它从数据中提取的观念与用户的知识相吻合。随后,该模型可以接受来自用户的修改意见

AAAI/CVPR论文详解 | 万字长文了解可注释AI工具及技术的最新进展

图 9. 用于进修新观念的人机互动。用户查询一个对象,并在必要时引导机器的原型建议iCSN 的完整框架见图 10。

AAAI/CVPR论文详解 | 万字长文了解可注释AI工具及技术的最新进展

图 10.  交互式观念交换网络。iCSN 鉴于一个确定性的自动编码器结构,提供一个最初的 entangled latent encoding(1)read-out 编码器;(2)从潜伏空间中提取相关信息,并将其提取的观念编码与一组原型插槽举行比较;(3)通过一个加权的、鉴于 softmax 的点积;(4)生成一个离散代码,表明每一个观念编码的最相似的原型插槽。iCSNs 是通过简单的重建损失、通过匹配配对的弱监督和交互方式来训练的;(5)共享观念的潜伏观念表征,强制将语义信息与特定的原型表征结合起来鉴于原型的观念架构。给定输入 x_i,为了简单起见,下述表述中会从符号中删除样本索引 i,并用 x 表示整个图象。在本文框架中,x 也可以是图象子区域的潜伏表征。通过预处理步骤,例如通过分割算法或合成生成场景模型,可以隐式或显式地从图象中提取该子区域。此外,假设每一个 x 包含几个属性,例如颜色、形状和大小。将这些属性的实现称为基本观念,例如 “蓝色” 或“三角形”。将 “颜色” 称为一个范畴观念,或者在认知和心理科学领域中经常被称为上位观念(superordinate concept)。由此,每一个图象 x 都有 ground-truth 基本观念 c,J 表示上位观念的总数。作者做了一个必要的假设,即每一个上位观念 x 只能包含一个基本观念实现。为了简单起见,进一步假设每一个上位观念包含相同数量的基本观念 K,这些观念在实践中可能会有所不同。假设编码器 – 解码器结构,定义一个输入编码器 h(·),它接收图象 x 并将其编码为潜伏表征 h(x)=z。iCSN 没有像许多鉴于自动编码器的方式那样直接从 z 重建,而是首先将几个 read-out 编码器 Mj(·)应用于潜伏表征 z,从而生成 Mj(z)=φ_j。将编码φ_j 称为观念编码。每一个 read-out 编码器的目标是从纠缠的潜伏空间 z 中提取与上位观念(例如颜色)相对应的相关信息。我们将在下面讨论如何强制提取特定于观念的信息。iCSN 的一个核心组件是一组代码本,每一个代码本包含多个原型插槽(prototype slots)。将这个集合定义为Θ:=[p_1,…,p_j]。其中,p_j 表示代码本,每一个代码本包含一组有序的可训练、随机初始化的原型插槽。为了将每一个观念编码φ_j 分配给 p_j 的一个原型插槽,将相似度分数 S_dot(·,·)定义为其两个输入的点积上的 softmax。通过这种方式,得到观念编码φ_j 和特定原型插槽(p_j)^k 之间的相似度:

AAAI/CVPR论文详解 | 万字长文了解可注释AI工具及技术的最新进展

得到的相似度向量 s_j 包含类型 j 的每一个原型插槽的相似度得分,对应的观念编码为φ_j。为了进一步离散化和将观念绑定到各个原型插槽,引入第二个函数 Sτ(·),将加权 softmax 函数应用于相似度分数:

AAAI/CVPR论文详解 | 万字长文了解可注释AI工具及技术的最新进展

本文实验中,逐步降低τ以逐渐加强信息的绑定。在τ的极端情况下,∏j 类似于一个独热向量(在 j>1 的情况下,多标签独热向量),以表征观念编码φ_j 最类似于第 j 个类型的哪个原型插槽。最后,将每一个类型的加权相似性分数连接到一个向量中,以接收最终的原型距离码 y,并将其传递给解码器 g(·),以重建图象。观念交换和弱监督。在训练之前,即初始化之后,还没有语义知识绑定到原型插槽。然而,在收敛的 iCSN 中发现的语义知识是通过弱监督的训练过程和简单的交互技巧间接进修的。本文采用匹配配对方式,这是一种实用的弱监督训练过程,以克服无监督解纠缠的问题。在这种方式中,观察到一对图象 (x,x’),它们共享数据中潜伏变化因素的已知子集的值,例如颜色,而共享因素的总数可以在 1 到 J− 1 之间变化。通过这种方式,模型可以使用配对的附加信息来约束和指导其潜伏表征的进修。以前关于弱监督训练(特别是 VAEs)的工作恢复方式主要是在共享因子 ID 处应用 x 和 x’的编码器分布的乘积或平均值,而 iCSN 则是在成对表征之间使用一个简单的交换技巧。具体来说,当 v 是图象对(x,x’) 之间的共享因子 ID 时,相应的相似度分数 (∏_v, ∏’_v) 在最终对应的原型代码之间交换:

AAAI/CVPR论文详解 | 万字长文了解可注释AI工具及技术的最新进展

这种交换过程具有直观的语义,它迫使 iCSN 从第一幅图象中提取信息,用于表征第二幅图象的类型 v 的属性训练目标。iCSN 最终通过在大小为 N 的批次中每对图象的单像素重建损失举行训练:

AAAI/CVPR论文详解 | 万字长文了解可注释AI工具及技术的最新进展

该损失项与之前关于原型进修的几项工作形成对比,之前的这些工作会通过额外的一致性损失来加强语义绑定。iCSN 则通过将语义绑定隐式地包含到网络体系结构中,减少了引入额外超参数以及对多个目标举行更复杂的优化过程的需要。与 iCSNs 交互。iCSNs 的目标,尤其是与 VAEs 相比,不一定是进修底层数据分布的生成潜伏变量模型,也可以是进修人类可以理解和交互的原型观念表征。因此,自编码器结构是达到目的的一种手段,而不是必要条件。然而,iCSN 不是在收敛后丢弃解码器,而是可以呈现输入样本对每一个观念最接近的原型重建。因此,通过在测试时查询这些原型重建,人类用户可以确认预测的观念是否有意义,并可能检测到不想要的模型行为。通过定义测试时重构误差的阈值,iCSN 可以给出其在识别新样本中观念的确定性的启发式指示。由于存在离散且语义受限的潜伏代码 y,人类用户可以通过将 y 视为多标签独热编码与 iCSNs 交互。例如,逻辑陈述∀img. ⇒ ¬hasconcept(img, p 11 ) or ∀img. isin(img, imgset) ⇒ hasconcept(img, p 12 ),用户可以制定逻辑约束,分别读作“从未检测到原型 p 11 所代表的观念”“对于这组图象中的每一幅图象,你都应该检测到原型 p 12 所代表的观念。”。用户可以以交互方式管理一组表现不正确的图象。最后,iCSNs 的模块化特点还具有交互式在线进修能力。例如,当模型提供包含新观念的数据样本时,或当数据中存在的一个因素最初被认为不重要,但在初始进修阶段被认为很重要时,在这两种情况下,交互的方式取决于要进修的观念的层次结构,即它是基本观念还是上位观念。假设人类用户对 iCSN 之前的观念表示满意,并且 J(每一个代码本的原型槽总数)被设置为高估,用户可以简单地通过相关类型的一个未使用的原型插槽给出反馈以表示新的基本观念。如果需要进修一个新的上位观念,可以在初始训练阶段通过添加额外的 read-out 编码器来实现。与其他 read-out 编码器相比,该编码器不映射到原型插槽的空间。最终,可以训练 iCSN 的初始潜伏空间 z 来表征完整的数据分布。为了包含最初被认为不相关的观念,可以只扩展 J,这意味着添加一个新的 read-out 编码器 m_J+1(z)=φ_J+1 和代码本 P_J+1 到 iCSN。然后,m_J+1 进修将新的基本观念从 “新的” 上位观念绑定到 p_J+1,p_J+1 只需要新的数据对来举例说明以前不重要的观念。本文提出了一个新的基准数据集:基本观念推理(Elementary Concept Reasoning,ECR),如图 11。ECR 由恒定颜色背景上二维几何对象的 RGB 图象(64×64×3)组成。对象的形状(圆形、三角形、正方形和五边形)、大小(大小)和颜色(红色、绿色、蓝色、黄色)可以不同。为每种颜色添加均匀的抖动,从而产生不同的色调。每一个图象都包含一个固定在图象中心的对象。对图象举行配对处理,使单个图象中的对象至少共享 1 个、最多共享 J− 1 个共有属性。ECR 包含 5000 个图象对和 2000 个用于验证的图象的训练集。

AAAI/CVPR论文详解 | 万字长文了解可注释AI工具及技术的最新进展

图 11. 基本观念推理数据集样本。每张样本图象(左)描绘了一个居中的二维物体,具有三种不同的属性:颜色、形状和大小。对图象举行配对,使得这些物体共享一个和两个观念(右)在本文实验中,作者将 iCSN 与几个基线方式举行比较,包括无监督训练的β-VAE 和使用编码器分布的算术平均值的 Ada-VAE。为了与通过共享匹配配对训练的 iCSN 和 Ada-VAE 举行公平的比较,最初将 Ada-VAE 作为一种较弱的监督形式引入,作者也用已知的共享因子 ID 训练 Ada-VAE。这个基线本质上类似于β-VAE,在已知的共享因子 ID 处对图象举行编码器分布的平均化。这一方式在本文实验结果中表示为 VAE。最后,作者将 iCSN 与一个离散化的 VAE 方式举行比较,该方式通过 Gumbel-softmax 技巧使用分类分布(Cat-VAE)。Cat-VAE 的训练方式与 VAE 相同,即通过份额配对和编码器分布的平均化。作者通过线性探测研究每一个模型的潜伏编码。表 6(上)中的结果记录了不同模型在五次随机初始化过程中所举行验证集的平均精度和标准偏差。我们观察到,CSN 的潜伏编码具有近乎完美的预测性能,并且超过了所有变分方式。重要的是,CSN 的表现甚至超过了 VAE 方式(VAE 和 Cat VAE),后者与 CSN 在同样类型的弱监督下接受训练。β-VAE 的平均性能比弱监督模型差。然而,Ada-VAE 的表现比β-VAE 差。此外,Cat VAE 的离散潜伏表征也比 CSN 表现差。Cat VAE 运行情况表明性能存在较大偏差,同时表明多个 Cat VAE 运行收敛到次优状态。总之,尽管 ECR 数据集仅包含单个 2D 几何对象的变化,但基线模型的性能不如 CSN,即使使用相同数量的信息举行训练。

AAAI/CVPR论文详解 | 万字长文了解可注释AI工具及技术的最新进展

表 6. 通过决策树(DT)和逻辑回归(LR)举行线性探测。(上)对 iCSN 模型和各种基线的 latent codes 举行探测。(下)通过对 Cat-VAE 的 latent codes 举行探测,并举行编码器分布交换和 iCSN 观念编码平均化的消融研究。所有的分类准确率都是在测试集上计算出来的iCSN 的语义约束离散潜伏空间的一个优点是,人类用户可以直接识别次优观念表征,见上文所示的图 8。在识别正确或错误进修的观念后,用户可以在这个离散的观念空间上应用简单的逻辑反馈条例。具体来说,在通过弱监督举行训练后,建议机器和人类用户讨论所学的观念,并确定这些观念是否与用户的知识一致,或者是否需要修改。例如,iCSN 可以进修在几个原型插槽上表示颜色,或者通过一个插槽表示两个形状,这表明它错误地认为这些形状属于同一个观念。然后,iCSN 可以通过两种方式传达其学到的观念。首先,它可以根据推断出的离散原型距离代码对共享一个观念的新图象举行分组,并询问人类用户分组后的图象是否确实共享一个共同的基本观念,如图 8 所示。其次,利用解码器,它可以呈现每一个进修观念的原型重建,例如,呈现具有蓝色原型阴影的对象,参见上文所示的图 9。在确定了潜伏的次优观念表征之后,人类用户可以通过逻辑条例在 iCSNs 的离散化潜伏空间上举行交互,并进一步改进表征。对于之前所有的 vanilla CSN 配置,人工检查了 32 个可能的观念组合中的一个示例的观念编码 y,并确定了在每一个单独观念的大多数示例中 “激活” 的原型插槽(主插槽),此外,根据观念识别那些在示例子集(辅助插槽)中从未激活或很少激活的原型插槽。接下来,在 y 上应用 L2 损失,使用原始重建损失和该额外 L2 损失微调原始训练集上的先前运行结果。这种反馈的语义是,应该只由主要原型槽来表示观念。此外,在两次运行中,修改了一个观察到的次优解,即五边形和圆绑定到同一原型插槽。因此,在训练集的所有五边形样本上提供反馈,以绑定到另一个空的原型插槽,并再次通过额外的 L2 损失约束优化。5 小结我们在这篇文章中从可注释性工具的研发角度讨论了可注释 AI 问题,讨论的依据是 AAAI-2022 tutorial 中提及的最新研究成果。目前,国内外关于可注释 AI 真正落地的应用还比较少,主要集中在几个超大型公司,而学术界对这一问题的关注也远不如其它 AI 领域多。但是随着数字经济的重要性越来越高,平台企业的合规性发展成为了下一步 AI 算法 / 模型应用的关键。此外,从监管端来说,促进可注释 AI 的发展也是有效监管数字经济的重要抓手。最后,可注释 AI 也是我们广大用户应用 AI 模型的定心石。随着越来越多国内大型企业对可注释 AI 的重视度不断提升,相信可注释 AI 会很快在大量的应用场景中使用,可注释性工具的研发也会受到更多研究人员的关注。

本文参考引用的文献

[1] Bach S , Binder A , Montavon G , et al. On Pixel-Wise Explanations for Non-Linear Classifier Decisions by Layer-Wise Relevance Propagation, PLOS ONE, 2015, 10

[2] Tutorial on Explanations in Interactive Machine Learning,AAAI 2022,https://sites.google.com/view/aaai22-ximl-tutorial

[3] Lertvittayakumjorn et al., 2020, FIND: Human-in-the-Loop Debugging Deep Text Classifiers, EMNLP 2020

[4] Teodora Popordanoska, Mohit Kumar, Stefano Teso, Human-in-the-Loop Debugging Deep Text Classifiers,AAAI 2021

[5] Stammer, W. , et al. “Interactive Disentanglement: Learning Concepts by Interacting with their Prototype Representations.” CVPR 2022

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/24030

(0)
上一篇 2022年9月15日 下午2:41
下一篇 2022年9月16日 下午9:16

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注