鉴于逻辑的可诠释方案在蚂蚁危险风控的应用

上一期给大家分享了鉴于特征、模型的可诠释方案在蚂蚁危险风控的应用。本篇想和大家探讨一下在AI可诠释上一些更前沿的探索,我们称之为“鉴于逻辑的AI可诠释”。实际上,目前的AI能力直接去“进修”人的逻辑,

上一期给大家分享了鉴于特征、模型的可诠释方案在蚂蚁危险风控的应用。本篇想和大家探讨一下在AI可诠释上一些更前沿的探索,我们称之为“鉴于逻辑的AI可诠释”。实际上,目前的AI能力直接去“进修”人的逻辑,是异常困难的,因此我们的要领更多是尝试如何在建模型过程中融入人为经验,从而使得模型的产出与大师判断更吻合。我们将联合具体业务场景来分享,蚂蚁集团是如何试图联合大师逻辑做呆板进修的。

大师点评:

王骞  武汉大学教授 武汉大学国家网络危险学院副院长

AI可诠释性可能帮助人类理解AI系统的行为并构建可信AI,已在人为智能规模掀起了又一热潮。蚂蚁集团在AI可诠释性的前沿规模不断探索,从人为和机械相互扶持、协同优化的角度出发,把大师经验融入建模过程,使得模型输出与人类逻辑相符,实现人机联合。相关要领已应用于抗辩分析、类案检索等危险风控场景中,其开发的端到端的Data2Text框架有效地提升了AI系统的可诠释性,保障了人为智能系统的危险,也助力了AI可诠释性的发展。

01 抗辩分析

审理定性是危险规模一个典型而重要的场景。在接到受害人的举报之后,我们需要有效地定性这确实是涉及狡诈行为,抑或是普通交易纠纷、乃至恶意举报。我们希望AI可能像法院判案一样,不仅可能充分分析举报人历史行为以及投诉内容和凭证,还可能依据法律条款,列出清晰的逻辑链条,进而给出定性结果,实现一套与司法体系一致的、可诠释的审理定性模型方案。

所以,我们在这个基础上做了一个叫做抗辩分析的工作,开发了用于狡诈审理的BAN模型(Belief-based Argumentation Network)。大师法条在模型中就形成了底层的逻辑图谱,从特征到相应的凭证点,它实际上是一个概率分布,如果满足这个行为,就以一定概率成立某一条凭证,有了完整的凭证链之后就可能判断狡诈是否成立。因此鉴于整体样本,我们要进修的就是每一条边上面的权重,这就转化成一个优化问题,比如可以用粒子群算法来计算,也有更多别的要领可以选择。

我们把BAN看作一个“人机联合”的要领,相当于把先验的大师知识、经验或者法律法条纳入到这个模型里来了,最终的结果落在这个法条框架内,当然具有更好的可诠释性。

鉴于逻辑的可诠释方案在蚂蚁危险风控的应用

02 类案检索

抗辩分析是从法条出发的,对应在法律里面类似于大陆法。同样是对狡诈审理定性的问题,那另一个思路就是,可不可以有海洋法,从判例出发来做可诠释。比如需要判别A的诈骗罪是否成立,当审理运营需要具有诠释性的依据的时候,可能会看是不是有跟它异常相似的一些案件。如果这些类案可能推送给相应的审理人员,做一个快速的比对,就可以让人更有信心和可能更快速地来完成定性。这个像判例法或者海洋法里面的做法,我们把它叫做鉴于类案检索的可诠释。而这一块主要的技术就是多模态的匹配,或者多模态的可诠释。因为在说A案件和B案件类似的时候,它就不只是结构化交易数据的相似,很多时候他们提供的凭证是一些小程序或者聊天记录的截图,用户在投诉过程中的语音文本信息等等。这些综合起来之后,才能更好地判断A和B是否是否相似,是否构成类案。

鉴于逻辑的可诠释方案在蚂蚁危险风控的应用

03 端到端的可诠释:Data2Text

最后,让我们更进一步——我们有没有可能把各种所有的数据给到呆板,最终呆板除了完成分类或预测任务,还能直接把判断的理由写一篇小作文予以陈述说明?有意思的是,这项技术在危险规模也是有明确的业务场景的。按反洗钱监管的要求,义务机构要监控和发现可疑的交易和账户,并最终形成逻辑紧密、论证充足、简洁易懂的规范性报文来上报。这基本是全球监管对金融机构都有的标准要求,国内监管要求中文的报文,国际上大部分要求英文的报文。

 这块我们之前也做了一些调研。首先这可以看作一个文本天生(NLG),而且是长文本天生的任务。长文本天生在整个学界、业界都算异常困难的问题。我们会看到一些已有的实践,比如说会根据一场球赛的经过去天生新闻、或者根据数据天生天气预报的文字等等,而我们的场景对文本天生的要求更高,第一是文本更长,三四百字,第二是因为呈现给监管的材料,对准确率和细节的要求都异常的高。

 但我们也有场景上的优势:首先,我们有相对来说较大量的训练文本,历史上的所有上报的人为撰写的报文都可以成为我们的训练语料;第二,这个工作本身的规范性是异常好的,我们如果用模板去拼接的话,可能覆盖约70%的人为任务。但是,这个模板的维护成本会异常高,当我们有新的问题,新的风险态势就意味着这个模板会越写越大,维护成本会异常的高,不scalable。

 我们最开始尝试了一下像seq2seq的要领来做,效果并不好,因为这个规模必须要联合大师经验才有可能天生有意义、有价值的文本。所以最终我们开发了一个联合大师经验和神经网络的Data2Text的框架。具体包含了三个层面的“人机联合”:第一、是把大师的话术和相应的逻辑,以一个知识图谱的形式落下来,然后再把这些逻辑以metapath的形式加入到encoder中,所以对天生进修有比较好的帮助;第二,我们用人为话术构建话术库,用generation+retrieval的架构,通过retrieval的机制可能直接从话术库里得到更多信息;第三,是对整个的loss做了一些优化,除了文本进修的loss,把人为打标结果也加入loss中。鉴于这样的优化,形成这样一个适合我们场景的Data2text框架,我们可以通过呆板对大部分常见的风险类型天生准确性高、可读性强的报文草稿,供审理人员参考利用,既节省了人为撰文的时间、也提升了风险识别的效能,极大地提升了风险运营的效率。

鉴于逻辑的可诠释方案在蚂蚁危险风控的应用

我们把这个data2text也做成了组件。比较有意思的是,蚂蚁危险实验室有一个叫做AlphaBand的乐团,希望未来可能用AI作词、AI作曲、给定主题可能写歌。我们用同学的周报来作为一个训练语料,然后来写出一个歌词,还是挺有意思的一个尝试,很有趣。

鉴于逻辑的可诠释方案在蚂蚁危险风控的应用

04 总结和展望

 目前,我们的AI可诠释性项目,得到了一些权威机构的认可:在国家金融科技中心,蚂蚁集团是首批完成相关评测的企业之一,在包括危险性、精准性、公平性和可诠释性都得到了“高性能”、“高标准”的评价。蚂蚁集团也是首批完成中国信通院“决策透明度”相应评测的企业,在首批参加的行业公司里面,得到了唯一的4分(“卓越级”)。

鉴于逻辑的可诠释方案在蚂蚁危险风控的应用

最后,我想再谈一下我对可诠释进修的理解。我特别喜欢中国工程院副院长陈左宁院士说过的一段话,他提到可诠释技术现在主要是两个要领。第一个是可诠释接口,就是事后可诠释的能力。我们之前提到的很多要领,比如对于序列模型、对于图模型、对于树模型诠释可能属于这一类。第二就是怎么样做好“人机联合”。在决策理论驱动的explainable AI概念框架,我们常用的或者在开发中实现的一些要领,最后汇总成了这样的一张图。可以看成是从两个方向上逼近最终目标。

从人理解模型的角度,我们会从最基本的从梯度、内部逻辑的要领逐渐向鉴于扰动的、鉴于更复杂模型结构的识别和提取;从让模型理解人的方面,我们从最底层的,比如可诠释的特征天生、到鉴于检索,到可诠释的表征,然后到更复杂的比如鉴于逻辑图谱、抗辩分析等等这样的要领。最终我们希望人为和呆板可能成功实现一个双向的反馈,可交互、可视化,从而看到可诠释进修对模型效果、性能、透明性等方面整体性的提升。这个框架既是我们已有工作的一些总结,更是我们对未来的期待和展望。

鉴于逻辑的可诠释方案在蚂蚁危险风控的应用

可诠释性作为可信AI的一部分,目前我们还只是做了一些起步的工作,探索了一些与危险业务紧密联合的方向。在新的一年,我们也将联合风控智能化的大方向,在复杂图模型、无监督/半监督的异常检测、多模态可诠释等方向持续打磨能力。未来也希望在这个规模和大家做更多的交流。

鉴于逻辑的可诠释方案在蚂蚁危险风控的应用

原创文章,作者:新闻助手,如若转载,请注明出处:https://www.iaiol.com/news/24358

(0)
上一篇 2022年4月25日 下午4:25
下一篇 2022年4月26日 下午7:54

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注