Creator 面对面 | 自监视进修范式未来可能在加强进修中发挥关键的作用

我们都知道自监视进修在 CV 和 NLP 领域都有比较广泛的应用,比如大模型 BERT、GPT-3 等训练,其实最焦点的技术就是鉴于自监视进修的技术。

那么在 CV 和 NLP 领域都取得成功的自监视进修,是否可以被借鉴或是利用到加强进修领域呢?

2022 年 1 月,华为诺亚方舟决策推理实验室主任郝建业在做客机器之心「2021-2022 年度 AI 技术趋势洞察」直播间时,为我们带来了技术分享「自监视加强进修」(Self- supervised Reinforcement Learning)。

图片

本文整理了会议中的一些精选内容,完整回放视频可点击「阅读原文」查看。

郝传授首先先容了「什么是自监视进修?」。

图片

如图中的鸟,把这张图片做一个分歧角度的翻转得到一些分歧角度的翻转的图片。那么给定两张图片,我们就可以预测或分类这张图片跟原始图片的一个相对角度,通过这类办法就可以构造大量的具有标签的样本。

紧接着,他还先容了自监视进修在 NLP 义务中的应用 ,并表示例如 BERT、GPT-2,GPT-3 等大模型,自监视也是非常关键和最焦点的一类技术。

图片

郝传授表示,现在在自监视进修中,最 SOTA 的一类办法是鉴于对比进修(Contrastive Learning)的办法。他还对此办法的焦点思想做了先容。

图片

在 CV 和 NLP 领域取得重大成功的自监视进修,我们可以以何种办法引入到加强进修呢?

加强进修有五个焦点要素,那么意味着我们可以从这焦点的5个要素入手去构建加强进修下的自监视表征进修能力。

图片

郝传授随后对其中的四个方面(States、Policies、Actions、Tasks/Environments)着重进行了讲解。

自监视情态表征加强进修

图片

RL 中做自监视的目的与 CV/NLP 类似,对于情态而言,我们希望进修到一个比较好的情态表征,从而帮助去做下游的一些义务;对于加强进修而言,则主要是包括规划和控制的义务。

现在通常有两大在情态维度做自监视进修的办法,一个是借鉴 CV 领域的 Contrastive-based 的办法,另一个是借鉴加强进修里的固有的特性这类称为 Bisimulation-based metrics 的办法。

Contrastive-based 的情态表征进修

图片

Bisimulation-based 的情态表征进修

图片

自监视方略表征加强进修

图片

郝传授以经典的加强进修算法 DQN 为例先容了什么是鉴于方略的表征进修,然后先容了加强进修做方略迭代的过程以及鉴于方略表征的加强进修架构。

加强进修中方略迭代的过程

图片

标准的加强进修做法其实是没有方略表征这一部分的。下图则是一个全体的鉴于方略表征的的加强进修架构。我们希望可以把方略表征引入到整个的 value function 中去。

图片

随后郝传授先容了一项今年在 AAAI 的工作,该工作是上述的具体实现。

图片

这类办法利用了神经网络的天然的泛化性,帮助我们极大的提拔整个方略进修或是方略更新的样本的利用率。

图片

结果表明,使用了这类分歧的方略表征之后,它可以极大的提拔分歧义务下全体的加强进修最终收敛得到的收益表现。

自监视动作表征加强进修

图片

郝传授首先先容了鉴于动作的表征进修的原理,并以他们今年在 ICLR 发表的工作为例阐述这类办法的实验效果。

图片

自监视义务/环境表征加强进修

图片

如何可能有一种好的自监视的办法去抽取跟义务相关的信息,以及在新的环境下如何能做一个高效探索,从而能快速的获得可能反映当前环境本质的一些信息?

郝传授又以去年在 AAAI 上的一项工作为例做了详细的说明。

图片

在分享的最后,郝传授总结到,自监视进修的这类范式在未来可能在加强学中发挥出非常关键的作用,它可能充当建立从所谓的感知到规控决策的桥梁。通过将自监视进修分别与 5 个维度融合及改进,从而从分歧的维度来去提拔全体加强进修的效率。

他还提到,由于自监视加强进修受关注的时间不长,现在还有很多的问题没有得到解决,希望大家共同努力,推动其发展。比如,现在是分别在分歧维度来做,那么是否可以形成一个统一的新范式,可能把分歧维度的自监视进修办法进行有机整合来从全体上提拔加强进修的效率。另外如何将 policy 和 environment 表征做到天然的解耦,也是现在需要重点关注的一个问题。

图片

原创文章,作者:SOTA模型,如若转载,请注明出处:https://www.iaiol.com/news/creator-mian-dui-mian-zi-jian-shi-jin-xiu-fan-shi-wei-lai/

(0)
上一篇 2022年 7月 25日 下午5:41
下一篇 2022年 7月 26日 下午3:45

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注