模型听人讲几句就能学得更好?斯坦福提出用谈话表明辅助进修

谈话是人与人之间最自然的沟通方式,能帮助我们传递很多重要的信息。斯坦福大学人工智能实验室(SAIL)近日发表博客,介绍了其两篇 ACL 2020 论文。这两项研究立足于近段时间 BERT 等神经谈话模型的突破性成果,指出了一个颇具潜力的新方向:利用谈话表明来辅助进修 NLP 乃至计算机视觉范畴的使命。

想象一下:如果你是一位机械进修从业者并想要处理某个分类问题,比如将彩色方块群分类为 1 或 0。你通常会这样做:收集一个包含大量样本的数据集,标注数据,然后训练一个分类器。

模型听人讲几句就能学得更好?斯坦福提出用谈话表明辅助进修

但人类的进修方式却并非如此。对于这个世界,人类有一种非常强大且直观的信息沟通机制:谈话!

模型听人讲几句就能学得更好?斯坦福提出用谈话表明辅助进修

只需一个短语「at least 2 red squares(至少两个红方块)」,我们就能归纳上面的整个数据集,而且效率要高得多。

谈话是人类进修的一大关键媒介:我们利用谈话来传递关于这个世界的信念、教育他人以及描绘难以直接体验的事物。因此,对监督式机械进修模型而言,谈话理应是一种简单且有效的方法。但是,过去基于谈话的进修方法都难以扩展到现代深度进修系统致力于处理的一般使命,而这些范畴利用的谈话形式往往很自由。

今年斯坦福大学 AI 实验室(SAIL)的两篇 ACL 2020 论文在这一研究方向上取得了一些进展:针对自然谈话处理(NLP)和计算机视觉范畴的多种高难度使命,他们首先用谈话表明这些使命,然后利用深度神经网络模型来进修这些谈话表明,进而帮助处理这些使命。

ExpBERT: Representation Engineering with Natural Language Explanations

Shaping Visual Representations with Language for Few-shot Classification

难在哪里?

对人类而言,谈话是一种教授他人的直观媒介,但为何利用谈话来执行机械进修会这么难?

主要的难题也是最基本的问题:在其它输出的语境中理解谈话表明。光是构建能够理解丰富和模糊谈话的模型就已经很难了,而构建能将谈话与周围世界关联起来的模型还要更难。举个例子,给定表明「at least 2 red squares(至少两个红方块)」,模型不仅要理解什么是「red(红)」和「squares(方块)」,还要理解它们如何指代了输出的特定部分(通常很复杂)。

过去一些研究依靠语义剖析器来将自然谈话陈述(比如 at least 2 red squares)转换为形式化的逻辑表征(比如 Count(Square AND Red) > 2))。如果我们可以轻松地通过执行这些逻辑公式来检查表明是不是适用于输出,则可以将表明用作特色来训练模型。但是,语义剖析器仅对简单的范畴有效,因为简单我们才能人工设计可能见到谈话表明的逻辑语法。它们难以处理更丰富和更模糊的谈话,也难以扩展用于更复杂的输出,比如图象。

幸运的是,BERT 等现代深度神经谈话模型已经显现出处理多项谈话理解使命的潜力。因此,SAIL 在这两篇论文中提出利用神经谈话模型来缓解这些基本问题。这些神经谈话模型或以确定相关范畴内谈话表明为目标,或利用了可以解读谈话表明的通用型「知识」来进行预训练。下面将详细地介绍这些神经谈话模型,看它们如何能在更富挑战性的使命设置中进修更丰富且更多样化的谈话。

ExpBERT:利用自然谈话表明来设计和创建表征

模型听人讲几句就能学得更好?斯坦福提出用谈话表明辅助进修

论文地址:https://arxiv.org/abs/2005.01932

第一篇论文研究了如何利用谈话表明来构建文本分类器。首先来看一个关系提取使命:模型需要根据一小段文本鉴别其中提到的两个人是不是已经结婚。尽管当前最佳的 NLP 模型有可能仅基于数据来处理这一使命,但人类还能通过谈话描绘来暗示两人是不是已经结婚,比如度蜜月的人通常是已婚的。这样的谈话表明能用于训练更好的分类器吗?

模型听人讲几句就能学得更好?斯坦福提出用谈话表明辅助进修

对于谈话使命,我们可以提取输出 x 的特色(比如是不是出现了特定词)来训练模型,而表明还能提供额外的特色。仍以上述使命为例,我们知道「蜜月(honeymoon)」是相关的谈话描绘,如果我们能创建一个蜜月特色,并使其在段落描绘到两人将要度蜜月时激活,则这个信号应该可用于训练更好的模型。

但创建这样的特色需要某种表明解读机制(explanation interpretation mechanism),这样模型才能知道对输出的表明是不是为真。语义剖析器就是这样一种工具:给定「A 和 B 正在度蜜月」,我们可以将这个表明剖析成一种逻辑形式,即当分析一个输出时,如果在提到 A 和 B 时还提到了「蜜月」,则返回 1。但如果表明更模糊呢?比如「A 和 B 很恩爱」。我们如何剖析它?

模型听人讲几句就能学得更好?斯坦福提出用谈话表明辅助进修

尽管语义剖析在范畴较小时高效且准确,但扩展性能很差,因为它只能解读遵循固定语法规则集和预定义函数(比如 contains 和 extract_text)的表明。为了处理这些问题,SAIL 的研究者看中了神经谈话模型 BERT 的软推理能力。BERT 在文本蕴涵使命上尤其高效,即确定一个句子是不是暗含另一个句子或与另一个句子有矛盾。比如「她吃了披萨」暗含「她吃了食物」。

SAIL 提出的 ExpBERT 模型利用了针对文本蕴涵使命训练的 BERT 模型,但研究者为其设定的训练目标是鉴别使命段落里是不是蕴涵一个表明。BERT 在这一过程中输出的特色可替代上述语义剖析器提供的指示特色。

模型听人讲几句就能学得更好?斯坦福提出用谈话表明辅助进修

BERT 的这种软推理能力能否提升语义剖析效果?在上面的婚姻鉴别使命中,研究者发现相较于仅利用输出特色(无表明)训练得到的分类器,ExpBERT 能带来显著提升。其中重要的一点是:利用语义剖析器来剖析表明的作用不大,因为一般性的表明(恩爱)难以转换为逻辑形式。

模型听人讲几句就能学得更好?斯坦福提出用谈话表明辅助进修

论文还比较了更多基准方法,探索了更大的关系提取使命(如 TACRED),执行了控制变量研究,研究了利用表明相比于添加数据的高效性。此处不再赘述。

利用谈话为少次分类使命塑造视觉表征

模型听人讲几句就能学得更好?斯坦福提出用谈话表明辅助进修

论文地址:https://arxiv.org/abs/1911.02683

上文描绘的研究利用自然谈话表明来帮助处理单个使命,比如鉴别婚姻状况。但是,认知科学范畴的研究表明:谈话还能让我们获取正确的特色和抽象概念,进而帮助我们处理未来的使命。例如,能说明 A 和 B 已婚的谈话表明还能说明其它一些对人类关系而言非常重要的概念:孩子、女儿、蜜月等等。知道这些额外概念不仅有助于鉴别已婚夫妇,还有助于帮助鉴别其它关系,比如兄弟姐妹、父母等。

在机械进修中,我们可能会问:如果我们最终希望处理的新使命没有提供谈话说明,谈话如何为高难度且未指明的范畴提供恰当的特色?SAIL 的第二篇论文便探索了这一使命设置,这个使命的难度更大:谈话能否提升跨模态(这里是视觉)的表征进修?

具体来说,该研究重点关注的是少次视觉推理使命,比如下面这个来自 ShapeWorld 数据集的例子:

模型听人讲几句就能学得更好?斯坦福提出用谈话表明辅助进修

针对一个视觉概念给定一个小型训练样本集,使命目标是确定留出集的尝试图象是不是表达了同样的概念。现在,如果假设能在训练时间获得相关视觉概念的谈话表明,又会如何呢?我们能否利用它们来进修一个更好的模型,即便在尝试时没有谈话可用?

SAIL 的研究者将该使命放到了一个元进修使命框架中:他们没有在单个使命上训练和尝试模型,而是选择了在一组使命上训练模型,其中每个使命都有一个小型训练集和配套的谈话描绘(元训练集 / meta-train set)。然后,他们在一组未见过使命组成的元尝试集(meta-test set)上尝试模型的泛化能力,并且该尝试集没有可用的谈话描绘。

模型听人讲几句就能学得更好?斯坦福提出用谈话表明辅助进修

首先,如果没有谈话描绘,我们会如何处理这一使命?一种典型的方法是原型网络(Prototype Network),其策略是进修某个能对训练图象执行嵌入、求平均并将其与尝试图象的嵌入进行对比的模型 f_θ(在这里是一个深度卷积神经网络):

模型听人讲几句就能学得更好?斯坦福提出用谈话表明辅助进修

在此基础上,为了利用谈话,SAIL 提出一种名为谈话塑造型进修(Language Shaped Learning/LSL)的方法:如果能在训练时利用谈话表明,则可以促使模型进修不仅对分类有用的表征,而且该表征还能用于预测谈话表明。SAIL 采用的具体方案是引入一个辅助训练目标(即与最终的目标使命无关),同时训练一个循环神经网络(RNN)解码器来预测对输出图象表征的谈话表明。有一点至关重要,即这个解码器的训练过程取决于图象模型 f_θ 的参数,因此该过程应该能促使 f_θ 更好地编码谈话中显现的特色和抽象。

从效果上看,可以说这是训练模型在训练期间表征概念时「把想法大声说出来」。在尝试阶段,则可以直接抛弃 RNN 解码器,利用这个「经过谈话塑造的」图象嵌入按常规方式执行分类即可。

研究者利用真实图象和人类谈话,在上述 ShapeWorld 数据集以及更真实的 Birds 数据集上进行了尝试:

模型听人讲几句就能学得更好?斯坦福提出用谈话表明辅助进修

在这两种情况下,相对于无谈话表明的基准模型(Meta)、利用隐含谈话的进修(L3)方法,这个辅助训练目标实现了性能提升:

模型听人讲几句就能学得更好?斯坦福提出用谈话表明辅助进修

此外,该论文还研究了谈话的哪些部分最重要(其实差不多都挺重要),以及 LSL 需要多少谈话才能取得优于无谈话模型的表现(其实只需一点点)。详情请参阅原论文。

展望未来

正如 NLP 系统理解和生成谈话的能力在日益增长一样,机械进修系统基于谈话进修处理其它高难度使命的潜力也在增长。SAIL 的这两篇论文表明,在视觉与 NLP 范畴的多种不同类型使命上,通过进修谈话表明,深度神经谈话模型可成功提升泛化能力。

研究者指出,这是训练机械进修模型方面一个激动人心的新途径,而且强化进修等范畴已经对一些类似的想法进行了探索。在他们的设想中,未来在处理机械进修使命时,我们无需再收集大量有标注数据集,而是可以通过人与人之间利用了成千上万年的互动方式——「谈话」来与模型进行自然且富有表达力的交互。

原文链接:https://ai.stanford.edu/blog/learning-from-language/

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/mo-xing-ting-ren-jiang-ji-ju-jiu-neng-xue-de-geng-hao-si/

(0)
上一篇 2020年 12月 1日 上午11:03
下一篇 2020年 12月 3日 上午9:57

相关推荐

  • 陈怡然、刘学等多位华人学者当选,ACM SIG新任主席名单出炉

    近日,ACM SIG 新一届选举结果出炉,多位华人学者当选SIG主席。

    2021年 6月 16日
  • ASC22天下超算大赛启动会举行,华夏科学技术大学成为大赛东道主

    ASC22总决赛将于今年5月7日-11日在位于合肥的华夏科学技术大学举行。

    2022年 1月 21日
  • 2021年的第一盆冷水:有人说别太把图神经网络当回事儿

    图神经网络(GNN)是目前热门的研究方向,但我们是否应把注意力过多地放在这上面?数据科学家 Matt Ranger 从模型的本质、性能基准测试、实践应用等方面陈述了自己的观点。

    2021年 1月 5日
  • 逼近量化训练?块重修技术打造离线量化新极限

    模型量化技术可以有效加速推理,已经成为人工智能芯片的标配,并在工业落地中广泛应用。离线量化(Post-Training Quantization)不需要耦合训练流程,利用成本和时间成本低,往往作为生产量化模型的首选方式,但其可调整空间有限,因此面临更大的准确度挑战,尤其是在一些特殊场景和极端要求下,不得不进一步引入更为复杂的在线量化(Quantization Aware Training)流程挽救,而这极大增加了量化模型生产的复杂度。如何在享受离线量化便捷高效的同时,在有限的调整“夹缝”中提升其成果上限,成为进一步打破技术红线的关键。在ICLR2021上,商汤科技研究院Spring工具链团队、高性能计算团队和成都电子科技大学顾实老师团队合作提出了块重修技术BRECQ,重新审视量化模型的优化粒度,首次将离线量化在4bit上的成果提升到在线量化的水平,相比在线量化可以节省大于200倍的生产时间,BRECQ在多种搜集和任务上普遍取得了业界最佳成果,打造了离线量化的新极限。

    2021年 3月 26日
  • 人工智能向“上”生长,可托AI渐行渐近

    一位刚刚上路的新手驾驭员,如何成长为「老司机」?显然,Ta必须经过足够时间和里程的驾驭练习,才不妨熟练、从容地应对各种可能出现的路况和紧急事件。所以尽管主动驾驭系统也会在投入使用之前历经大量的真实道路测试,但就算是科学文明相当普及的今天,仍有很多人依旧做不到将开车这件事「放心地交给AI」,毕竟摆在人们眼前的却是道不尽的争议和说不明的驾驭事变,而事变的发生可能是手艺,算法,道路,数据,传输,天气,驾驭员等多重主客观因素影响造成的,权责划分十分困难。具体从算法层面看,由于驾驭场景天然对危险性有更高要求,这就需要主动驾驭

    2021年 12月 24日
  • 王怀民院士:图灵较量争论模型仍是最深刻的理论基础,是新科学基础的基点

    下文为国防科大王怀民院士在第 24 届全国高校较量争论机学科系主任 / 院长论坛上的主旨报告《人机物交融智能化时期,较量争论机学科专业革新人才培养》。机器之心做了不改变原意的整理。

    在较量争论无处不在的当下,较量争论机学科专业却大有泯然众生之态。新时期的较量争论机学科专业革新人才该如何培养?

    王怀民院士以 120 年的时间跨度回顾较量争论机学科专业的发源和成长历程,不同的历史阶段有着不同的成长模式,在时期的激流中什么改变了,什么是不变的?较量争论机科学和技巧的成长具有国家战略意义,在人机物交融的新时期,如何理解从而实现科技革新?

    2022年 2月 8日
  • 提升编码水平,这本Python软件工程开源册本为研讨职员量身打造

    在科研领域,计算机软件的应用无处不在。但是,一些研讨者因为自身并非毕业于计算机相关学科,所以有时不得不将大量的时间花费在自学软件工程上。对于有些想要提升自身编码与软件开发水平的研讨者来说,合适的学习资料至关重要。本文介绍的这本开源册本就是为这类研讨者「量身打造」的。

    2021年 2月 5日
  • DeepMind联合UCL,推出2021加强进修最新课程

    DeepMind 的研讨科学家和工程师亲身讲授了一套加强进修课程,目前已全部上线。DeepMind 作为全球顶级 AI 研讨机构,自 2010 年创建以来已有多项世界瞩目的研讨成果,例如击败世界顶级围棋玩家的 AlphaGo 和今年高效展望的蛋白质结构的 AlphaFold。近几年,DeepMind 联合伦敦大学学院(UCL)推出了一些人工智能线上课程,今年他们联合推出的「2021 加强进修系列课程」现已全部上线。该课程由 DeepMind 的研讨科学家和工程师亲身讲授,旨在为学生提供对现代加强进修的全面介绍。课程

    2021年 9月 16日
  • Nature子刊:科学家在类脑芯片上实现类似LSTM的功能,能效高1000倍

    格拉茨技术大学的计算机科学家在 Nature 子刊上发表的一篇论文表明,他们找到了一种在神经形状芯片上放荡 LSTM 的方案,可以让类脑神经形状芯片上的 AI 算法能效提高约 1000 倍。随着智能手机的普及,手机游戏也越来越受欢迎。但视频游戏等程序会大量耗电耗能。与 GPU 等标准硬件相比,基于 spike 的神经形状芯片有望实现更节能的深度神经收集(DNN)。但这需要我们理解如何在基于 event 的稀疏触发机制(sparse firing regime)中放荡 DNN,否则神经形状芯片的节能优势就会丧失。比如

    2022年 5月 21日
  • 来一场冬日技巧狂欢!WAVE SUMMIT+2020深度进修开发者峰会报名启动

    说到 798,大家都不陌生。就在下个周日, 12 月 20 日,在北京 798 艺术园区 751 罐,将要举行一场「别开生面」的 AI 开发者活动。

    2020年 12月 11日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注