Yann LeCun:大模型方向错了,智力无法接近人类

你训练大模型用的是说话,还想获得 AGI?那肯定是永远也不行的。

「说话只承载了一起人类常识的一小部分;大部分人类常识、一起动物常识都是非说话的;因此,大说话模型是无法接近人类水平智能的,」这是图灵奖得主 Yann LeCun 对于人工智能前景的最新思考。

Yann LeCun:大模型方向错了,智力无法接近人类昨天,他与纽约大学博士后 Jacob Browning 合著的新文章发表在《NOEMA》上,引发了人们的讨论。在文章中,作者讨论了当前流行的大规模说话模型,认为其存在明显的极限。未来 AI 领域努力的方向或许应该是让机械优先懂得真实世界其他层面意义上的常识。让我们看看他们是怎么说的。前段时间,前谷歌 AI 伦理研究员 Blake Lemoine 声称 AI 聊天机械人 LaMDA 像人一样具有意识,这在领域内掀起了轩然大波。LaMDA 实际上是一种大型说话模型 (LLM),旨在展望任何给定文本下一个可能的词。由于许多对话在某种程度上是可展望的,因此这些零碎可以推断出如何使对话保持高效。LaMDA 在这类任务上做得非常出色,以至于 Blake Lemoine 开始怀疑 AI 是否存在「意识」。领域内的研究者对于这件事持有不同的看法:一些人对机械有意识的想法嗤之以鼻;一些人认为 LaMDA 模型或许没有,但下一个模型可能有意识。还有一些人指出机械「欺骗」人类这件事并不难。人们反应的多样性凸显了一个更深层次的问题:随着 LLM 变得越来越普遍和强大,我们对这些模型的看法似乎越来越难达成一致。多年来,这些零碎已经超越了许多「常识」说话推理基准,但这些零碎在测试时似乎很少有承诺的常识,甚至容易出现胡说八道、提出不合逻辑、危险的建议。这就引出了一个令人不安的问题:这些零碎怎么会如此智能,威力却又如此有限?实际上,最根本的问题并不在于人工智能,而是在于说话的有限性。一旦我们放弃了关于意识和说话之间联系的假设,这些零碎就注定只能有关于世界的浅薄懂得,永远无法接近人类的「全面思维」。简而言之,尽管这些模型已经是地球上最令人印象深刻的人工智能零碎,但这些 AI 零碎永远不会像我们人类一样智能。在 19 世纪和 20 世纪的大部分时间里,哲学和科学领域的一个主要主题是:常识仅仅是说话。这意味着懂得一件事只需懂得一句话的实质,并将这句话与其他句子关联起来。按照这类逻辑,理想的说话形式将是由严格的推理规则连接的任意符号组成的逻辑数学的形式。哲学家 Wittgenstein 说过:「真命题的总和是自然科学。」这一立场是在 20 世纪确立的,后来引起了很多争议。一些受过高等教育的常识分子仍然持有看法:「我们所能知道的一切都可以包含在百科全书中,因此只要阅读百科全书的一起实质就能让我们对一起事物都有全面的了解。」这类看法还激发了 Symbolic AI 的许多早期工作,其中将符号处理作为默认范式。对于这些研究人员来说,人工智能常识由大量真实句子的数据库组成,这些真实的句子通过手工逻辑相互连接,人工智能零碎的目标就是在错误的时间输出错误的句子,即以适当的方式处理符号。这个概念是图灵测试的基础:如果一台机械「说」出了它应该说的一切,这意味着它知道它在说什么,因为知道错误的句子以及何时使用它们会用到上述人工智能常识。但这类看法遭到了严厉的批评,反驳的看法认为:机械可以评论辩论事情,并不意味着它懂得正在评论辩论的实质。这是因为说话只是一种高度具体且非常有限的常识表征。一起说话,无论是编程说话、符号逻辑说话还是日常口语——都开启了特定类型的表征形式;它擅长以极高的抽象水平表达离散的对象和属性以及它们之间的关系。然而,一起的表征形式都涉及对事物信息的压缩,但压缩中留下和遗漏的实质各不相同。说话的表征形式可能会遗漏一些具体的信息作,例如描述不规则的形状、物体的运动、复杂机制的功能或绘画上细致入微的笔触等等。而一些非说话的表征方案可以以一种易于懂得的方式表达这些信息,包括标志性常识、分布式常识等。说话的限制要了解说话表征形式的缺陷,首先要认识到说话传递的信息有多少。事实上,说话是一种传输信息的带宽非常低的方法,特别是在没有上下文的情况下,孤立的单词或句子传达的信息很少。此外,由于同音词和代词的数量众多,许多句子的含义都非常模棱两可。正如乔姆斯基等研究者所指出的:说话并不是清晰明确的交流工具。但是人类不需要完美的交流工具,因为我们共享对非说话的懂得体系。我们对句子的懂得通常取决于对句子所在语境的深入懂得,从而使我们能够推断出说话表达的含义。我们经常直接评论辩论眼前的事情,比如足球比赛。或者在某种情况下面向社会角色进行交流,比如从服务员那里点菜。阅读文本段落也是如此——这类任务破坏了人工智能获得常识的渠道,却是一种向儿童教授无上下文阅读懂得技艺的流行方法。这类方法侧重于使用通用阅读懂得策略来懂得文本——但研究表明,儿童对主题的背景常识量实际上是懂得的关键因素。懂得一个句子或段落错误与否取决于对主题实质的基本控制。「很明显,这些零碎深陷于浅薄的懂得,永远不会接近人类一起的全面思维。」单词和句子固有的上下文性质是 LLM 工作的核心。神经网络通常将常识表示为专有技术,即控制对上下文高度敏感的形式,并总结规律(具体和抽象)的熟练威力,这些规律对于以精细方式处理输入是必要的,但只适合有限的任务。在 LLM 中,这有关零碎在现有文本的多个层次上识别形式,既看到单词在段落中的联系,也要看到句子是如何在构成它们的大段落中是如何连接在一起的。结果是模型对说话的控制不可避免地是上下文相关的。每个单词的懂得不是根据其字典含义,而是根据它在各种句子中的作用来懂得。由于许多单词——比如「化油器」、「菜单」、「调试」或「电子」——几乎只用于特定领域,即使是带有其中一个词的孤立句子也会在展望上带出上下文。简而言之,LLM 训练后可以了解每个句子的背景常识,查看周围的单词和句子来拼凑正在发生的事情。这使得他们可以无限可能地使用不同的句子或短语作为输入,并提出合理(尽管很难没有缺陷)的方式来继续对话或填写文章的其余部分。一个根据人类书写的段落训练,用作日常交流的零碎,应该拥有能够高质量对话所必需的一般懂得威力。浅薄的懂得有些人不愿在这类情况下使用「懂得」一词或称 LLM 为「智能」,目前还不能说语义懂得说服了任何人。批评者指责这些零碎在进行某种模仿——这是错误的。这是因为 LLM 对说话的懂得虽然令人印象深刻,但却很浅薄。这类浅薄的认识似曾相识:教室里到处都是「说行话」的学生,他们不知道自己在说什么——实际上是在模仿他们的教授或他们正在阅读的课文。这只是生活的一部分。我们常常不清楚我们知道些什么,尤其是在从说话中获得的常识方面。LLM 对一起事物都获得了这类浅薄的懂得。像 GPT-3 这样的零碎是通过屏蔽句子一部分,或展望段落中下一个单词来进行训练的,这样迫使机械猜测最有可能填补空白的单词,并纠正错误的猜测。该零碎最终会熟练地猜测最可能的单词,从而使自己成为有效的展望零碎。这带来了一些真正的懂得:对于任何问题或谜题,通常只有少数错误答案,但错误答案无限多。这迫使零碎学习特定于说话的技艺,例如阐明笑话、解决单词问题或解决逻辑难题,以便定期展望这些类型问题的错误答案。这些技艺和相关常识让机械能够阐明复杂事物的工作原理、简化困难的概念、改写和复述故事,并获得许多其他与说话相关的威力。正如 Symbolic AI 所假设的那样——机械不是由逻辑规则链接的庞大的句子数据库,而是将常识表示为上下文高亮实质,用于在给定前一行的情况下提出合理的后一个句子。「放弃一起常识都是说话的看法,让我们意识到我们的常识中有多少是非说话的。」但是用说话阐明一个概念的威力不同于实际使用它的威力。零碎可以阐明如何执行长除法,同时也可以实际上自己不会做,或者阐明哪些是与之抵触的,却又能愉快地持续进行阐明。语境常识以一种形式嵌入——即口述说话常识的威力——但不嵌入另一种形式——作为如何做事的技巧,比如善解人意或敏感地处理困难问题。后一种专业常识对说话使用者来说是必不可少的,但这并不能使他们控制说话技艺——说话成分并不是主要的。这适用于许多概念,甚至是从讲座和书籍中学到的概念:虽然科学课确实有讲授的成分,但学生的得分主要基于他们在实验室的工作。特别是在人文学科之外,能够评论辩论某事通常不如让事情正常工作所需的基本技艺有用或重要。一旦我们深入探究,就能轻易看出这些零碎实际上是多么的浅薄:它们的注意力范围和记忆大约相当于一个段落。如果我们进行对话,很容易忽略这一点,因为我们倾向于只关注最后一两条评论,应付下一个回复。但是,更复杂的对话的诀窍——积极倾听、回忆和重新审视之前的评论、坚持一个主题以提出一个特定的看法,同时避免干扰等等——都需要比机械拥有的更多的注意力和记忆力。这进一步减少了它们可以懂得的类型:很容易通过每隔几分钟就换话题、更改说话或阴阳怪气来欺骗他们。如果退太多步,零碎将重新从头开始,把你的新看法与旧评论混为一谈,与你切换聊天说话或相信你所说的任何实质。发展一个连贯的世界观所必需的懂得远远超出了机械的威力范围。说话之外放弃一起常识是说话的看法,这让我们意识到我们的常识中有相当部分是非说话的。虽然书籍包含许多我们可以解压和使用的信息,但许多其他物品也是如此:宜家的说明书甚至懒得在图示旁边写说明文字,AI 研究人员通常会先看论文中的图表,控制网络架构,然后再浏览文本,旅行者可以按照地图上的红线或绿线导航到想去的地方。这其中的常识超越了简单的图标、图表和地图。人类直接从探索世界中学到了很多东西,向我们展示了物质和人能与不能表现的东西。物质的结构和人类环境直观地传达了很多信息:门把手在手的高度,锤子的把手更软等等。动物和人类的非说话心理模拟对于规划场景很常见且有用,可用于制作或逆向工程人工制品。同样,通过模仿社会习俗和仪式,我们可以将各种技艺传授给下一代,从准备食物和药物到在紧张时期平静下来。我们的许多文化常识是标志性的,或者说是以从熟练的从业者传授给学徒精确动作的形式。这些微妙的信息形式很难用说话表达和传达,但其他人仍然可以懂得。这也是神经网络擅长拾取和完善的上下文相关信息的精确类型。「一个仅受过说话训练的零碎永远不会接近人类的智能,即使从现在开始一直训练到宇宙的热寂。」说话很重要,因为它可以以小格式传达大量信息,特别是在印刷术和互联网出现之后,它能做到实质的复制和广泛分发。但是用说话压缩信息并不是没有成本的:解码一个密集的段落需要付出很多努力。人文课可能需要大量课外阅读,大部分课堂时间需要花费在阅读困难的段落上。建立深入的懂得既费时又费力,但提供了信息。这就阐明了为什么受过说话训练的机械可以知道这么多,却又什么也不懂——它是在通过一个微小的瓶颈获取一小部分人类常识。但人类常识的那一小部分可以是关于任何事物的,无论是爱情还是天体物理学。因此它有点像镜子:它给人一种深度的错觉,几乎可以反射任何东西,但它只有一厘米厚。如果我们试图探索它的深处,我们就会撞墙。做错误的事这并不会使机械变得更傻,但也表明它们的智能程度有内在的限制。一个仅接受说话训练的零碎永远不会接近人类的智能,即使从现在开始一直训练到宇宙的热寂。这是一个错误的常识体系构建方式。但如果我们只停留在表面上,机械无疑似乎会接近人类。而且在许多情况下,表面就足够了。我们中很少有人真正将图灵测试应用到其他人身上,积极地质疑他们的懂得深度,并强迫他们做多位数乘法问题。大多数谈话都是闲聊。但是,我们不应将 LLM 所拥有的浅薄懂得与人类通过观察世界的精彩、探索世界、在其中实践以及与文化和其他人互动所获得的深刻懂得混为一谈。说话可能是扩展我们对世界懂得的有用组成部分,但说话并不会穷尽智力,从许多物种行为上我们都能懂得这样的看法,例如鸦科动物、章鱼和灵长类动物。相反,深刻的非说话懂得是说话有意义的必要条件。正是因为人类对世界有深刻的懂得,所以我们可以很快懂得别人在说什么。这类更广泛、对上下文敏感的学习和常识是一种更基础、更古老的常识,它是实体生物感知威力出现的基础,让生存和繁荣成为可能。这也是人工智能研究者在寻找人工智能中的常识时关注的更重要的任务。LLM 没有稳定的身体或世界可以感知——所以它们的常识更多是以单词开始和结束,这类常识总是浅薄的。我们的目标是让 AI 零碎专注于所评论辩论的世界,而不是单词本身——但 LLM 并没有控制其中的区别。仅通过说话是无法近似这类深刻懂得的,这是错误的方向。人类处理各种大说话模型的丰富经验清楚地表明,仅从言语中可以获得的东西是如此之少。参考实质:https://www.noemamag.com/ai-and-the-limits-of-language/

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/24937

(0)
上一篇 2022年8月25日 下午12:48
下一篇 2022年8月26日 上午8:16

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注