大模型=缸中之脑?通院朱松纯团队剖析AGI关键缺失

“知行合一”:大言语模型距离通用人工智能最欠缺的一步近期 ChatGPT/GPT-4 系列产品引发全球关注和讨论,以其为代表的大模型在言语方面浮现出了一定的通用性,使通用人工智

“知行合一”:大言语模型距离通用人工智能最欠缺的一步

近期 ChatGPT/GPT-4 系列产品引发全球关注和讨论,以其为代表的大模型在言语方面浮现出了一定的通用性,使通用人工智能的观点浮出水面,进入了大众视野。业界很多人认为大模型是通往通用人工智能的必经之路,然而大模型真的如业界所追捧的一样 “无所不能” 么?以 GPT-4 为代表的大言语模型究竟离通用人工智能还有多远?北京通用人工智能研讨院朱松纯教授团队最新发布了一份针对大模型的技术报告,零碎回顾了现有使用标准化测试和才智基准对大型言语模型(LLMs)进行的评价,并指出了当前评价方法中存在的几个问题,这些问题往往会夸大 LLMs 的才智。报告进一步提出通用人工智能(AGI)应具备的四个特征:可能执行无限恣意,自主天生新恣意,由价格零碎启动,以及拥有反映真实全国的全国模型。研讨人员在技术报告中指出,“知行合一”(认识和行动的内在统一)是大模型目前所欠缺的机制,也是迈向通用人工智能的必经之路。研讨人员认为,观点的学习依赖于与真实全国的交互,且常识的获取并不完全依赖于被动输入,在新环境中获取常识的关键途径更应该是主动索求和试错而非被动接受。

图片

论文链接:https://arxiv.org/abs/2307.03762一、大言语模型无异于缸中之脑缸中之脑是由哲学家 Hilary Putnam 提出的一个著名思想实验,该实验假设人的大脑从身体剥离,放在一个可能维持其机能的营养液缸,由一个超级计算机联结大脑神经元制造出各种幻象,让人觉得一切正常,就像《黑客帝国》所演的那样,那我们该怎么知道自己不是缸中之脑呢?

图片

基于语义学的分析,Putnam 反驳道,当缸中大脑里的人声称自己是 “缸中之脑” 时,缸和脑的所指已经发生了变化。如何懂得这一观点呢?举个简单的例子 —— 假设存在一个孪生地球,其居民和我们生活方式、言语均相同,但他们的 "水" 分子组成为 XYZ,与我们的 H2O 不同。尽管这两种 "水" 在外观、用途和名称上无异,且两地居民对 "水" 的心理感知相同,但指向的实质却不同,因此其含义也应有所区别。这也启发研讨者从标记落地(symbol grounding)的视角看待大模型。论文认为,大模型无异于缸中之脑,因为大模型本身并不在真实全国中 (living in the world),它无法像人一样实现从” 词语 (word)“到” 全国 (world)“的联结。这一点是由它的内在构造机制所决定的 —— 通过统计建模在大量文本上进行训练,学习文本之间的言语学相关关系,从而根据上个词汇预测下个词汇。缺乏标记落地使得大模型很容易陷入绕圈圈的境地。研讨者尝试给 GPT-4 一个引子,让它跟自己对话,然而在有限回合之后,GPT 就开始重复自己说的话,无法跳脱当下的语义空间。

图片

大模型的 “智能” 与其说是内在的,不如说是人类智能的投影。大模型天生的文本并不先天具有意义,其意义来自于人类用户对于文本的阐释。例如言语学家乔姆斯基曾经尝试挑战言语学界构造了一个符合语法规范但无意义的句子 ——“无色的绿思狂暴地沉睡”(“Colorless green ideas sleep furiously”),然而中国言语学之父赵元任在他的名文《从胡说中寻找意义》中给予了这个句子一个充满哲思的阐释。二、大模型的局限性大模型训练数据集的不透明以及人类评价时所采取的指标差异可能使得人类高估了大模型的真正浮现。一方面,大模型的训练数据集通常是规模巨大且高度易得的互联网数据,这些训练数据可能会包含后续用于评价的数据集。由于当前我们并不知道 GPT-4 等大模型的训练数据集构成,泛化这一观点变得模糊,即我们无法判断大模型是真的学习到了核心观点,还是仅仅从它的训练产生的 “隐藏记忆” 中进行检索,这种不透明性阻碍了学术界对其公正和可靠的评价。另一方面,有研讨发现大模型的涌现才智并非源于模型行为的本质变化,而是由于使用的评价指标导致大模型看起来突然变得很强大。简单地说,在使用非线性度量(如 X 的 n 次方)时,曲线上稀疏的采样点可能让人感觉到存在某种涌现现象,然而如果换成线性度量,这种现象就不存在了。在回顾了数十篇大言语模型的评价研讨后,研讨人员发现:1)虽然某些研讨声称大言语模型可能在标准化测试(SAT,LSAT)中取得超越普通人类考生的卓越成绩,但一旦引入非英语的其他言语同类型测试,比如中国高考、印度升学考试、越南高考时,GPT 的浮现显著下降,且其在必要应用推理的考试(数学、物理等)的成绩显著低于强言语依赖学科(英文、历史)的考试。GPT 的浮现看上去更像是采取了一种题海战术,通过重复的记忆来做题,而非习得了如何进行推理。

图片

2) 大言语模型的数学推理才智仍然有待提高。Bubeck 等人(2023)在《Sparks of Artificial General Intelligence》这篇文章中采取了单个案例展示的方式尝试说明 GPT-4 可能解决 IMO 级别的问题,但研讨者在仔细检视了 GPT 所提供的解决方案发现 Bubeck 等人的结论具有很强的误导性,因为测试的题目被极大程度地简化了,在让 GPT-4 解决 IMO 数学题原题时, GPT-4 的数学逻辑链条是完全错误的。另有研讨发现,在 MATH 训练数据集上,即使把模型设置为 MathChat 的模式,其准确率也只有 40% 左右。3)大言语模型的推理与其说是来自于懂得逻辑关系,不如说是来自于大量文本的相关性。朱松纯团队的另一篇研讨发现,一旦将自然言语替换为标记,大言语模型在归纳、演绎、溯因恣意上浮现骤降,无论是否使用思维链(thought of chain)的策略。一个简单的例子如下图所示:图左用动物(熊、狗、牛等)天生了一系列陈述(比如 “熊喜欢狗”、“牛的属性是圆”、“如果某个动物的属性是圆,那么他们喜欢松鼠”),而后给 GPT-4 一个新的陈述(比如 “牛喜欢松鼠”)让其判断正确与否,研讨者发现当把具有明确语义的词汇替换成抽象标记时,(比如用 e4 替代熊,e5 替代狗,e2 替代圆),大言语模型的浮现将会显著下降。另一个对大模型的因果推断才智的研讨揭露了相似的发现 —— 当将大模型的语义转化为标记时,大模型的浮现将下降到几乎同随机回答无异,哪怕在微调之后,大模型也只能应对之前出现过的类似的标记表达,而无法泛化到新场景中。

图片

4)大模型做不好抽象推理,当面对那些仅依赖于几个小样本演示从而找到潜在规律的恣意时,大模型的浮现较为一般。如下图所示,在瑞文测试数据集(RAVEN) 中,测试者必要根据已有的 8 个图形(形状、颜色、数量、大小)寻找暗含的规律,然后推理出最后一个图形。

图片

另外一个例子来自于 Evals-P 数据集,如下右图所示,大模型必要可能在缺少大量训练样本的前提下找到出现 foo 或者 bar 的规律,即当首字母包含在之后的字符串里时是 foo,不包含时为 bar。对于某些大模型,这些恣意的准确率接近于 0,而哪怕 GPT-4 的准确率也只有 30% 左右。

图片

三、关于通用人工智能的一种观点判断 “某某某 AI” 是不是通用人工智能的一个前提是得清楚通用人工智能的定义或者基本特征,朱松纯团队尝试刻画出了通用人工智能(AGI)的四个特征:

1.可能执行无限的恣意;

2.可能自主天生新恣意;

3.由价格零碎启动;

4.拥有反映真实全国的全国模型。

首先,智能体应具备在物理和社会环境中完成无穷恣意的才智。如果设定一个表示达到 AGI 的恣意数量阈值,那么如何确定这个阈值将始终是一个值得质疑的问题。如果智能体在完成 N 个恣意后没有展现出通用智能,我们就没有理由相信它在完成第 N+1 个恣意后会突然拥有通用智能。虽然一系列具体而具挑战性的恣意清单对于评价智能体的性能有所帮助,类似于教师用学生的考试分数来评价他们的学习成绩,但仅仅完成具体恣意并不等同于拥有通用智能,这就像不能仅凭学生的分数判断他们真正的学习才智一样。此外,无穷恣意并不意味着智能体必要像超人一样无所不能,而是指通用智能体应可能在特定环境中自主天生新的恣意,这与学生学会自我学习相仿。智能体天生新恣意必要两个基本机制。首先,智能体必要一个启动恣意天生的引擎。例如,达尔文的进化论揭示出生存和繁衍这两个本能,它们被编码在我们的基因中,而人类的进化过程丰富了价格零碎,出现了各种各样的细分价格,如利他主义、诚实和勇气等,每个人都受到一个由其与现实全国持续互动塑造的复杂价格零碎的启动。同样的,我们可以应用这种价格零碎的观点来构建通用智能体,在这种情况下,人类可以通过调整智能体的价格函数来影响其行为,而无需预先定义详细的恣意步骤。其次,智能体必要一个包含真实全国中物理法则和社会规范的全国模型,来指导智能体和真实全国的交互。这就像一个玩乐高,全国模型包含了各种积木(物体表征)以及积木之间的连接方式(物理法则和因果链等)。然而,价格函数在所有可能的选项中选择了一种蓝图,比如拼一个城堡,启动智能体去执行恣意,在乐高城堡搭建的过程中,智能体必要根据当前的进度,选择合适的积木并将其正确地放置在相应的位置(自我天生新恣意)。四、“知行合一”王阳明曾说,知而不行,只是未知。为了解决标记落地并且诞生具有上述特征的通用人工智能,仅依赖于常识是远远不够的,整合常识和行动是必须的。此时,智能体不仅可能通过主动地行动来天生对于现实全国物体的更加完整的表征,比如整合了视觉、触觉、听觉等信号,更重要的是可能通过索求环境天生常识,并进一步泛化到新场景中。其一,人对于全国的懂得是建立在和真实全国交互中的。标记(言语、数学标记等)只是观点的指针,只有多模态的交互信号才能真正建立观点表征。仅停留在文本空间上的大言语模型虽然可能天生标记,但无法实现懂得标记所指向的观点。如同一个蚂蚁意外的行动轨迹构成了一个 “○”,但蚂蚁本身并不懂得圆形意味着什么。其二,常识并非是先天存在的,常识和行动之间有着内在的联系。人类对全国的深刻懂得并非来自于简单地阅读手册,而是通过自己亲身索求或者来自于他人索求的传递等反复的试错积累而来。在这里,常识体现了人与全国交互的才智(比如推理,问题解决,社会懂得),但如果模型只是被动地接受常识并通过统计模型天生内容,无异于一个压缩了大量常识的百科全书,但却无法在新环境中通过索求全国进行新的常识生产( 包括常识抽象、常识积累和常识迁移等过程)。五、总结研讨团队提出的大模型技术报告为接下来的人工智能研讨提供了一些潜在的研讨方向:建立透明的评价机制和评价零碎;创造具有丰富可供性(大量交互可能性)的仿真环境;索求一套 “知行合一” 的认知架构,从 “纯数据启动” 的范式向 “恣意启动” 的范式转变。

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/20024

(0)
上一篇 2023年7月27日 下午3:33
下一篇 2023年7月27日 下午3:44

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注