站在2022前展望大模型的未来,周志华、唐杰、杨红霞这些大咖怎么看?

岁末年初之际,让我们回顾大模型的过去,展望大模型的未来。

28 日,阿里巴巴达摩院宣布 2022 十大科技趋势。其中,“大模型参数竞赛进入冷静期,大小模型将在云边端共同退化”的断言,在 AI 圈备受关注。站在2022前展望大模型的未来,周志华、唐杰、杨红霞这些大咖怎么看?2021 是大模型爆发之年,我们见证了大模型的惊艳,但也了解了今朝大模型的一些局限,如显著的高能耗等成绩。达摩院认为,超大规模预训练模型是从弱人工智能向通用人工智能的突破性摸索,解决了传统深度进修的运用碎片化难题,但性能与能耗提升不成比例的效率成绩限制了参数规模继续扩张。接下来,人工智能研究将从大模型参数竞赛走向大小模型的共同退化,大模型向边、端的小模型输出模型才智,小模型负责实际的推理与施行,同时小模型再向大模型反馈算法与施行成效,让大模型的才智持续强化,形成有机循环的智能体系。 周志华、唐杰、杨红霞等多位学界、业界代表性专家,对此发表了评论。大模型接下来会如何倒退?岁末年初之际,让我们回顾大模型的过去,展望大模型的未来。大小模型将承担不同角色南京大学计算机科学与技术系主任兼人工智能学院院长 周志华

站在2022前展望大模型的未来,周志华、唐杰、杨红霞这些大咖怎么看?

大模型一方面在不少成绩上取得了以往难以预期的成功,另一方面其巨大的训练能耗和碳排放是不能忽视的成绩。个人以为,大模型未来会在一些事关国计民生的重大使命上发挥作用,而在其他一些场景下或许会通过类似集成进修的手段来利用小模型,尤其是通过很少量训练来 “复用” 和集成已有的小模型来达到不错的性能。我们提出了一个叫做 “学件” 的思路,今朝在做一些这方面的摸索。大致思想是,假设很多人已经做了模型并且乐意放到某个市场去共享,市场通过建立规约来组织和管理学件,以后的人再做新运用时,就可以不用从头收集数据训练模型,可以先利用规约去市场里找找看是否有比较接近需求的模型,然后拿回家用自己的数据稍微打磨就能用。这其中还有一些技术挑战需要解决,我们正在研究这个方向。另一方面,有可能通过利用人类的常识和专业领域学问,使模型得以精简,这就要结合逻辑推理和机械进修。逻辑推理比较善于利用人类学问,机械进修比较善于利用数据事实,如何对两者举行有机结合一直是人工智能中的重大挑战成绩。麻烦的是逻辑推理是严密的鉴于数理逻辑的 “从一般到特殊”的演绎过程,机械进修是不那么严密的概率近似正确的 “从特殊到一般”的归纳过程,在方法论上就非常不一样。已经有的摸索大体上是以其中某一方为倚重,引入另一方的某些成分,我们最近在摸索双方相对均衡互促利用的方式。站在 2022,展望大模型的未来清华大学计算机系教授,北京智源人工智能研究院学术副院长 唐杰

站在2022前展望大模型的未来,周志华、唐杰、杨红霞这些大咖怎么看?

2021 年,超大规模预训练模型(简称大模型)成为国际人工智能前沿研究和运用的热点,倒退迅速也面临系列挑战。最新宣布的《达摩院 2022 十大科技趋势》将 “大小模型共同退化” 列为 AI 模型倒退的新方向,提出“大模型参数竞赛进入冷静期,大小模型将在云边端共同退化”,值得业界关注。站在年末岁初,让我们一起回望大模型的 2021,展望它的 2022 和更远未来。一、超大规模预训练模型迅速倒退但也面临系列挑战2021 年 8 月,斯坦福大学成立基础模型研究中心(CRFM)并将 BERT、GPT-3 和 CLIP 等鉴于大规模数据举行训练并可以适应广泛下游使命的模型统称为 “基础模型”。虽然这个概念在学术界引起了不少争议,有学者对于模型是否具有“基础性” 提出了质疑,但是应该看到,这些模型所表现出的能够更好处理现实世界复杂性的才智,使得它们变得愈发重要。产业界持续推动大模型研发,并不断将模型的规模和性能推向新高。1 月,OpenAI 宣布大规模多模态预训练模型 DALL·E 和 CLIP,谷歌宣布 1.6 万亿规模预训练语言模型 Switch Transformer,10 月,微软和英伟达宣布 5300 亿规模的 Megatron-Turing 自然语言生成模型 MT-NLG。另外,大模型运用也在不断丰富,今朝全球鉴于 GPT-3 的商业运用已有几百个,随着近期 GPT-3 全面开放 API 申请和微调功能,GPT-3 运用生态也将加速形成。2021 年也是我国超大规模预训练模型倒退的“元年”,今朝,已有智源研究院、鹏城实验室、中科院自动化所、阿里、百度、华为、浪潮等科研院所和企业研相继发出“悟道”、“盘古”、“紫东 · 太初”、M6、PLUG、ERNIE 3.0 等大模型。虽然国内外超大规模预训练模型取得了较大进展,但是同时也应认识到,大模型倒退还有很多亟待解决的重要成绩。例如,预训练模型的理论基础尚未明确(如大模型智能的参数规模极限存在吗),大模型如何高效、低成本的运用于实际系统;其次构建大模型需要克服数据质量、训练效率、算力消耗、模型交付等诸多障碍;最后今朝大部分大模型普遍缺乏认知才智的成绩,这也是部分学者质疑这类模型能否被称为 “基础模型” 的原因之一。能否通过大模型实现更通用的智能?怎么实现?这些都需要学术界和产业界不断摸索。二、大模型打造数据与学问双轮驱动的认知智能人工智能经过数十年的倒退,历经符号智能、感知智能两个时代,今朝来到第三代人工智能即认知智能的大门口。认知智能不仅要求鉴于大数据的深度进修及对应的感学问别,还要求机械具有认知和推理才智,要让机械具备与人接近的常识和逻辑,这就对数据与学问的融合提出了迫切需求。回顾人工智能的倒退,1968 年图灵奖获得者 Edward Feigenbaum 研发出世界首个专家系统 DENDRAL;1999 年互联网发明人、图灵奖获得者 Tim Berners-Lee 爵士提出语义网的概念;图灵奖获得者 Yoshua Bengio 在 2019 年 NeurIPS 大会的主题报告中指出,深度进修应该从感知为主向鉴于认知的逻辑推理和学问表达方向倒退,这个思想和清华大学张钹院士提出的第三代人工智能思路不谋而合。同期,美国国防部高级研究计划局(DARPA)宣布 AI NEXT 计划,核心思路是推进数据计算与学问推理融合的计算,还委托了伯克利等机构,开展 SYMBOLIC – NEURAL NEWORK(符号加神经网络计算)研究,其目的就是要加快推进这一进程。总的来说,研究数据与学问融合的双轮驱动 AI 时代已经到来,核心是利用学问、数据、算法和算力 4 个要素,不仅是使用数据驱动的方法来建构模型,还需要将用户行为、常识学问以及认知联系起来,主动 “进修” 与创造。智源研究院研发的 “悟道” 大模型是我国具有代表性的超大规模预训练模型,摸索了大模型研发的另外一条路径,旨在打造数据与学问双轮驱动的认知智能,建立超越图灵测试的通用机械认知才智,让机械像人一样“思虑”。在大模型研发过程中,我们初步定义了大模型需要具备的 9 种机械认知才智(T9 准则):

1. 适应与进修才智:机械具有一定的模仿才智,能够通过模仿和反馈进修人的语言和行为;

2. 定义与情境化才智:机械能够根据感知上下文场景做出反应(语言和行为反馈),并保证反应的一致性;

3. 自我系统的准入才智:机械具有一个稳定的人设(如:稳定的心理大五人格),在生成对待事物的观点时,不会随意改变自己的观点和情感倾向;

4. 优先级与访问控制才智:机械具有能发现自我观点的矛盾和纠结,但最终能做出一个选择,并在后续行为中保持一致;

5. 召集与控制才智:机械能主动搜索与自身人设一致或者符合自身利益的内容(新闻),并对其举行正面评论;反之也能搜索与自身人设相违背的内容,并对其举行反驳;

6. 决策与施行才智:机械能主动搜索内容信息、统计其他机械与人的观点与倾向,根据自身人设做出对自己有利的决策并施行;

7. 错误探测与编辑才智:机械能自动对无法判断的事物举行假设,并举行追踪,如果发现假设错误或者假设不完备,能自动举行编辑修正;

8. 反思与自我监控才智:机械具有自动校验才智,如果发现施行的操作不正确,具有自我监控和修正的才智;

9. 条理与灵活性之间的才智:机械能够自动规划和保证施行操作之间的条理性;同时如果发现条理不正确的时候,具有一定灵活性,可以修正自己的行为。

要全面实现以上 9 种机械认知才智还有很长的路要走,但我们坚信下一个人工智能浪潮的兴起必然伴随着认知智能的实现,让机械具有推理、解释、认知才智,在多项人类感知与认知使命中超越图灵测试。大模型已经在认知智能倒退上举行了一年的摸索,并取得阶段进展。三、大模型的未来《达摩院 2022 十大科技趋势》提出,大小模型将在云边端共同退化。大模型向边、端的小模型输出模型才智,小模型负责实际的推理与施行,同时小模型再向大模型反馈算法与施行成效,让大模型的才智持续强化,形成有机循环的智能体系。这一观点富有启发性,而且有助于大模型从实验室走向规模化的产业运用。在我看来,未来大规模研究将更加注重原始创新,围绕认知智能以及高效运用等多个角度展开。在认知智能方面,模型参数不排除进一步增加的可能,甚至到百万亿、千万亿规模,但参数竞赛本身不是目的,而是要探究进一步性能提升的可能性。大模型研究同时注重架构原始创新,通过模型持续进修、增加记忆机制、突破三元组学问表示方法等方法进一步提升万亿级模型的认知智能才智。在模型本身方面,多模态、多语言、面向编程的新型模型也将成为研究的重点。在高效运用方面,将大大降低大模型使用门槛,让大模型用起来,促进中小企业形成 “大模型 + 少量数据微调” 的 AI 工业化开发模式。主要实现:

1)降成本:降低模型在预训练、适配下游使命、推理过程中的算力消耗;

2)提速度:通过模型蒸馏、模型裁剪等手段提升千亿或以上规模模型推理速度 2 个数量级;

3)搭平台:通过搭建一站式开发及运用平台提供从在线模型构建、在线模型部署、运用宣布的全流程预训练服务,能够支持成百上千个运用的开发与部署,相信后续大模型的广泛运用将成为赋智我国经济高质量倒退的关键助推剂。

思虑的快与慢,与下一代人工智能阿里巴巴达摩院人工智能科学家 杨红霞

站在2022前展望大模型的未来,周志华、唐杰、杨红霞这些大咖怎么看?

人工智能学者一直试图从大脑工作模式中汲取灵感,但大脑究竟如何思虑是非常复杂的课题。诺贝尔经济学奖获得者丹尼尔 · 卡内曼教授的《思虑, 快与慢》指出,人的思虑有两种模式。我们很多时候下意识地作出反应,是快的模式。举个例子,如果每天从家到公司的路线一模一样,就不需要做太多思虑,沿着原路走就行,这是快思虑。什么是慢思虑?突然有一天,公司和家之间在修路,需要重新规划路径,这时就不得不举行慢思虑。鉴于大脑思虑的模式,解决下一代人工智能的核心认知推理成绩,是我们团队近几年最重要的目标。GPT-3 激发了大家投入大模型研发的巨大热情,但由于大模型的能耗和效率成绩,学界又对是否一定要用大模型提出疑问。通过大量的实际摸索,我们认为,大模型和小模型可以共同倒退,分别承担慢思虑和快思虑的使命。云上能容纳海量学问的大模型,就像超级大脑,有才智举行慢思虑,而在端上与大模型共同的小模型可以施行快思虑。近年来,随着预训练技术在深度进修领域的飞速倒退,预训练大模型(大模型)逐渐走进人们的视野,成为人工智能领域的焦点。大模型在文本、图像处理、视频、语音等多个 AI 领域实现较大突破进展,并逐渐成为 AI 的基础模型(Foundation Model),同时大模型也在积极与生命科学领域举行结合,包括在蛋白质、基因等方向取得进展,并在细胞分类、基因调控关系发现、细菌耐药性分析等使命中前景广阔。可以认为大模型是今朝解决推理认知成绩最先进的工具,不过预训练大模型还有亟待突破的几个课题,比如:

1、今朝的主流实践是先通过训练大模型(Pretrained Model),得到参数规模大、精度高的模型后,再鉴于下游使命数据,通过剪枝、微调的方法(Finetune)将模型的体积压缩,在基本不损失精度的情况下减轻部署的压力,今朝业界还没找到通用的、直接训练小型模型就能得到较满意精度的办法;

2、训练千亿、万亿模型动辄就上千张 GPU 卡,给大模型的推广和普惠带来了很大的挑战;

3、预训练模型 Pretrain 阶段参数量大,今朝主要采用大量非结构化数据举行训练,如何与学问等结构化数据举行结合,让模型更加有效地实现认知推理,也是一个非常大的挑战。

在解决大模型亟待突破的课题方面,我们做了不少尝试,可供业界参考。今年 11 月,我们宣布了全球首个 10 万亿参数的多模态大模型 M6,相比去年宣布的 GPT-3,实现同等参数模型能耗仅为其 1%,降低了大模型实现门槛,推动了普惠 AI 的倒退。今年 10 月我们对外开放的云服务化平台是今朝业界覆盖下游使命最广泛的平台,涵盖各项单模态和跨模态的理解及生成使命。今朝,M6 已在阿里巴巴超 50 余个不同业务场景中运用。未来,除了通过低碳化倒退绿色 AI、平台化运用推进普惠 AI 以及突破认知推理等技术外,我们希望大模型还能积极摸索与科学运用的结合,潜在科学运用方向可能包括脑神经连接图谱绘制、脑机接口、透明海洋等领域。在形成更高效、更广泛的智能体系上,大小模型在云边端共同退化带来了新的可能性。在边端与大模型共同的小模型施行快思虑方面,我们也举行了积极摸索和规模化落地。大模型可以向边、端小模型的输出,让小模型更容易获取通用的学问与才智,小模型专注在特定场景做极致优化,提升了性能与效率;同时小模型向大模型反馈施行成效,解决了过去大模型数据集过于单一的成绩,最后全社会不需要重复训练相似的大模型,模型可以被共享,算力与能源的使用效率得以最大化。这一模式有望构建下一代人工智能的基础设施,在让人工智能的通用才智进一步提升。经历符号主义的衰落与深度进修的繁荣,我们来到了新的路口。科技的进程往往由天才般的灵感与极大量的实践推进,人工智能的演进也是如此,在收敛与发散之间不断寻找突破口。大模型是一个令人激动的里程碑,接下来该走向何方,我们或许可以继续向自身追问,在快思虑与慢思虑中获取新的启示。

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/zhan-zai-2022-qian-zhan-wang-da-mo-xing-de-wei-lai-zhou-zhi/

(0)
上一篇 2021年 12月 27日 下午7:02
下一篇 2021年 12月 29日 下午2:50

相关推荐

  • 《语音识别基础:(一)语音是什么》

    从最起初的一声巨响,到梵音天籁,到耳旁的窃窃私语,到妈妈喊我回家吃饭,总离不开声响。声响是这个世界存在并运动着的证据。

    2021年 7月 29日
  • 巴黎出生、加拿大求学,Yoshua Bengio刚刚拿到了法国声誉军团骑士勋章

    Bengio 表示,「法国是我出生和成长的地方,我很高兴能在蒙特利尔接受这枚来自法国的勋章。」

    2022年 3月 8日
  • 北京R SPACE都会异想空间开馆,上汽R跨界打造新地标

    夜幕降临,星光熠熠。裙摆与西服,穿梭在音乐与美酒之间;镜头与灯光,记录下交织的玫瑰与车影……5月17日晚,在位于北京国贸CBD核心商圈的北京华贸广场,R汽车联合时髦芭莎共同呈现了一场致意现在的先锋时髦盛宴——ROSE NIGHT。《时髦芭莎》执行出版人兼主编沙小荔,国际知名时髦摄影师、视觉艺术家陈漫,以及多位艺术与时髦大咖齐聚,共同见证北京R SPACE都会异想空间正式开馆,点亮帝都潮水生存新地标。科技跨界时髦  北京R SPACE点亮潮水新地标举目四顾

    2021年 5月 18日
  • 海内外71支劲旅角逐青光眼AI,视杯盘宰割义务体素科技团队斩获第一

    MICCAI(Medical Image Computing and Computer Assisted Intervention)始于1998年的麻省理工学院,意在探索医学影像、计算机辅助介入以及两者融合的价值。20逾年的发展,MICCAI已成为医学影像分析行业的顶级学术会议。百度组织的眼科医学影像分析研讨会OMIA (Ophthalmic Medical Image Analysis)是眼科影像领域的重点研讨会之一,至今已举办八届。2021MICCAI之上,OMIA将议点聚焦于青光眼之上,举办了GAMMA挑战赛

    2021年 10月 1日
  • PyFlink 开发情况利器:Zeppelin Notebook

    也许你早就听说过 Zeppelin,但是之前的文章都偏重讲述如何在 Zeppelin 里开发 Flink SQL,今天则来介绍下如何在 Zeppelin 里高效的开发 PyFlink Job,特别是解决 PyFlink 的情况问题。一句来总结这篇文章的主题,就是在 Zeppelin notebook 里利用 Conda 来创造 Python env 自动部署到 Yarn 集群中,你无需手动在集群上去安装任何 PyFlink 的包,并且你可以在一个 Yarn 集群里同时运用互相隔离的多个版本的 PyFlink。最后你

    2021年 9月 29日
  • AI+Science手艺实践与产业运用中的挑战与机遇

    「机器之心2021-2022年度AI趋势大咖说」聚焦「驱动未来的AI手艺」与「重塑产业的AI科技」,推出线上分享,共邀请近40位AI规模知名学者、产业专家及企业高管通过主题分享及多人圆桌等形式,与行业精英、读者、观众共同回顾 2021年中的重要手艺和学术热点,盘点AI产业的年度研究标的目的以及重大科技突破,展望2022年度AI手艺发展标的目的、AI手艺与产业科技融合趋势。

    2022年 8月 1日
  • 可对药物份子举行表征的若干深度进修

    编辑 | 萝卜皮若干深度进修(GDL)基于包罗和处理对称信息的神经网络架构。GDL 为依赖于具有不同对称性和抽象级别的份子体现的份子建模利用程序带来了希望。苏黎世联邦理工学院的研讨人员对份子 GDL 举行了结构化和统一概述,重点介绍了其在药物发现、化学合成猜测和量子化学中的利用。它包罗对 GDL 原理的介绍,以及相关的份子体现,例如份子图、网格、曲面和字符串,以及它们各自的属性。讨论了份子科学中 GDL 当前面临的挑战,并尝试猜测未来的机会。该综述以「Geometric deep learning on molec

    2021年 12月 27日
  • 对话极盾科技CEO丁杨:始创企业,所有客户都是创始人

         十几年前的丁杨是一名工科大学生,在校期间,他最喜欢的事儿就是参加每周的社团活动,这个社团名为东南大学网络宁静联盟(SUS),它还有着一个特殊的称号,即国内最早的高校网络宁静社团。在接受朋湖专访时,说起这段青春往事,丁杨的语调也变得高昂起来,“我们每周六社团的人都会聚在一起做内容分享,风雨无阻。”他讲道,“当然后期来的人也有所减少,但最后留下来的人现在来看,也都选择从事了和网络宁静相关的工作。”丁杨是其中坚持下来的一员。如今,丁杨已是一家网络宁静始创企业创始人,拥有15年宁静和

    2022年 9月 7日
  • baidu李士岩:两年内,每个人有望实行「数字人自由」

    元宇宙无疑是2021年的概念顶流,在巨头下场、web 3.0加速构建过程中,虚构数字人作为元宇宙的场景入口与连接纽带也备受瞩目。今年的江苏卫视跨年晚会上,周深与邓丽君跨时空合唱《大鱼》刷屏。

    2022年 1月 15日
  • 只有170字节,最小的64位Hello World步伐这样写成

    最简单的 C 语言 Hello World 步伐,底层到底发生了什么?如何编写出最小的 64 位 Hello World 步伐?

    2020年 12月 25日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注