站在2022前展望大模型的未来,周志华、唐杰、杨红霞这些大咖怎么看?

岁末年初之际,让我们回顾大模型的过去,展望大模型的未来。

28 日,阿里巴巴达摩院宣布 2022 十大科技趋势。其中,“大模型参数竞赛进入冷静期,大小模型将在云边端共同退化”的断言,在 AI 圈备受关注。站在2022前展望大模型的未来,周志华、唐杰、杨红霞这些大咖怎么看?2021 是大模型爆发之年,我们见证了大模型的惊艳,但也了解了今朝大模型的一些局限,如显著的高能耗等成绩。达摩院认为,超大规模预训练模型是从弱人工智能向通用人工智能的突破性摸索,解决了传统深度进修的运用碎片化难题,但性能与能耗提升不成比例的效率成绩限制了参数规模继续扩张。接下来,人工智能研究将从大模型参数竞赛走向大小模型的共同退化,大模型向边、端的小模型输出模型才智,小模型负责实际的推理与施行,同时小模型再向大模型反馈算法与施行成效,让大模型的才智持续强化,形成有机循环的智能体系。 周志华、唐杰、杨红霞等多位学界、业界代表性专家,对此发表了评论。大模型接下来会如何倒退?岁末年初之际,让我们回顾大模型的过去,展望大模型的未来。大小模型将承担不同角色南京大学计算机科学与技术系主任兼人工智能学院院长 周志华

站在2022前展望大模型的未来,周志华、唐杰、杨红霞这些大咖怎么看?

大模型一方面在不少成绩上取得了以往难以预期的成功,另一方面其巨大的训练能耗和碳排放是不能忽视的成绩。个人以为,大模型未来会在一些事关国计民生的重大使命上发挥作用,而在其他一些场景下或许会通过类似集成进修的手段来利用小模型,尤其是通过很少量训练来 “复用” 和集成已有的小模型来达到不错的性能。我们提出了一个叫做 “学件” 的思路,今朝在做一些这方面的摸索。大致思想是,假设很多人已经做了模型并且乐意放到某个市场去共享,市场通过建立规约来组织和管理学件,以后的人再做新运用时,就可以不用从头收集数据训练模型,可以先利用规约去市场里找找看是否有比较接近需求的模型,然后拿回家用自己的数据稍微打磨就能用。这其中还有一些技术挑战需要解决,我们正在研究这个方向。另一方面,有可能通过利用人类的常识和专业领域学问,使模型得以精简,这就要结合逻辑推理和机械进修。逻辑推理比较善于利用人类学问,机械进修比较善于利用数据事实,如何对两者举行有机结合一直是人工智能中的重大挑战成绩。麻烦的是逻辑推理是严密的鉴于数理逻辑的 “从一般到特殊”的演绎过程,机械进修是不那么严密的概率近似正确的 “从特殊到一般”的归纳过程,在方法论上就非常不一样。已经有的摸索大体上是以其中某一方为倚重,引入另一方的某些成分,我们最近在摸索双方相对均衡互促利用的方式。站在 2022,展望大模型的未来清华大学计算机系教授,北京智源人工智能研究院学术副院长 唐杰

站在2022前展望大模型的未来,周志华、唐杰、杨红霞这些大咖怎么看?

2021 年,超大规模预训练模型(简称大模型)成为国际人工智能前沿研究和运用的热点,倒退迅速也面临系列挑战。最新宣布的《达摩院 2022 十大科技趋势》将 “大小模型共同退化” 列为 AI 模型倒退的新方向,提出“大模型参数竞赛进入冷静期,大小模型将在云边端共同退化”,值得业界关注。站在年末岁初,让我们一起回望大模型的 2021,展望它的 2022 和更远未来。一、超大规模预训练模型迅速倒退但也面临系列挑战2021 年 8 月,斯坦福大学成立基础模型研究中心(CRFM)并将 BERT、GPT-3 和 CLIP 等鉴于大规模数据举行训练并可以适应广泛下游使命的模型统称为 “基础模型”。虽然这个概念在学术界引起了不少争议,有学者对于模型是否具有“基础性” 提出了质疑,但是应该看到,这些模型所表现出的能够更好处理现实世界复杂性的才智,使得它们变得愈发重要。产业界持续推动大模型研发,并不断将模型的规模和性能推向新高。1 月,OpenAI 宣布大规模多模态预训练模型 DALL·E 和 CLIP,谷歌宣布 1.6 万亿规模预训练语言模型 Switch Transformer,10 月,微软和英伟达宣布 5300 亿规模的 Megatron-Turing 自然语言生成模型 MT-NLG。另外,大模型运用也在不断丰富,今朝全球鉴于 GPT-3 的商业运用已有几百个,随着近期 GPT-3 全面开放 API 申请和微调功能,GPT-3 运用生态也将加速形成。2021 年也是我国超大规模预训练模型倒退的“元年”,今朝,已有智源研究院、鹏城实验室、中科院自动化所、阿里、百度、华为、浪潮等科研院所和企业研相继发出“悟道”、“盘古”、“紫东 · 太初”、M6、PLUG、ERNIE 3.0 等大模型。虽然国内外超大规模预训练模型取得了较大进展,但是同时也应认识到,大模型倒退还有很多亟待解决的重要成绩。例如,预训练模型的理论基础尚未明确(如大模型智能的参数规模极限存在吗),大模型如何高效、低成本的运用于实际系统;其次构建大模型需要克服数据质量、训练效率、算力消耗、模型交付等诸多障碍;最后今朝大部分大模型普遍缺乏认知才智的成绩,这也是部分学者质疑这类模型能否被称为 “基础模型” 的原因之一。能否通过大模型实现更通用的智能?怎么实现?这些都需要学术界和产业界不断摸索。二、大模型打造数据与学问双轮驱动的认知智能人工智能经过数十年的倒退,历经符号智能、感知智能两个时代,今朝来到第三代人工智能即认知智能的大门口。认知智能不仅要求鉴于大数据的深度进修及对应的感学问别,还要求机械具有认知和推理才智,要让机械具备与人接近的常识和逻辑,这就对数据与学问的融合提出了迫切需求。回顾人工智能的倒退,1968 年图灵奖获得者 Edward Feigenbaum 研发出世界首个专家系统 DENDRAL;1999 年互联网发明人、图灵奖获得者 Tim Berners-Lee 爵士提出语义网的概念;图灵奖获得者 Yoshua Bengio 在 2019 年 NeurIPS 大会的主题报告中指出,深度进修应该从感知为主向鉴于认知的逻辑推理和学问表达方向倒退,这个思想和清华大学张钹院士提出的第三代人工智能思路不谋而合。同期,美国国防部高级研究计划局(DARPA)宣布 AI NEXT 计划,核心思路是推进数据计算与学问推理融合的计算,还委托了伯克利等机构,开展 SYMBOLIC – NEURAL NEWORK(符号加神经网络计算)研究,其目的就是要加快推进这一进程。总的来说,研究数据与学问融合的双轮驱动 AI 时代已经到来,核心是利用学问、数据、算法和算力 4 个要素,不仅是使用数据驱动的方法来建构模型,还需要将用户行为、常识学问以及认知联系起来,主动 “进修” 与创造。智源研究院研发的 “悟道” 大模型是我国具有代表性的超大规模预训练模型,摸索了大模型研发的另外一条路径,旨在打造数据与学问双轮驱动的认知智能,建立超越图灵测试的通用机械认知才智,让机械像人一样“思虑”。在大模型研发过程中,我们初步定义了大模型需要具备的 9 种机械认知才智(T9 准则):

1. 适应与进修才智:机械具有一定的模仿才智,能够通过模仿和反馈进修人的语言和行为;

2. 定义与情境化才智:机械能够根据感知上下文场景做出反应(语言和行为反馈),并保证反应的一致性;

3. 自我系统的准入才智:机械具有一个稳定的人设(如:稳定的心理大五人格),在生成对待事物的观点时,不会随意改变自己的观点和情感倾向;

4. 优先级与访问控制才智:机械具有能发现自我观点的矛盾和纠结,但最终能做出一个选择,并在后续行为中保持一致;

5. 召集与控制才智:机械能主动搜索与自身人设一致或者符合自身利益的内容(新闻),并对其举行正面评论;反之也能搜索与自身人设相违背的内容,并对其举行反驳;

6. 决策与施行才智:机械能主动搜索内容信息、统计其他机械与人的观点与倾向,根据自身人设做出对自己有利的决策并施行;

7. 错误探测与编辑才智:机械能自动对无法判断的事物举行假设,并举行追踪,如果发现假设错误或者假设不完备,能自动举行编辑修正;

8. 反思与自我监控才智:机械具有自动校验才智,如果发现施行的操作不正确,具有自我监控和修正的才智;

9. 条理与灵活性之间的才智:机械能够自动规划和保证施行操作之间的条理性;同时如果发现条理不正确的时候,具有一定灵活性,可以修正自己的行为。

要全面实现以上 9 种机械认知才智还有很长的路要走,但我们坚信下一个人工智能浪潮的兴起必然伴随着认知智能的实现,让机械具有推理、解释、认知才智,在多项人类感知与认知使命中超越图灵测试。大模型已经在认知智能倒退上举行了一年的摸索,并取得阶段进展。三、大模型的未来《达摩院 2022 十大科技趋势》提出,大小模型将在云边端共同退化。大模型向边、端的小模型输出模型才智,小模型负责实际的推理与施行,同时小模型再向大模型反馈算法与施行成效,让大模型的才智持续强化,形成有机循环的智能体系。这一观点富有启发性,而且有助于大模型从实验室走向规模化的产业运用。在我看来,未来大规模研究将更加注重原始创新,围绕认知智能以及高效运用等多个角度展开。在认知智能方面,模型参数不排除进一步增加的可能,甚至到百万亿、千万亿规模,但参数竞赛本身不是目的,而是要探究进一步性能提升的可能性。大模型研究同时注重架构原始创新,通过模型持续进修、增加记忆机制、突破三元组学问表示方法等方法进一步提升万亿级模型的认知智能才智。在模型本身方面,多模态、多语言、面向编程的新型模型也将成为研究的重点。在高效运用方面,将大大降低大模型使用门槛,让大模型用起来,促进中小企业形成 “大模型 + 少量数据微调” 的 AI 工业化开发模式。主要实现:

1)降成本:降低模型在预训练、适配下游使命、推理过程中的算力消耗;

2)提速度:通过模型蒸馏、模型裁剪等手段提升千亿或以上规模模型推理速度 2 个数量级;

3)搭平台:通过搭建一站式开发及运用平台提供从在线模型构建、在线模型部署、运用宣布的全流程预训练服务,能够支持成百上千个运用的开发与部署,相信后续大模型的广泛运用将成为赋智我国经济高质量倒退的关键助推剂。

思虑的快与慢,与下一代人工智能阿里巴巴达摩院人工智能科学家 杨红霞

站在2022前展望大模型的未来,周志华、唐杰、杨红霞这些大咖怎么看?

人工智能学者一直试图从大脑工作模式中汲取灵感,但大脑究竟如何思虑是非常复杂的课题。诺贝尔经济学奖获得者丹尼尔 · 卡内曼教授的《思虑, 快与慢》指出,人的思虑有两种模式。我们很多时候下意识地作出反应,是快的模式。举个例子,如果每天从家到公司的路线一模一样,就不需要做太多思虑,沿着原路走就行,这是快思虑。什么是慢思虑?突然有一天,公司和家之间在修路,需要重新规划路径,这时就不得不举行慢思虑。鉴于大脑思虑的模式,解决下一代人工智能的核心认知推理成绩,是我们团队近几年最重要的目标。GPT-3 激发了大家投入大模型研发的巨大热情,但由于大模型的能耗和效率成绩,学界又对是否一定要用大模型提出疑问。通过大量的实际摸索,我们认为,大模型和小模型可以共同倒退,分别承担慢思虑和快思虑的使命。云上能容纳海量学问的大模型,就像超级大脑,有才智举行慢思虑,而在端上与大模型共同的小模型可以施行快思虑。近年来,随着预训练技术在深度进修领域的飞速倒退,预训练大模型(大模型)逐渐走进人们的视野,成为人工智能领域的焦点。大模型在文本、图像处理、视频、语音等多个 AI 领域实现较大突破进展,并逐渐成为 AI 的基础模型(Foundation Model),同时大模型也在积极与生命科学领域举行结合,包括在蛋白质、基因等方向取得进展,并在细胞分类、基因调控关系发现、细菌耐药性分析等使命中前景广阔。可以认为大模型是今朝解决推理认知成绩最先进的工具,不过预训练大模型还有亟待突破的几个课题,比如:

1、今朝的主流实践是先通过训练大模型(Pretrained Model),得到参数规模大、精度高的模型后,再鉴于下游使命数据,通过剪枝、微调的方法(Finetune)将模型的体积压缩,在基本不损失精度的情况下减轻部署的压力,今朝业界还没找到通用的、直接训练小型模型就能得到较满意精度的办法;

2、训练千亿、万亿模型动辄就上千张 GPU 卡,给大模型的推广和普惠带来了很大的挑战;

3、预训练模型 Pretrain 阶段参数量大,今朝主要采用大量非结构化数据举行训练,如何与学问等结构化数据举行结合,让模型更加有效地实现认知推理,也是一个非常大的挑战。

在解决大模型亟待突破的课题方面,我们做了不少尝试,可供业界参考。今年 11 月,我们宣布了全球首个 10 万亿参数的多模态大模型 M6,相比去年宣布的 GPT-3,实现同等参数模型能耗仅为其 1%,降低了大模型实现门槛,推动了普惠 AI 的倒退。今年 10 月我们对外开放的云服务化平台是今朝业界覆盖下游使命最广泛的平台,涵盖各项单模态和跨模态的理解及生成使命。今朝,M6 已在阿里巴巴超 50 余个不同业务场景中运用。未来,除了通过低碳化倒退绿色 AI、平台化运用推进普惠 AI 以及突破认知推理等技术外,我们希望大模型还能积极摸索与科学运用的结合,潜在科学运用方向可能包括脑神经连接图谱绘制、脑机接口、透明海洋等领域。在形成更高效、更广泛的智能体系上,大小模型在云边端共同退化带来了新的可能性。在边端与大模型共同的小模型施行快思虑方面,我们也举行了积极摸索和规模化落地。大模型可以向边、端小模型的输出,让小模型更容易获取通用的学问与才智,小模型专注在特定场景做极致优化,提升了性能与效率;同时小模型向大模型反馈施行成效,解决了过去大模型数据集过于单一的成绩,最后全社会不需要重复训练相似的大模型,模型可以被共享,算力与能源的使用效率得以最大化。这一模式有望构建下一代人工智能的基础设施,在让人工智能的通用才智进一步提升。经历符号主义的衰落与深度进修的繁荣,我们来到了新的路口。科技的进程往往由天才般的灵感与极大量的实践推进,人工智能的演进也是如此,在收敛与发散之间不断寻找突破口。大模型是一个令人激动的里程碑,接下来该走向何方,我们或许可以继续向自身追问,在快思虑与慢思虑中获取新的启示。

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/zhan-zai-2022-qian-zhan-wang-da-mo-xing-de-wei-lai-zhou-zhi/

(0)
上一篇 2021年 12月 27日 下午7:02
下一篇 2021年 12月 29日 下午2:50

相关推荐

  • 时隔近50年,剑桥团队首次检测到量子自旋液体,钻研登上《Science》

    钻研者应用量子摹拟器检测到一种难以捉摸的物资形态:量子自旋液体,可用于量子计算机等技术的发展。

    2021年 12月 9日
  • 服务量化投资,基于学问图谱的事宜表征框架钻研入选SIGIR

    瞰点科技和上海交大的钻研团队提出了一种服务于量化投资的基于学问图谱的事宜表征框架,称为 Knowledge Graph-based Event Embedding Framework(KGEEF)。通过在真实股票市场上进行的大规模实行表明,本文提出的格式显著有助于量化投资的政策提升。

    2021年 8月 22日
  • 斯坦福学者让太阳能电池在夜间发电,功率可达50毫瓦/平方米

    研究者表示,他们计划的光伏电池装配可以为 LED 灯或者手机充电。

    2022年 4月 17日
  • 墨芯获评《财产》中国最具社会影响力的守业公司

    近日,墨芯人工智能获评2022《财产》“中国最具社会影响力的守业公司”。这是过去1个月墨芯因稀少化盘算的家产发展获得的第3个奖项。《财产》(Fortune Magazine)于1930年由亨利·卢斯创办,是全球最有影响力的商业杂志之一,财产全球500强排行榜是世界上最具影响的企业排名之一。中国最具社会影响力的守业公司榜单不仅记录守业公司在中国商业世界中的作为与贡献,也是观察和审阅当前中国经济与社会发展的窗口之一。财产在描述评选标准时提到,尽管外部环境对翻新与守业施加着无法预知的

    2022年 10月 9日
  • 国内首届AI宁静大赛圆满收官,上交大、北交大、北理工等夺得三项赛道冠军

    从长远看,人工智能的宁静问题,还需从算法模型的原理上突破,唯有持续加强基础钻研,才能破解核心科学问题。

    2022年 9月 16日
  • 如何通过呆板进修算法,将EV电池运用到极致?

    编译 / 刘梦婷近日,剑桥大学的研讨职员开发了一种呆板进修算法,可以通过展望分别的驾驭形式对电池性能的影响,帮助电动车削减充电时光,延长电池寿命,提高安全性和可靠性。研讨结果发表在《自然通讯》(Nature Communications)杂志上。该团队开发了一种非侵入式要领来检测电池,并获得电池整体健全状况。然后,将这些结果输入呆板进修算法,该算法可以展望分别驾驭形式将如何影响电池未来的健全状况。研讨职员表示,该算法可以通过建议路线和驾驭形式,最大限度地削减电池退步和充电时光,来充分利用电动汽车的电池。如果将其用于

    2022年 8月 25日
  • 只谈「手艺」,不谈「危险」?今晚,我们聊聊人工智能的AB面

    聚焦隐私计算、Deepfake、对抗进修等AI危险范围,精彩全分享。

    2021年 2月 7日
  • ASC22天下超算大赛启动会举行,华夏科学技术大学成为大赛东道主

    ASC22总决赛将于今年5月7日-11日在位于合肥的华夏科学技术大学举行。

    2022年 1月 21日
  • 现在入行CV还有前途吗?AI青年学者这样看「未来五年的计算机视觉」

    为了推动 AI 技巧的应用创新,促进人工智能范围的学术交流、人才培养,打造人工智能的人才交流平台与产业生态圈,中国人工智能学会联合杭州市余杭区人民政府联合发起了首届全球人工智能技巧创新大赛,并得到了阿里云、OPPO 等头部科技企业的积极参与和支持。阿里云天池平台为本次大赛提供平台和算力支撑。

    AI 青年说是大赛主办方为提升青年开发者对 AI 的认识而主办的系列活动,该活动邀请知名青年学者,探讨理论研究与应用实践中的热点话题。本文对 AI 青年说系列活动第三期「未来五年的计算机视觉」核心内容进行了总结回顾。

    2021年 4月 30日
  • “中关村智用人工智能同伴设计”报名已开放,八大效劳助力AI落地

    中关村智用人工智能同伴设计”(简称设计)报名已于2021年3月1日正式开放(报名链接:http://aizgc.org.cn/#/zhiyong/friend),并得到了人工智能财产各界的关注。某AI企业结合创始人李先生谈起同伴设计来满脸兴奋,据他介绍:同伴设计给他的创业带来了新的曙光,此前他的公司虽然拥有先进的手艺,但在寻找落地场景的道路上却一直坎坷,人脸识别等常识性使用场景已经是一片红海,想寻找手艺落地的蓝海场景,却又因为团队成员大都是信息手艺出身,对其他行业了解不多,既不知道哪些行业可能是潜在用户,即使知道,

    2021年 3月 29日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注