专访唐杰 | 我国首个超大智能模型「悟道」发布,迎接鉴于模型的AI云时代

唐杰觉得,超大规模预训练模型的出现,很可能改变信息产业格局,继鉴于数据的互联网时代、鉴于算力的云计算时代之后,接下来可能将进入鉴于模型的 AI 时代。智源研讨院致力于成为这样一个时代的引领者,集聚各方资源力量,构建一个超大规模智能模型技术生态和开放平台,供北京乃至全国的研讨人员、开发者和企业使用。

自 2018 年谷歌发布 BERT 以来,预训练模型(Pre-trained Models,PTMs)逐渐成为自然语言处理(NLP)范围的主流。2020 年 5 月,OpenAI 发布了拥有 1750 亿参数量的预训练模型 GPT-3。作为一个语言天生模型,GPT-3 不仅能够天生流畅自然的文本,还能完成问答、翻译、创作小说等一系列 NLP 义务,甚至进行简单的算术运算,并且其本能在很多义务上都超越相关范围的专有模型,达到 SOTA 水平。很快,OpenAI 便开始了 GPT-3 的商业化探索,并催生了一系列落地使用,微软的巨额投资也立马跟进。同样看中 PTM 潜力的谷歌,在 2021 年初推出超级语言模型 Switch Transformer,将参数量提升至万亿级别。以 GPT-3 为代表的超大规模预训练模型,不仅以绝对的数据和算力优势彻底取代了一些小的算法和模型工程,更重要的是,它展示了一条探索通用人工智能极富潜力的路径。然而,作为全球使用人数第一的语言,华文 PTM 寥寥可数。在这样的发展态势下,构建以华文为核心的超大规模预训练模型及生态势在必行。2021 年 3 月 20 日,北京智源人工智能研讨院(下称「智源研讨院」)发布了我国首个超大规模智能模型系统「悟道」的第一阶段成果。「悟道」由智源研讨院牵头,汇聚清华、北大、人大、中科院等高校院所,以及诸多企业的 100 余位 AI 范围专家共同研发,从基础本能、有效使用到预训练模型扩展,提出一系列立异解决方法,取得多项国际领先的 AI 技术突破和多个世界第一。机械之心专访了智源研讨院学术副院长、清华大学教授唐杰。作为悟道项目负责人,唐杰分享了团队关于超大规模预训练模型的技术思考和战略布局,以及智源研讨院作为新一代 AI 研讨机构的优势。

专访唐杰 | 我国首个超大智能模型「悟道」发布,迎接鉴于模型的AI云时代

智源研讨院学术副院长、清华大学教授唐杰唐杰觉得,超大规模预训练模型的出现改变了 AI 产业格局,继鉴于数据的互联网时代、鉴于算力的云计算时代之后,接下来可能将进入鉴于模型的 AI 时代。而智源研讨院要做的,则是致力于成为这样一个时代的引领者,集聚各方资源力量,构建一个超大规模智能模型技术生态和开放平台,供北京乃至全国的研讨人员、开发者和企业使用。今后越来越多的人会使用云上的超大规模预训练模型作为其 AI 研讨和使用的基础。超大规模预训练模型系统将成为一种 AI 基础设施,推动理论研讨和技术使用更上一层。超大模型势在必行,迎接鉴于模型的 AI 时代AI 模型越做越大这件事不是最近才发生的。早在 3 年前便有人统计指出,计算机视觉范围的 SOTA 模型体积越来越大 [1]。NLP 范围亦然,从最早的 ELMo(5 亿参数)到后来的 Turing NLG(170 亿参数),GPT-3 更是将模型的体积和复杂度拔升至一个全新的境界。美国大规模在线预测征求和汇总引擎 Metaculus 曾做过一项调研,参加者预计 GPT-4 参数量的中位数大约在 2.5 万亿 [2]。唐杰表示,大模型可以包含更多数据,表示更多信息,模型往超大规模发展是一个必然的趋势。目前有很多团队都在做万亿级模型,国外有 DeepMind、谷歌Brain,国内有华为、快手等,研讨成果各有千秋。「谷歌在今年 1 月就已经推出了万亿参数模型,但精度上并没有提升很多。」因此,他推测 GPT-4 的参数规模很有可能上万亿,不仅如此,OpenAI 还会强调模型在众多义务上精度的提高。智源也在布局万亿级模型,包括配套的高本能算力平台。不过,唐杰表示,由于万亿级模型参数量过于庞大,模型设计非常复杂,训练耗时长,直接使用还存在一定困难,很多时候反而不如百亿级的模型。在现阶段的实际使用中,充分利用数据,参数规模更小的模型常常能实行更好的本能。目前,悟道团队一方面扩大模型的规模,让模型的表示能力更强,一方面针对实际使用,提高精度。此外,还在模型微调算法上进行立异,希望早日打通百亿级模型和万亿级模型的桥梁。「如果能用万亿级模型在一些义务上取得本能的显著提升,这将是一个里程碑式的进步。」唐杰说。

专访唐杰 | 我国首个超大智能模型「悟道」发布,迎接鉴于模型的AI云时代

随着算力的不断提升,我们现在可以训练越来越大的模型。或许有一天,真能出现与人脑突触量级相当的 100 万亿参数模型。即便这样的模型真能做出来,训练也势必花费巨资,动辄数十亿美元。超大规模预训练模型只能是有钱人的游戏吗?小团队如何立异?对此,唐杰的看法是,人工智能发展可以分为这样几个阶段:继鉴于数据的互联网时代、鉴于算力的云计算时代之后,接下来可能将进入鉴于模型的 AI 时代,相当于把数据提升为超大规模预训练模型。未来,研讨人员可以直接在云模型上进行微调,很多公司甚至不用维护自己的算法研发团队,只需要简单的使用工程师就行。超大规模预训练模型系统的开放,小团队可以说是最大的受益者,大家不必从零开始,预训练基线智能水平大幅提升,平台多样化、规模化,大家在云上可以找到自己所需的模型,剩下的就是对行业、对场景的了解。这将给 AI 使用立异带来一个全新的局面。至于基础研讨,唐杰说:「理论上可以研讨得更深、更系统了,以前研讨这个模型使用这种数学方法好,现在可以摆到台面上、扩大到更广的范围来。」「数据规模化的使用,将促使业界和有关机构更深入地讨论哪些内容可以学、哪些内容不能学,更加注重 AI 伦理、数据隐私、保密和安全等问题。」智源悟道 1.0 阶段性成果发布,取得多项世界第一智源研讨院自 2020 年 10 月正式启动超大规模智能模型「悟道」项目,悟道 1.0 已启动了 4 个大模型的开发,取得多项国际领先 AI 技术突破,持续填补我国研讨范围空白:悟道 · 文汇——首个面向认知的超大规模新型预训练模型该模型在多项义务中表现已接近突破图灵测试,通过简单微调即可实行 AI 作诗、AI 作图、AI 制作视频、图文天生、图文检索和一定程度的复杂推理。尤其是 AI 作诗方面,已接近诗人水平,并能首次实行根据现代概念天生古体诗。文汇的最终目标是研发出更通用且本能超越国际水平的预训练模型,搭建预训练模型体系,形成认知智能的生态。悟道 · 文澜——首个超大规模多模态预训练模型该模型鉴于从公开来源收集并脱敏的 5000 万个图文对上进行训练,本能已达国际领先水平,在华文公开多模态测试集 AIC-ICC 的图像天生描述义务中,得分比冠军队高出 5%;采用双塔模型,在图文互检义务中,得分比目前最流行的 UNITER 模型高出 20%。最终目标是天生产业级华文图文预训练模型和使用。目前,文澜模型已对外开放 API。悟道 · 文源——首个以华文为核心的超大规模预训练模型该模型目前参数量 26 亿,预训练数据规模 100 GB,具备识记、了解、检索、多语言等多种能力,并覆盖开放域回答、语法改错、情感分析等 20 种主流华文自然语言处理义务,技术能力已与 GPT-3 实行齐平。最终目标是构建完成全球规模最大的、以华文为核心的预训练语言模型,探索具有通用能力的自然语言了解技术,进行脑启发的语言模型研讨。悟道 · 文溯——超大规模蛋白质序列预测预训练模型该模型已在蛋白质方面完成鉴于 100GB UniParc 数据库训练的 BERT 模型,在基因方面完成鉴于 5-10 万规模的人外周血免疫细胞(细胞类型 25-30 种)和 1 万耐药菌的数据训练,同时搭建训练软件框架并验证其可扩展性。最终目标是以基因范围认知图谱为指导,研发出可以处理超长蛋白质序列的超大规模预训练模型,在基本本能、可解释性和鲁棒性等多个方面达到世界领先水平。同时,悟道数据团队还构建并开放了全球最大华文语料数据库 WuDaoCorpora,数据规模达 2TB,超出之前全球最大华文语料库 CLUECorpus2020 十倍以上。该数据库不仅为悟道项目提供了数据支撑,由于来源广泛及多样性,可广泛用于华文 NLP 范围中多种义务的模型训练,并使模型具有更好的泛化性。数据经过了专门的清洗,确保隐私和安全及保密问题。为进一步实行模型规模和本能的扩增中面临的挑战,悟道系统团队还开源了 FastMoE,作为首个支持 PyTorch 框架的高本能 MoE 系统,打破了行业研讨受制于谷歌的局限,支持多种硬件,只需一行代码即可完成 MoE 化改造,相比 PyTorch 朴素实行速度提升 47 倍。

专访唐杰 | 我国首个超大智能模型「悟道」发布,迎接鉴于模型的AI云时代

所有的 NLP 义务都是天生义务唐杰觉得,超大规模预训练模型有三个关键:首先,模型本身,这也是团队智慧的体现;其次,大算力;第三,高质量的数据。目前,悟道团队在模型设计上:第一,针对复杂义务设计模型,通过记忆机理或者类似于推理的机理,把一些更远的上下文信息加入到预训练中;第二,在把模型做大的过程中,要能加速模型收敛性;第三,在后端的微调算法上探索,提高模型的可用性,把下游义务的精度大大提高。在此次发布的多项突破中,由唐杰率领的悟道文汇团队提出全新的预训练范式 GLM,以天生为核心,打破 BERT 和 GPT 瓶颈,同时在语言了解、天生和 Seq2Seq 义务上取得最佳本能。文汇团队还提出了鉴于连续向量的微调算法 P-Tuning,首次实行自回归模型在了解义务上超越自编码模型,并在学问抽取 (LAMA)、少样本学习 (Superglue Fewshot) 等 10 多个义务上取得世界第一,本能提升超 20%。

专访唐杰 | 我国首个超大智能模型「悟道」发布,迎接鉴于模型的AI云时代

GLM:鉴于天生的通用预训练框架谈到 GLM 的技术实行思路,唐杰表示,鉴于双向模型 BERT 和 GPT 各自在了解和天生上的优势,团队便思考如何将这两个模型的优点融合在一起。随着研讨的进行,他们修改了优化结合的方式,在优化目标函数上做了尝试。再后来发现,auto-encoder、seq-seq 以及填空义务等都可以整合到天生模型中,所有的 NLP 义务都可以被视为天生义务,统一在一个通用框架下。唐杰表示,机械学习的传统上可以分为判别模型和天生模型,这两大派系也在不断融合。当数据量少的情况下,判别模型的效果会更好;而天生模型则比较复杂,需要在「了解」的基础上进行判别,而大数据、大模型、大算力的到来,为天生模型提供了基础,计算机可以实行鉴于大参数的「了解」,这也是如今天生式方法成为机械学习大态势的原因。至于是否可以将天生看作是「了解」,「其实这是一个哲学问题」,唐杰说。计算机到底需不需要「了解」,人类「了解」的本质又是什么?对此,悟道团队做了很多的思考。最简化地讲,人类的了解分三个层次:第一种可以叫做人脑学问 query,把已经记住的学问查取出来;第二种叫 case based,鉴于以前的认知和经验来完成新的义务;第三种叫随机推理,也叫试错性推理。人类的这三种推理方式,其实计算机都可以实行。唐杰觉得,当有一天计算机在众多义务上通过了图灵测试,就可以把计算机「了解」问题的引号去掉了。数据和学问双轮驱动的通用 AI 之路假设有一个囊括全世界所有数据的模型,我们想要完成什么义务,给它输入,模型返回多个候选结果,人类在此基础上进行调整完善,再将结果反馈给模型,让其优化。与此同时,模型自身也能不断地从网络上抓取数据进行自我学习…… 长此以往,最终获得的模型,是否就是通用 AI 呢?唐杰说,「这其实也涉及到一个哲学问题」。关于计算机能否像人一样思考,甚至超越人类智慧,「很多人包括我自己在内,都是不相信,或者说不敢这样觉得的。但是,现在我的想法转变了,我觉得计算机实行乃至超越人类智能是可以实行的。」悟道大规模预训练模型系统的目标,便是从更本质角度进一步探索通用人工智能,让机械像人一样思考,让模型具有认知能力。对于神经科学和人脑的思维方式,唐杰表示自己的发言权十分有限,但总的来讲,如果可以用计算机模型实行人类认知的 9 个准则,那么他觉得计算机就可以被称为具有认知能力。

专访唐杰 | 我国首个超大智能模型「悟道」发布,迎接鉴于模型的AI云时代

认知 AI 需要具有的 9 大能力但他也补充说,如果那一天实行了,也不代表计算机就把人脑颠覆了,也许到那一天,我们人脑也会进步。「人的思维,包括我们的学习能力和进化能力,尤其是当人类处于压力情况下,我们会往前大大进化一步。而且,人的思维方式和思维的本质目前也没有真正得到一个结论。」像刚才说的那样,让模型包含尽可能多的数据,并从数据中提出内容,一般被称为人工智能研讨的「纯学习派」。同时,还有另一个派系,也就是传统「符号 AI」,觉得只需要把学问表示出来,计算机做搜索、匹配就可以了。悟道团队走的是将学问与数据相结合的路线,这也是张钹院士在几年前提出的看法。「悟道在用两条腿走路」,唐杰说:「一条腿是数据模型,另一条腿是学问图谱。」一方面把学问图谱做得非常大,另一方面,把学问图谱放到预训练模型中,抽取学问图谱反哺模型,进行双轮驱动,「我觉得这是当前实行通用人工智能最有前景的方法」。唐杰表示,我们应该允许机械犯错,犯错不可怕,最关键是要知道错误的原因。人的认知中有一个试错过程,意识到错误会反馈修改。「什么叫做『立异』?人通过试错,如果试对了,就是一种『立异』。」尽管在受限范围,计算机已经可以自我纠错,比如 AlphaZero,在下棋过程中会感知自己走错了,然后进行反馈,自我进化。但在通用范围,计算机是没有这个反馈的,它错了以后没法修正,甚至不知道自己错了。那把受限范围都集中到一起,是否就能让机械在通用范围自我纠错了呢?唐杰指出,这是数据和学问的一个悖论,人总觉得自己的学问是无限扩张的,人每天都可以创造新的学问,无法把所有学问都装在机械里。而机械天生的内容,很多人不觉得是学问或者「立异」,而只是一种组合。「如果有一天机械发现的东西获得了诺贝尔奖,那我觉得就可以视机械能够『立异』。」科学没有高下之分,只看能在多大程度上解决 Why 与 How「哲学」这个词在采访中多次出现;超大规模预训练模型的出现,让唐杰从不相信、不敢觉得,到相信机械的智能可能超越人类。但是,也有观点觉得大规模预训练模型是大数据、大算力之下的暴力美学,缺乏对世界本源的了解。唐杰觉得,这个世界上科学就两种,一种是回答 Why,一种是 How。而回答 Why 有两个范畴,一个叫做基础理论科学,另一个叫做工程科学,两者没有高下之分。至于 How,则是看研讨成果使用范围有多广,以及真正能推动哪些产业进步。具体到超大规模预训练模型,唐杰觉得模型上云是一个大的方向,将来谁可以成为模型上云引领者,推动整个产业的发展,谁就是最终的成就者,「这就是所说的 how 以及谁能做这个事」。而探究人脑思维则是在回答 Why。「科学的本质是什么?为什么人脑的思维就一定要强过计算机?对此我们可以大胆质疑,小心求证,大家说人类智能比机械好,我们可以反过来问,为什么机械的智能不能比人好?这是回答 Why 的过程。」唐杰表示,科研成果的评价指标需要根据不同的行业、不同的场景来判别,归根结底是看能在多大程度上解决了 Why 与 How,是否真正推进了社会的进步。就像万亿级参数模型,可能这个世界上 99% 的公司都用不上,但是作为科研探索很重要。要做就做最难的、对标最好的智源悟道 1.0 的发布,标志着「智源模式」取得阶段性实质进展。作为新型的 AI 研讨机构,智源研讨院聚焦原始立异与核心技术,致力于建立自由探索与目标导向相结合的科研体制。作为北京市 AI 战略科技平台,智源从创立以来,在科研机制上进行了多种尝试,比如「智源学者计划」,支持科学家勇闯无人区,「就是想做什么就做什么,」唐杰说:「只要够牛,要么回答了 how,要么回答了 why,而且是别人做不到的。」同时,智源研讨院也会围绕目标明确、有战略意义的大项目,灵活机动地组织跨学科、跨机构的专业研讨和工程人员,组成紧密协作的大规模团队,共同攻关,比如这次的超大规模智能模型系统项目。「GPT-3 出来以后,我们看到市场未来产业化的发展,从数据云到计算云到模型云,这是一个大的趋势,智源研讨院有义务、也有能力来引领,因此迅速确定目标,组织团队。」唐杰说:「每个参与方,包括高校、企业和研讨院所,都是带有目标、带有资源、带有情怀的,因此能够通力协作。」唐杰介绍说,悟道 1.0 只是一个阶段性的成果,今年 6 月将会有一个更大、更高的智慧模型发布。第一,模型规模会有实质性的进展;第二,模型会在更多义务上突破图灵测试;第三,把使用平台做得更加夯实。后续悟道模型将以开放 API 的形式对外提供服务,用户通过申请并经授权后,可以鉴于模型 API 开发各类智能化使用。另外,也会开源模型的社区版本,服务我国 AI 科研发展。「我们希望每一个我们做的东西一定是世界上最好的,如果不能做到最好,那就不做了。或者,如果很多人都能做得比较好,我们也不做,我们就要做最难的,对标最好的,包括我自己的定位。」「此外,光盯着现在的事情我们也不做,我们要瞄向下一步,十年以后、二十年以后人工智能是什么样子,我们觉得能做就会去做。认知 AI 是我特别看好的,预训练模型和学问数据双轮驱动,是实行通用 AI 的其中一个办法。我非常坚信,十年、二十年以后,计算机在很多义务上就能突破图灵测试。」注释[1] https://heartbeat.fritz.ai/deep-learning-has-a-size-problem-ea601304cd8[2] https://www.metaculus.com/questions/4852/how-many-parameters-will-gpt-4-have-if-it-is-released-in-billions-of-parameters/

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/zhuan-fang-tang-jie-wo-guo-shou-ge-chao-da-zhi-neng-mo-xing/

(0)
上一篇 2021年 3月 29日 下午6:19
下一篇 2021年 3月 30日 下午2:43

相关推荐

  • FC 2022 | 基于博弈论分析的非同质化代币证券化与回购商场

    本文是 FC 2022入选论文《ABSNFT: Securitization and Repurchase Scheme for Non-Fungible Tokens Based on Game Theoretical Analysis》的解读。该论文为北京大学前沿计算研究中心算法博弈论实验室2021年暑期夏令营的科研结果,指导老师为北京大学前沿计算研究中心邓小铁教授和苏州科技大学程郁琨教授。文章提出了一种将区块链上的非同质化代币(Non-Fungible Token, NFT)进行证券化与回购的规划,并基于博弈论对该规划进行理论分析。

    2022年 7月 18日
  • 学术交换、干货分享!2021WAIC·隐衷计较学术交换会报名开启!

    自数据成为新的生产要素后,数据流通与共享就成为热点关切,相关政策与立法也不断往纵深推进。比如《汽车数据安全管理若干规定(征求意见稿)》是国内汽车数据规模的首次立法尝试,代表了典型传统行业在数据治理上的实践。而最新《深圳经济特区数据条例(征求意见稿)》探索建立数据交易制度,更是立法层面促进释放数据价值的创新亮点。如何基于数据安全、隐衷保护前提下,链接数据、实现多方协同释放数据价值?——隐衷计较技术,成为该命题的破题之举。作为实现数据可用不可见的技术体系,隐衷计较技术正成为数据安全保护和企业发挥

    2021年 6月 17日
  • 特朗普签行政令禁用8款华夏APP:支付宝、微信、QQ在列

    若行政令失效,45 天之后这些利用在美国的交易将视为非法。

    2021年 1月 6日
  • JUST技术:提升基于GPS轨迹的路网断定精确度

    路网数据对于城市中的很多应用,比如车载导航和线路优化等,都非常重要。传统的路途数据采集方式依赖于采集车,消耗大量的人力物力。随着GPS设备的普及,海量轨迹数据在城市里产生,使我们能够用轨迹数据去天生路网。这个问题在近十年中已经有了广泛的研究,但是其中很多方式的精确度(precision)并不高,特别是上下路途,平行路途等地方。由于轨迹数据在城市内并不是均匀分散的,对于那些车辆频繁通行的地方,我们有没有办法进一步提高这些区域路网断定的精确度呢?

    2021年 4月 7日
  • 免费、开源的PyTorch IDE来了!跨三大操作系统,还带视频教程

    经过数月的封闭测试后,TorchStudio 现在终于来了。

    2022年 3月 1日
  • 视频天生无需GAN、VAE,谷歌用聚集模型联合训练视频、图象,实现新SOTA

    聚集模型正在不断的「攻城略地」。

    2022年 4月 10日
  • 智加科技完成总计4.2亿美元新一轮融资

    2021年3月31日,重卡主动驾驭公司智加科技(Plus)继上月宣布2亿美元融资之后,完成新一轮2.2亿美元融资,方源本钱(FountainVest Partners)和锴明投资(ClearVue Partners) 领投,上汽本钱、红杉中国、满帮集团、广达电脑(Quanta Computer Inc.)、卓易本钱(Phi Zoyi Capital)、千禧本钱(Millennium Technology Value Partners)跟投。智加本轮融资总额达到4.2亿美元,其他投资人包含国泰君安国际,CPE等。据了

    2021年 3月 31日
  • Creator 面对面 | 大模型的末尾一千米路“不太平”

    自 2018 年谷歌推出 BERT 以来,语言模型就开始朝着「大模型」的标的目的演进。21 年诸如华为联合鹏城实验室 2000 亿参数的盘古、谷歌 1.6 万亿参数的 Switch Transfomer、智源研究院 1.75 万亿参数的的悟道 2.0 等相继产出。

    2022年 7月 19日
  • 元宇宙的前世今生,业内大佬带你一遍过!

    本篇文章讲述了元宇宙从业者从(1)元宇宙是什么(2)元宇宙需要的要素以及(3)元宇宙如何步入主流社会的观点,带你清晰地认识元宇宙的当下存在的问题以及未来发展的趋势。

    2022年 11月 11日
  • 揭秘Hologres如何支持超高QPS在线办事(点查)场景

    Hologres(中文名交互式分解)是阿里云自研的一站式及时数仓,这个云原生系统融合了及时办事和分解大数据的场景,全面兼容PostgreSQL协定并与大数据生态无缝打通,能用同一套数据架构同时支持及时写入及时盘问以及及时离线联邦分解。它的出现简化了业务的架构,为业务提供及时决策的能力,让大数据发挥出更大的商业价值。本期将为大家揭秘Hologres如何支持超高QPS点查。传统的 OLAP 系统在业务中往往扮演着比较静态的角色,以通过分解海量的数据得到业务的洞察(比如说预计算好的视图、模型等),从这些海量数据分解到的结

    2021年 7月 29日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注