面向认知,智源研究院联合清华大学、阿里巴巴、搜狗等发布超大规模新型预训练模型“悟道·文汇”

2021年1月11日,由北京智源人工智能研究院(以下简称“智源研究院”)、阿里巴巴、清华大学、中国人民大学、中国科学院、搜狗、智谱.AI、循环智能等单位的科研骨干成立“悟道”联合攻关团队,发布了面向认知的超大规模新型预训练模型“文汇”,旨在探索解决当前大规模自监督预训练模型不具有认知能力的问题。“文汇”模型不仅使用数据驱动的方法来建构预训练模型,还将用户行为、常识知识以及认知联系起来,主动“学习”

2021年1月11日,由北京智源人工智能研究院(以下简称“智源研究院”)、阿里巴巴、清华大学、中国人民大学、中国科学院、搜狗、智谱.AI、循环智能等单位的科研骨干成立“悟道”联合攻关团队,发布了面向认知的超大规模新型预训练模型“文汇”,旨在探索解决当前大规模自监督预训练模型不具有认知能力的问题。“文汇”模型不仅使用数据驱动的方法来建构预训练模型,还将用户行为、常识知识以及认知联系起来,主动“学习”与创造。本次发布的“文汇”模型与1月初OpenAI刚刚发布的DALL·E和CLIP这两个连接文本与图象的大规模预训练模型类似,“文汇”模型能够学习不同模态(文本和视觉领域为主)之间的概念,可以实现“用图生文”等义务,具有一定的认知能力。“文汇”模型参数规模达113亿,仅次于DALL·E模型的120亿参数量,是目前我国规模最大的预训练模型,并已实现与国际领先预训练技术的并跑。

自从2020年5月,OpenAI发布迄今为止全球规模最大的预训练模型GPT-3以来,超大规模预训练模型就成为人工智能领域研究的热点。OpenAI、谷歌、Facebook等国际IT公司都在持续推动大规模预训练模型的进一步发展。可以预测到的是,未来的GPT-4参数又会增大至少10倍,而且处理的数据将会更加多模态(文字、图象、视觉、声音)。

虽然GPT-3在多项义务中表现出色,但它最大的问题是没有常识,不具有认知能力。例如,向GPT-3提问第一个问题“长颈鹿有几个眼睛?”GPT-3回答是两个眼睛,再提问第二个问题“我的脚有几个眼睛?”GPT-3回答的结果也是两个眼睛,这就不符合人类常识。智源研究院学术副院长、清华大学计算机系唐杰教授认为,GPT-3等超大型预训练模型在处理复杂的认知推理义务上,例如开放对话、鉴于知识的问答、可控文本天生等,结果仍然与人类智能有较大差距。

为推动研发我国自主的大规模预训练模型,解决目前国际主流模型存在的问题,2020年10月,智源研究院启动了新型超大规模预训练模型研发项目“悟道”。此次发布的是“文汇”(面向认知的超大规模新型预训练模型)的一期研发成果,用于自动天生图片、文字以及视频,可具有初级认知能力。智源研究院院长、北京大学信息技术学院黄铁军教授指出,“文汇”模型针对性地设计了多义务预训练的方法,可以同时学习文→文、图→文以及图文→文等多项义务,实现对多个不同模态的概念理解。经过预训练的“文汇”模型不需要进行微调就可以完成“用图生文”等义务,对模型进行微调则可以灵活地接入如视觉问答、视觉推理等义务。

一、面向认知的大规模文本预训练模型“文汇”的基本情况

“文汇”是面向认知的大规模预训练模型,项目研究组提出了针对多模态认知天生的大规模预训练的模型M6:MultiModality-to-MultiModality Multi-task Mega-Transformer。模型整体架构鉴于Transformer,其中图象进行切块并对块采用ResNet-50提取特征。这些特征以及对应的position embedding让图象和文本能组合在一起送入模型。团队针对性地设计了多义务预训练的方法,通过灵活的mask技巧实现多义务学习。

面向认知,智源研究院联合清华大学、阿里巴巴、搜狗等发布超大规模新型预训练模型“悟道·文汇”

系统工程上,采用阿里统一多种并行策略的高性能、灵活、易用的分布式框架Whale,使用模型并行+流水并行+数据并行训练进行分布式训练,256卡训练速度是8GPU的29.4倍,加速比接近线性。鉴于华文百科、知乎、问答三类数据则由搜狗提供。

与GPT不同,研究人员使用Transformer-XL来替换了GPT中原来的Transformer模型,从而能够天生超过Transformer的窗口长度(一般为512)的文本。如下图所示,GPT-XL能够天生鉴于人设的文本,较好的保持了内容一致性。

面向认知,智源研究院联合清华大学、阿里巴巴、搜狗等发布超大规模新型预训练模型“悟道·文汇”

面向认知,智源研究院联合清华大学、阿里巴巴、搜狗等发布超大规模新型预训练模型“悟道·文汇”

二、“文汇”模型使用即将上线

目前,“文汇”已支持鉴于认知推理的多种自然谈话及跨模态使用义务,部分使用即将与搜狗、阿里巴巴、学堂在线、智谱.AI、循环智能等机构合作上线。目前已有四个样例使用可用于展示模型效果。

1.鉴于上传图片的开放域问答

本使用鉴于图片文本的多模态认知预训练百亿模型,可以支持用户上传图片后,针对图片内容进行提问或天生图片的一句话描述。如上传图片后询问“图片中的电脑在水杯的什么位置?”或“天生对应商品图片的一句话描述”。将于未来大规模使用于阿里的电商场景。

面向认知,智源研究院联合清华大学、阿里巴巴、搜狗等发布超大规模新型预训练模型“悟道·文汇”

2.Talk to Data,用谈话操作数据可视化

本使用鉴于数据可视化技术,通过将自然谈话转化为可视化查询语句QUDA,从而达到“上传图表,输入指令,输出可视化图象”的功能目标。只需要一句自然谈话的话,就可以实现数据的可视化自动统计与查询。 面向认知,智源研究院联合清华大学、阿里巴巴、搜狗等发布超大规模新型预训练模型“悟道·文汇”

3.鉴于预训练谈话模型的诗词创作使用

本使用可以鉴于输入的诗歌题目、朝代、作者,天生仿古诗词。与传统鉴于规则或监督学习的诗歌天生不同,这个使用创作的诗歌来自于自然谈话的天生,且无标注数据进行fine-tune,并且可以模仿任意诗人创作任意新颖题目的诗歌,如《赠抗疫英雄》 唐 李白。

面向认知,智源研究院联合清华大学、阿里巴巴、搜狗等发布超大规模新型预训练模型“悟道·文汇”

下面是鉴于模型自动作诗的结果:

面向认知,智源研究院联合清华大学、阿里巴巴、搜狗等发布超大规模新型预训练模型“悟道·文汇”  

4.可控人设的开放域问答

本使用支持用户上传问题,并天生具有人物角色风格的定制化文本回答。与传统的开放式问答不同,“文汇”模型天生的答案具有人设的谈话特色,问答内容趣味横生。目前该使用将计划在搜狗的问答场景中使用。

面向认知,智源研究院联合清华大学、阿里巴巴、搜狗等发布超大规模新型预训练模型“悟道·文汇” 三、“悟道”项目下一步研发计划

目前,“悟道”项目研究团队正在视觉等更广泛的范围内,对大规模自监督预训练方法开展探索研究,已经启动了四类大规模预训练模型研制,包括“文源”(以华文为核心的超大规模预训练谈话模型)、“文汇”(面向认知的超大规模新型预训练模型)、“文澜”(超大规模多模态预训练模型)和“文溯”(超大规模蛋白质序列预训练模型)。2020年11月14日,智源研究院已发布了“文源”(以华文为核心的超大规模预训练谈话模型)第一阶段26亿参数规模的华文谈话模型。下一步,智源研究院将联合优势单位加快四类大规模预训练模型的研发进度。特别是“文汇”模型,未来将着力在多谈话、多模态条件下,提升完成开放对话、鉴于知识的问答、可控文本天生等复杂认知推理义务的能力,使其更加接近人类水平。计划在今年6月实现“华文自然谈话使用系统”“鉴于图文增强和知识融入的图文使用系统”“鉴于认知的复杂认知系统”等一批各具特色的超大规模预训练模型,以期达到对国际领先AI技术的赶超,尽快实现我国在国际AI前沿技术研究的领跑。

原创文章,作者:新闻助手,如若转载,请注明出处:https://www.iaiol.com/news/mian-xiang-ren-zhi-zhi-yuan-yan-jiu-yuan-lian-he-qing-hua/

(0)
上一篇 2021年 1月 8日 下午3:35
下一篇 2021年 1月 12日 下午2:49

相关推荐

  • 机器之心ACL 2022论文分享会干货集锦,6月邀你来CVPR分享会

    ​作为国际最受关注的自然谈话处理顶级会议,每年的 ACL 都吸引了大量华人学者投稿、参会。今年的 ACL 大会已是第 60 届,于 5 月 22-5 月 27 日期间举办。

    2022年 5月 27日
  • 我,波士顿能源的机器人工程师,这是我的一天

    波士顿能源大家都很熟悉,但该公司员工的任务和生活却很少有人了解。特别是新冠疫情在美国的蔓延,员工的日常任务和生活不可避免地受到了影响。本文就带大家看看波士顿能源的员工如何度过自己的一天。

    2021年 5月 27日
  • Creator 面对面 | 听「学长」唠唠读完博士后的故事

    博士毕业或只是科研生涯的起点,下一程是留在学界、去向业界,还是出发守业?

    2022年 7月 19日
  • WAIC开发者日Workshop预告:超参数科技如何索求海量AI计划问题

    近年来,无论是在学术研究还是产业落地层面,关注的焦点都在从智能感知向智能计划阶段过渡。「计划 AI」逐渐成为热点问题,不管是谷歌、微软、IBM 等全球科技巨头,还是国内一众 AI 龙头企业,均积极投身于智能计划的相关研究。其中,海量 AI 如何在大型开放世界做智能计划,是推动智能计划手艺发展、加速社会智能化转型的重要问题,也是人工智能领域的手艺难题之一。为深入研究海量 AI 前沿问题,超参数科技联合麻省理工学院、清华大学深圳国际研究生院,以及数据科学挑战平台 Alcrowd 主办了 Neural MMO 系列挑战赛

    2022年 8月 30日
  • “中关村智用人工智能同伴设计”报名已开放,八大效劳助力AI落地

    中关村智用人工智能同伴设计”(简称设计)报名已于2021年3月1日正式开放(报名链接:http://aizgc.org.cn/#/zhiyong/friend),并得到了人工智能财产各界的关注。某AI企业结合创始人李先生谈起同伴设计来满脸兴奋,据他介绍:同伴设计给他的创业带来了新的曙光,此前他的公司虽然拥有先进的手艺,但在寻找落地场景的道路上却一直坎坷,人脸识别等常识性使用场景已经是一片红海,想寻找手艺落地的蓝海场景,却又因为团队成员大都是信息手艺出身,对其他行业了解不多,既不知道哪些行业可能是潜在用户,即使知道,

    2021年 3月 29日
  • 超越现有标的57.3%,邢波教授、胡志挺教授团队提出一致NLG评估框架

    长期以来,评估机器天生的文本比较困难。近日,CMU邢波(Eric Xing)教授和UCSD胡志挺(Zhiting Hu)教授的团队提出用一种运算符,一致各类天生恣意的评估方式,为未来各种新恣意、新要求提供了更加一致的指导。实验表明,基于一致框架安排的评估标的,在多个恣意上超过了现有标的与野生评分的类似度,现在通过PyPI和GitHub可以直接调用。

    2022年 1月 28日
  • Snowflake如日中天是否代表Hadoop已死?大数据体系到底是什么?

    作者 | 阿里云计较平台研究员关涛、阿里巴巴项目管理专家王璀任何一种手艺都会经历从阳春白雪到下里巴人的过程,就像我们对计较机的理解从“戴着鞋套才能进的机房”变成了随处可见的智能手机。在前面20年中,大数据手艺也经历了这样的过程,从曾经高高在上的 “火箭科技(rocket science)”,成为了人人普惠的手艺。回首来看,大数据落后初期涌现了非常多开源和自研体系,并在同一个范畴展开了相当长的一段“红海”竞争期,例如Yarn VS Mesos、Hive VS Spark、Flink VS SparkStreaming

    2021年 8月 11日
  • 教授何恺明在MIT的第一堂课

    700 座的大教室,相比去年增加一倍容量,仍然座无虚席:这就是麻省理工学院(MIT)计算机视觉课《Advances in Computer Vision》6.8300 在 2024 新学期的盛况。今年是四位教授,每人负责一部分课程:课程信息:https://advances-in-vision.github.io/index.html有网友评论说,能选上这课的学生太幸运了,每节都是计算机视觉顶会 CVPR Oral 的体验。对于很多人来说,其中最为期待的自然是新晋教授何恺明的课。MIT 电气工程与计算机科学系副教授

    2024年 3月 11日
  • Interact Analysis 年度陈诉发布 见证极智嘉稳居全世界仓储机器人商场绝对领先地位

    近日,全世界权威研究机构Interact Analysis重磅发布《2022移动机器人商场陈诉》(The Mobile Robot Market-2022),对移动机器人在全世界仓储和制造范畴的运用现状、商场环境和发展趋势进行了全面分析和展望。陈诉指出,移动机器人商场在2021年大幅增进,从相对疲软的2020年有所回升,出货量增进超过70%。长期来看,劳动力稀缺、劳动力成本上升、电子商务增进、柔性制造转型这些驱动力将一如既往强劲,陆续推动着移动机器人商场发展。预测未来五年,移动机器人的出货量将继续以每年约50%的速度增

    2022年 11月 23日
  • 万字长文:上海交大校友、宾大直博博士细说五年读博经验

    一个「别人家的孩子」,读博时却被导师严厉批评:「你有认真地思考吗?」「你进组曾经半年了,你学到了什么东西?」伴随着这种压力,他顺利完成了自己的博士论文,并收获了导师的赞许。在这篇长文中,本科上海交大的宾夕法尼亚大学博士Zhenbang Dai介绍了自己五年的读博经验,希望让人们了解到博士生们的歇息是什么样子的,从而对博士生们多一份明白,也希望给即将或正在读博的同学一些鼓励或安慰,让他们能够更理智地看待读博并制定相应的计划。前言2022 年 7 月 29 日,在跟我的导师 Andrew 和组里的其他人道别后,我在宾大

    2022年 8月 11日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注