一个模型处理多种模态和工作,商汤等提出Uni-Perceiver,迈向通用预训练感知模型

来自商汤、西安交通大学等机构的研究者提出了一种通用感知架构 Uni-Perceiver ,该方法可以更好地将预训练中学到的知识迁移到下流工作中。

人脑可以整合分别模态的信息,并同时处理各项工作来感知世界。相比之下,当前机器学习研究者多是为分别的工作开发分别的模型和算法,并在特定于工作的数据上从事训练。然而,这种特定于工作的方法会大大增加为新工作开发模型的边际成本,无法满足快速增长的应用场景的需求。本文的研究者们希望提出一种通用感知架构,通过在多模态大规模数据上从事预训练得到良好的表征,并对分别下流工作运用同一套预训练参数;在应用于下流工作时,模型无需额外数据,或仅需少量的数据即可达到良好的效果。研究者们的核心想法是将分别模态的数据编码到同一的表示空间中,并将分别工作同一为相同的形式。这种同一的设计鼓励了分别模态和工作在表示学习中的协作,并且可以更好地将预训练中学到的知识迁移到下流工作中。由于工作形式的同一,该模型甚至可以对预训练阶段没有见过的新工作从事 zero-shot 推理。基于此想法,来自商汤、西安交通大学等机构的研究者们提出了 Uni-Perceiver 

一个模型处理多种模态和工作,商汤等提出Uni-Perceiver,迈向通用预训练感知模型

论文地址:https://arxiv.org/pdf/2112.01522.pdf图 1 对比了 Uni-Perceiver 和现有的为特定工作设计和训练的模型。Uni-Perceiver 以同一的模型处理各种模态和工作,在各种单模态工作以及多模态工作上从事了预训练。在下流工作上,由于对分别工作运用了同一的建模,模型显示了没有见过的新工作的 zero-shot 推理能力,不经任何额外训练也能达到合理的功能。此外,通过运用 1% 的下流工作数据从事 prompt tuning,模型功能可以提升到接近 SOTA 的水平。运用 100% 的标的数据对预训练模型从事微调时,Uni-Perceiver 在几乎所有工作上都达到了与 SOTA 方法相当或更好的结果。

一个模型处理多种模态和工作,商汤等提出Uni-Perceiver,迈向通用预训练感知模型

图 1 现有的特定于工作的感知模型和 Uni-Perceiver 的比较方法1. 同一的通用感知模型Uni-Perceiver 的同一模型架构如图 2 所示。模型首先将文本、图象、视频分别模态的数据运用对应的 tokenizer 转换为具有同一特征维度的 token 序列,并将分别模态的信息拼接起来,运用一个同一的 Transformer 编码器提取特征。对于分别的感知工作,Uni-Perceiver 运用相同的模型和共享的一套参数从事建模。相比于传统 backbone + prediction head 的范式,Uni-Perceiver 不包括对每个工作单独设计的 head,而是将分别的工作建模为同一的形式。具体而言,对于每个工作,可以定义其输入鸠合一个模型处理多种模态和工作,商汤等提出Uni-Perceiver,迈向通用预训练感知模型和候选标的鸠合一个模型处理多种模态和工作,商汤等提出Uni-Perceiver,迈向通用预训练感知模型。对于给定的输入一个模型处理多种模态和工作,商汤等提出Uni-Perceiver,迈向通用预训练感知模型,工作被定义为寻找x在候选标的鸠合一个模型处理多种模态和工作,商汤等提出Uni-Perceiver,迈向通用预训练感知模型中最相似的标的一个模型处理多种模态和工作,商汤等提出Uni-Perceiver,迈向通用预训练感知模型,即

一个模型处理多种模态和工作,商汤等提出Uni-Perceiver,迈向通用预训练感知模型

其中,p ( x , y ) 表示输入和候选标的的联合概率分布。Uni-Perceiver 运用特征的余弦相似度建模联合概率分布,即

一个模型处理多种模态和工作,商汤等提出Uni-Perceiver,迈向通用预训练感知模型

其中,一个模型处理多种模态和工作,商汤等提出Uni-Perceiver,迈向通用预训练感知模型表示 Transformer 编码器,一个模型处理多种模态和工作,商汤等提出Uni-Perceiver,迈向通用预训练感知模型表示一个可学习的温度系数。Uni-Perceiver 适用于任意由图象 / 视频 / 文本组成输入和候选标的鸠合的工作。例如,分类工作中的标的鸠合一个模型处理多种模态和工作,商汤等提出Uni-Perceiver,迈向通用预训练感知模型可以是一组类别名(如 dog)、一组类别描述(如 a kind of fish living in deep sea),甚至可以是一组手写的类别编号的图象。除此之外,作者在文中提到,这篇论文专注于文本、图象和视频模态,但 Uni-Perceiver 也可拓展到更多模态上。

一个模型处理多种模态和工作,商汤等提出Uni-Perceiver,迈向通用预训练感知模型

图 2 同一模型架构2. 多模态预训练为了学习多模态的通用 representation,Uni-Perceiver 运用一系列单模态或跨模态工作从事了预训练。值得一提的是,在图象和视频分类工作中,作者将类别名称视作文本内容,这为连接起图象、视频和文本多个模态的 representation 提供了一定的监督。图 3 展示了分别预训练工作的 input 和 target 的序列格式。图中,上标I、V、T分别代表来自图象、视频和文本模态的 token。

一个模型处理多种模态和工作,商汤等提出Uni-Perceiver,迈向通用预训练感知模型

图 3 预训练工作格式3. 应用于下流工作:Zero-shot, Prompt Tuning 和 Fine-tuning相比于额外增加 prediction head 并 finetune 的方式,Uni-Perceiver 可将预训练模型更高效地迁移到下流工作上。本文中,作者考虑三种分别场景:零样本(Zero-shot),少样本(Few-shot)和全量数据,并对三种情况分别介绍。在新工作上的 Zero-shot 推理:Uni-Perceiver 可以对预训练阶段没有见过的全新工作从事零样本推理,在不经过任何额外训练和调整的情况下取得合理的效果。Prompt Tuning:在下流工作数据量有限的场景下,通过 Prompt Tuning,Uni-Perceiver 可以在仅调整小部分模型参数的情况下取得接近全数据 SOTA 的结果。Fine-tuning:当下流工作数据量足够时,Uni-Perceiver 的预训练模型可以通过 fine-tuning 取得超过 SOTA 或与 SOTA 不相上下的结果。实验Uni-Perceiver 在表 1 所示的大规模单模态和多模态数据集上从事了训练。实验中,作者运用与 BERT-base 相同配置的 Transformer 编码器。在每次迭代中,每个 GPU 独立采样工作和数据集,并在梯度反向传播之后同步分别 GPU 之间的梯度。该模型在 128 个 Tesla V100 GPU 上以分布式方式从事了 50 万次迭代的预训练。 

一个模型处理多种模态和工作,商汤等提出Uni-Perceiver,迈向通用预训练感知模型

表 1 预训练数据集    研究者接下来在多项工作上对预训练模型从事了评估,包括预训练中出现过的工作(Image Classification, Image-Text Retrieval, Image Caption)以及与预训练分别的工作(Video Caption, Video-Text Retrieval, VQA)。表 2 – 表 8 展示了这些结果。实验表明,和具有相似模型尺寸的 task-specific SOTA 方法相比:

在不经任何调整的情况下,Uni-Perceiver 即可以达到合理的精度。值得注意的是,对于预训练中不存在的工作,由于 task-specific head 的限制,现有的其他工作无法执行这种类型的 zero-shot 推理。

通过 1% 的数据对少量模型参数从事 Prompt Tuning,Uni-Perceiver 即可以接近 SOTA 的效果。

进一步全数据 Fine-tune 可以使模型在某些工作上超过 SOTA 结果,并在其他工作上取得与 SOTA 相媲美的精度。

一个模型处理多种模态和工作,商汤等提出Uni-Perceiver,迈向通用预训练感知模型

表 2 Image Classification 功能

一个模型处理多种模态和工作,商汤等提出Uni-Perceiver,迈向通用预训练感知模型

表 3 Image-Text Retrieval 功能

一个模型处理多种模态和工作,商汤等提出Uni-Perceiver,迈向通用预训练感知模型

表 4 Image Caption 功能

一个模型处理多种模态和工作,商汤等提出Uni-Perceiver,迈向通用预训练感知模型

表 5 新工作 – Video Caption 功能

一个模型处理多种模态和工作,商汤等提出Uni-Perceiver,迈向通用预训练感知模型

表 6 新工作 – Video-Text Retrieval 功能

一个模型处理多种模态和工作,商汤等提出Uni-Perceiver,迈向通用预训练感知模型

表 7 新工作 – VQA 功能

一个模型处理多种模态和工作,商汤等提出Uni-Perceiver,迈向通用预训练感知模型

表 8 新工作 – GLUE 功能

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/yi-ge-mo-xing-chu-li-duo-zhong-mo-tai-he-gong-zuo-shang/

(0)
上一篇 2021年 12月 10日 下午4:29
下一篇 2021年 12月 13日 下午6:24

相关推荐

  • 5300亿参数的「威震天-图灵」,微软、英伟达合力造出超大语 言模型

    在微软和英伟达的共同努力下, Turing NLG 17B 和 Megatron-LM 模型的继承者诞生了:5300 亿参数,天生强大,它的名字叫做「Megatron-Turing」。

    2021年 10月 12日
  • 千寻地位亮相2022世界人工智能大会:首秀更精细化的数字孪生才智

     9月1日,2022世界人工智能大会在上海正式开幕。全球领先的时空智能基础设施公司——千寻地位网络有限公司(以下简称“千寻地位”)首次展示了具备精确时空才智的数字孪生产品在都会数字化、新基建建设等领域的利用,包括都会道路智能巡检和保护、高速公路高精度舆图收罗、智能矿山三维可视化办理等。今年的世界人工智能大会以“智联世界,元生无界”为主题,数字孪生、时空智能、元宇宙等硬核科技热门赛道备受关注。更精细化的数字孪生才智数字孪生是物理世界与数

    2022年 9月 1日
  • 姚班、智班之后,清华创造量子信息班,网友:简称「期(QI)班」?

    在姚班、智班之后,清华大学又创造了「量子信息班」。

    2021年 5月 25日
  • 【重磅】世界人工智能大会——2021全世界AI财产人材高峰论坛强势来袭!

    图灵奖得主、中外院士、独角兽企业掌门人云集;智能芯片、类脑智能、双碳经济、未来医院、数字家园等热点话题荟萃;人形机械人、训练芯片等首发展品精彩纷呈;超大规模预训练模型等尖端成果竞逐大奖;还有数字人民币、无人驾驶、智慧商业等鲜活体验。

    2021年 6月 23日
  • 论文分享 | 丢弃卷积,纯Transformer建立GAN收集

    最近,计算机视觉(CV)领域的钻研者对 Transformer 产生了极大的兴趣并陆续取得了不少突破。比如,2020 年 5 月,Facebook AI 的钻研者推出了 Transformer 的视觉版本——Detection Transformer,在性能上媲美当时的 SOTA 方法,但架构得到了极大简化;10 月,谷歌提出了 Vision Transformer (ViT),可以直接利用 transformer 对图像进行分类,而不需要卷积收集。

    2021年 2月 26日
  • 有bug!PyTorch在AMD CPU的计算机上卡死了

    AMD,No?PyTorch在AMD CPU的呆板上消失死锁了。

    2021年 3月 30日
  • 1.8M超轻量方向检测模型NanoDet,比YOLO跑得快,上线两天Star量超500

    如何把 anchor-free 模型移植到静止端或嵌入式设备?这个项目对单阶段检测模型三大模块(Head、Neck、Backbone)进行轻量化,得到模型大小仅 1.8m、速度超快的轻量级模型 NanoDet-m。

    2020年 11月 24日
  • google并未放弃TensorFlow,将于2023年发布新版,明确四大支柱

    2015 年,google大脑开放了一个名为「TensorFlow」的钻研项目,这款产品迅速流行起来,成为人工智能业界的主流深度进修框架,塑造了现代呆板进修的生态系统。从那时起,成千上万的开源贡献者以及众多的开发人员、社区组织者、钻研人员和教育工作者等都投入到这一开源软件库上。然而七年后的今天,故事的走向已经完全不同:google的 TensorFlow 失去了开发者的拥护。因为 TensorFlow 用户已经开始转向 Meta 推出的另一款框架 PyTorch。众多开发者都认为 TensorFlow 已经输掉了这场战争,并将其比

    2022年 10月 24日
  • 硬科技起飞,这家成立仅三年的AI钻研院已颇具国际风范

    摘要:「我认为历史上多数突破性钻研成果的出现都是偶然事件,而钻研机构所有努力都是为了提升这类偶然事件发生的概率。」张宏江说道。他所牵头的「革新型钻研院」,即是一种积极探索,短短3年已展现一派生机。

    2022年 1月 11日
  • 向英伟达发起挑衅的Groq是什么来头?简单科普新型AI芯片LPU

    这是一篇关于 LPU 的简单科普。在如今的人工智能领域,「GPU is All You Need」已经逐渐成为共识。没有充足的 GPU,连 OpenAI 都不能轻易升级 ChatGPT。不过最近,GPU 的地位也在经受挑衅:一家名为 Groq 的初创公司开发出了一种新的 AI 处置器 ——LPU(Language Processing Unit),其推理速率相较于英伟达 GPU 提高了 10 倍,老本却降低到十分之一。在一项展示中,LPU 以每秒超过 100 个词组的惊人速率执行了开源的大型

    2024年 3月 6日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注