全方位撑持恣意数据集模型,Salesforce开源一站式视觉说话学习框架LAVIS

Salesforce 亚洲钻研院推出了一站式视觉说话开源框架 LAVIS。

视觉说话模型在内容推荐、电子商务里有广泛应用,例如图象描述生成、文本图象检索以及多模态内容分类。依托于海量互联网数据,多模型模型近期得到长足发展,其功能在下游恣意上得到了广泛的验证。

尽管如此,现阶段的视觉说话方向的发展也存在其局限性。例如,由于说话视觉恣意的多样性和复杂性,特别是对于初学者或者其他领域的工程钻研人员,训练和评估现有视觉说话模型并不容易, 其较陡的学习曲线让很多新接触视觉说话方向的人望而却步。究其原因,这些障碍主要是模型、数据集和恣意评估的接口不一致所致。另外,视觉说话预训练微调实验所需的实验环境搭建相对比较繁复,例如下载组织各个恣意数据集、实验环境搭建等环节,不利于快速方法迭代,也容易产生疏漏。现存的视觉说话框架往往只撑持较少一部分恣意和数据集,模型往往也不够新。例如,MMF 主要撑持功能较弱的下游恣意微调模型;X-modaler 撑持非常有限的恣意和数据集,对预训练模型的撑持也不足。另外一些工作例如 torchmultimodal 和 unilm 尚在开发初期,不撑持开源训练或推理。此外,这些库的接口设计并不对立,不利于访问数据集或是模型,这为想要利用视觉说话模型能力的用户供给了诸多不便。最后,这些库中的大多数不供给微调的模型检查点或基准测试结果。这对复现模型功能制造了额外的困难。为了使得更广泛的工程钻研人员更好地利用视觉说话多模态模型能力,推动其在生产场景里的应用,以及减少重复开发的负担,Salesforce 亚洲钻研院推出了开源框架 LAVIS (LAnguage-VISion 的简称)。

全方位撑持恣意数据集模型,Salesforce开源一站式视觉说话学习框架LAVIS

Github 仓库:https://github.com/salesforce/LAVIS

技术报告:https://arxiv.org/abs/2209.09019

撑持文档:https://opensource.salesforce.com/LAVIS//latest/index.html

官方博客:https://blog.salesforceairesearch.com/lavis-language-vision-library/

LAVIS 框架全方位撑持 10+ 视觉说话恣意,20+ 数据集,并供给 SOTA 模型功能和可复现预训练及微调实验配置。LAVIS 一大特点是对立和模块化的接口设计,极大降低训练、推理和开发的难度,致力于让钻研和工程人员快速利用到近期多模态发展成果。

全方位撑持恣意数据集模型,Salesforce开源一站式视觉说话学习框架LAVIS

图 1: 随 LAVIS 一起开源的 GUI demo,展示丰富的视觉说话应用场景。

LAVIS: 一站式视觉说话框架,恣意数据集模型全方位撑持

LAVIS 最大的特点是供给对立模块化接口,极大简化模型训练评测,实现模型和数据集开箱即用,并且最小化重复开发成本。LAVIS 力求为工程钻研人员供给一站式视觉说话方案,助力视觉说话社区发展,从而扩大多模态模型钻研的实际影响力。

全方位撑持恣意数据集模型,Salesforce开源一站式视觉说话学习框架LAVIS

LAVIS 是当前对视觉说话方向撑持最全面的开源框架,其包含超过 10 种视觉说话恣意,包括图片描述生成(image captioning)、 图象文本检索 (image-text retrieval)、视频文本检索 (video-text retrieval)、图象问答 (visual question answering)、视频问答 (video question answering)、多模态分类、多模态图象、视频对话、视觉说话推理、多模态预训练等实用恣意,和多模态特征提取等功能;20 余标准数据集及评测结果,包括 COCO, Visual Genome, Flickr30k, NoCaps, NLVR, OK-VQA, A-OKVQA, MSRVTT, MSVD, DiDeMo, SBU, Conceptual Captions 等;以及 SOTA 的预训练和微调模型,开箱即用。上图展示了 LAVIS 和现有的多模态库的对比,突出 LAVIS 对视觉说话恣意、数据集、模型的全方位撑持。

全方位撑持恣意数据集模型,Salesforce开源一站式视觉说话学习框架LAVIS

LAVIS 主要撑持四种领先的基础视觉说话模型架构,包括 ALBEF (NeurIPS 21’ Spotlight)、BLIP(ICML 22’)、CLIP 和 ALPRO(CVPR 22’)。其中 ALBEF,CLIP 主要撑持图象文本恣意,ALPRO 撑持视频文本恣意,BLIP 对图象文本、视频文本恣意均供给撑持。各个模型对恣意和数据集撑持的详细信息见下表。

全方位撑持恣意数据集模型,Salesforce开源一站式视觉说话学习框架LAVIS

对立模块化接口设计,一键模型数据加载,轻松拓展定制

LAVIS 的最大特点是供给了简单且对立的接口以训练评测模型、加载模型数据,以及便于未来拓展新的恣意、数据集、模型。例如,用户可以利用 LAVIS 供给的 load_model(), load_dataset() 一键加载所需模型和数据集。下图描述了 LAVIS 模块之间的依赖关系。更多模型数据集加载实例可见于官方文档。此外,LAVIS 可以实现数据到训练高定制化,给予开发者充分空间钻研新模型、新多模态能力、新引用场景。

丰富的配套资源工具

除了框架本身,LAVIS 还附带了丰富的开源资源和工具。包括模型预训练和在下游恣意上微调的 checkpoint、用于可视化的图形界面 GUI Demo (图 1)、以及一键式下载公开数据集的脚本工具,全方位促进视觉说话方案复现、研发周期和成本。

LAVIS 将持续更新维护,在未来会撑持更多更强大的视觉说话预训练模型,和更多的视觉说话恣意,比如文本图象生成。同时作者也期待和欢迎开源社区对于 LAVIS 的反馈和贡献。

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/33019

(0)
上一篇 2022年9月28日 下午3:23
下一篇 2022年9月28日 下午3:34

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注