上海人工智能实验室联合商汤科技与高校共同发布通用视觉技巧系统“墨客”

11月17日,上海人工智能实验室联合商汤科技SenseTime、香港中文大学、上海交通大学共同发布新一代通用视觉技巧系统“墨客”(INTERN),该系统旨在系统化解决当下人工智

11月17日,上海人工智能实验室联合商汤科技SenseTime、香港中文大学、上海交通大学共同发布新一代通用视觉技巧系统“墨客”(INTERN),该系统旨在系统化解决当下人工智能视觉范畴中存在的使命通用、场景泛化和数据效率等一系列瓶颈问题。目前技巧报告《INTERN: A New Learning Paradigm Towards General Vision》已在arXiv平台发布 (arxiv.org/abs/2111.08687),鉴于“墨客”的通用视觉开源平台OpenGVLab也将在明年年初正式开源,向学术界和产业界公开预训练模型及其使用范式、数据系统和评测基准等。OpenGVLab将与上海人工智能实验室此前发布的OpenMMLab (github.com/open-mmlab)、OpenDILab (github.com/opendilab)一道,共同构筑开源系统OpenXLab,助力通用人工智能的基础研究和生态构建。 上海人工智能实验室联合商汤科技与高校共同发布通用视觉技巧系统“墨客”

上海人工智能实验室联合商汤科技、香港中文大学、上海交通大学共同发布新一代通用视觉技巧系统“墨客”(INTERN)

使命通用和数据进修效率是制约当前人工智能发展的核心瓶颈问题。根据相关技巧报告,一个“墨客”基模型即可全面覆盖分类、目标检测、语义分割、深度估计四大视觉核心使命。在ImageNet(www.image-net.org/challenges/LSVRC/index.php)等26个最具代表性的卑鄙场景中,墨客模型广泛展现了极强的通用性,显著提升了这些视觉场景中长尾小样本设定下的性能。

相较于当前最强开源模型(OpenAI 于2021年发布的CLIP),“墨客”在准确率和数据使用效率上均取得大幅提升。具体而言,鉴于同样的卑鄙场景数据,“墨客”在分类、目标检测、语义分割及深度估计四大使命26个数据集上的平均错误率分别降低了40.2%、47.3%、34.8%和9.4%。“墨客”在数据效率方面的提升尤为令人瞩目:只需要1/10的卑鄙数据,就能超过CLIP(openai.com/blog/clip)鉴于完整卑鄙数据的准确度,例如在花卉种类识别FLOWER(www.robots.ox.ac.uk/~vgg/data/flowers/102/index.html)使命上,每一类只需两个训练样本,就能实行99.7%的准确率。

随着人工智能赋能产业的不断深入,人工智能系统正在从完成单一使命向复杂的多使命协同演进,其覆盖的场景也越来越多样化。在自动驾驶、智能制造、聪明城市等众多的长尾场景中,数据获取通常困难且昂贵,研发通用人工智能模型,对于降低数据依赖尤为重要。而突破“工业应用红线”的模型,需满足同时完成多使命、覆盖大量长尾场景,且鉴于卑鄙小样本数据进行再训练等要求。上海人工智能实验室、商汤科技、港中文以及上海交大联合推出的“墨客”通用视觉技巧系统,体现了产学研合作在通用视觉范畴的全新探索,为走向通用人工智能迈出坚实的一步。借助“墨客”通用视觉技巧系统,业界可凭借极低的卑鄙数据采集成本,快速验证多个新场景,对于解锁实行人工智能长尾应用具有重要意义。

“当前发展通用视觉的核心,是提升模型的通用泛化威力和进修过程中的数据效率。面向未来,‘墨客’通用视觉技巧将实行以一个模型完成成百上千种使命,系统化解决人工智能发展中数据、泛化、认知和安全等诸多瓶颈问题。”上海人工智能实验室主任助理乔宇表示。

商汤科技研究院院长王晓刚表示,“‘墨客’通用视觉技巧系统是商汤在通用智能技巧发展趋势下前瞻性布局的一次尝试,也是SenseCore商汤AI大装置背景下的一次新技巧路径探索。‘墨客’承载了让人工智能参与处理多种复杂使命、适用多种场景和模态、有效进行小数据和非监督进修并最终具备接近人的通用视觉智能的期盼。希望这套技巧系统能够帮助业界更好地探索和应用通用视觉AI技巧,促进AI规模化落地。”  上海人工智能实验室联合商汤科技与高校共同发布通用视觉技巧系统“墨客”

墨客(INTERN)在分类、目标检测、语义分割、深度估计四大使命26个数据集上,鉴于同样卑鄙场景数据(10%),相较于最强开源模型CLIP-R50x16,平均错误率降低了40.2%,47.3%,34.8%,9.4%。同时,墨客只需要10%的卑鄙数据,平均错误率就能全面低于完整(100%)卑鄙数据训练的CLIP。

阶梯式进修:七大模块打造全新技巧路径 上海人工智能实验室联合商汤科技与高校共同发布通用视觉技巧系统“墨客”

墨客(INTERN)技巧系统可以让AI模型处理多样化的视觉使命

通用视觉技巧系统“墨客”(INTERN)由七大模块组成,包括通用视觉数据系统、通用视觉网络结构、通用视觉评测基准三个基础设施模块,以及区分上卑鄙的四个训练阶段模块。

墨客作为中国古代读书人的经典形象,代表着一个通过不断进修、不断成长进而拥有各方面才能的人格化角色:从基础的知识技能进修开始,到对多种专业知识触类旁通,进而成长为拥有通用知识的通才。将全新的通用视觉技巧系统命名为“墨客”,意在体现其如同墨客一般的特质,可通过持续进修,举一反三,逐步实行通用视觉范畴的融会贯通,最终实行灵活高效的模型部署。

当前的AI系统开发模式下,一个AI模型往往只擅长处理一项使命,对于新场景、小数据、新使命的通用泛化威力有限,导致面对千变万化的使命需求时,须独立开发成千上万种AI模型。同时,研究人员每训练一个AI模型,都需构建标注数据集进行专项训练,并持续进行权重和参数优化。这种低效的进修训练方法,导致人力、时间和资源成本居高不下,无法实行高效的模型部署。

“墨客”的推出能够让业界以更低的成本获得拥有处理多种卑鄙使命威力的AI模型,并以其强大的泛化威力支撑聪明城市、聪明医疗、自动驾驶等场景中大量小数据、零数据等样本缺失的细分和长尾场景需求。

上海人工智能实验室联合商汤科技与高校共同发布通用视觉技巧系统“墨客”

通用视觉技巧系统“墨客”(INTERN)由七大模块组成,包括3个基础设施模块、4个训练阶段模块

持续成长:“四阶段”提升通用泛化

在“墨客”(INTERN)的四个训练阶段中,前三个阶段位于该技巧链条的上游,在模型的表征通用性上发力;第四个阶段位于卑鄙,可用于解决各种不同的卑鄙使命。

第一阶段,着力于培养“基础威力”,即让其学到广泛的基础常识,为后续进修阶段打好基础;第二阶段,培养“专家威力”,即多个专家模型各自进修某一范畴的专业知识,让每一个专家模型高度掌握该范畴技能,成为专家;第三阶段,培养“通用威力”,随着多种威力的融会贯通,“墨客”在各个技能范畴都展现优异水平,并具备快速学会新技能的威力。

在循序渐进的前三个训练阶段模块,“墨客”在阶梯式的进修过程中具备了高度的通用性。当进化到第四阶段时,系统将具备“迁移威力”,此时“墨客”学到的通用知识可以应用在某一个特定范畴的不同使命中,如聪明城市、聪明医疗、自动驾驶等,实行广泛赋能。

产学研协同:开源共创通用AI生态

作为AI技巧的下一个重大里程碑,通用人工智能技巧将带来颠覆性创新,实行这一目标需要学术界和产业界的紧密协作。上海人工智能实验室、商汤科技、港中文以及上海交大未来将依托通用视觉技巧系统“墨客”(INTERN),发挥产学研一体化优势,为学术研究提供平台支持,并全面赋能技巧创新与产业应用。

明年年初,鉴于“墨客”的通用视觉开源生态OpenGVLab将正式开源,向学术界和产业界公开预训练模型、使用范式和数据库等,而全新创建的通用视觉评测基准也将同步开放,推动统一标准上的公平和准确评测。OpenGVLab将与上海人工智能实验室此前发布的OpenMMLab、OpenDILab一道,共同构筑开源系统OpenXLab,持续推进通用人工智能的技巧突破和生态构建。

附:

1.    技巧报告《INTERN: A New Learning Paradigm Towards General Vision》链接:arxiv.org/abs/2111.08687

2.    OpenMMLab开源网址:github.com/open-mmlab

3.    OpenDILab开源网址:github.com/opendilab

原创文章,作者:新闻助手,如若转载,请注明出处:https://www.iaiol.com/news/25992

(0)
上一篇 2021年11月17日 上午10:05
下一篇 2021年11月17日 下午5:29

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注