火了一整年的多模态进修,在工业界的落地和实践进展到底怎么样了?

在小红书,看见多模态进修的无限可能。

随着 NLP 和 CV 的日益融合,多模态进修越来越受到学界和业界的重视。在 DALL-E、Stable Diffusion 等文本生成图像跨模态应用成熟之后,围绕多模态进修、AIGC 等议题的讨论热度持续攀升。

当然,还有许多课题需要进一步探索:比如,多模态进修在哪些工作上还有极具前景的应用潜力?多模态手艺在真实场景中的泛化受到哪些限制?

11 月 19 日,小红书 REDtech 年青手艺沙龙 – 北京站圆满收官。在这场活动上,数位顶尖学者、小红书手艺团队大神和年青学子们齐聚一堂,对多模态手艺、AIGC、年青人材职业发展等热门议题进行了深入讨论。

出席本次沙龙的嘉宾包含小红书社区部多媒体智能算法负责人张德兵、中国科学院自动化研讨所研讨员、博士生导师张兆翔,北京智源人工智能研讨院研讨员曹越,此外,本场沙龙还为即将投身业界的高校学子特别设置了嘉宾对谈、自由交流等环节。北京师范大学人工智能学院黄华教授与小红书手艺副总裁风笛。为年青人材们提供了许多有益的学术研讨指导与建议。

火了一整年的多模态进修,在工业界的落地和实践进展到底怎么样了?

多模态衍进之路多模态进修的本质,可以理解为从包含文本、图像、视频、音频等分歧模态的信息中进修并且提升自身算法。此前,对于分歧模态的数据,大家运用的是分歧的网络架构,比如 CV 范畴运用 Convolution,NLP 范畴运用 Transformer,图范畴运用图网络。多模态进修的发展是如何打破「分界线」,促使人工智能走向统一的?作为本场沙龙的学界代表之一,北京智源人工智能研讨院研讨员曹越从理论研讨的角度切入,回溯了多模态的衍进之路。

火了一整年的多模态进修,在工业界的落地和实践进展到底怎么样了?

曹越的研讨范畴包含基础模型、自监督进修、多模态进修。在清华大学取得博士学位之后,曹越加入了微软亚洲研讨院视觉计算组。期间参与了多项重要研讨,包含 Swin Transformer、GCNet、SimMIM 与 VL-BERT 等。2021 年,Swin Transformer 获得了 ICCV 最佳论文奖—马尔奖。他认为,从建模的角度看,当前的人工智能范畴在逐渐走向统一。在机器进修时代,这种统一表现在范式上。很久之前,对于分歧工作,研讨者需要实现手动设计规则来完成工作。后来,模型可以从历史数据中进行进修,并且进行预测。在这个过程中,研讨者需要做的是针对分歧的工作设计相应的模型、损失和算法。到了深度进修时代,这种统一更多体现在架构上。分歧工作都开始运用深度神经网络,包含 CNN、RNN、LSTM 等。曹越表示,在一系列变革之后,架构和预训练过程还有待统一。对于分歧模态的数据而言,大家会运用分歧基础架构单元,比如对于图片会运用卷积神经网络,对于文本则运用 Transformer,二者的表征进修过程是分歧的。这种规则也在发生变化。在视觉范畴,卷积神经网络在很长一段时间都占据主导地位。2017 年后,Transformer 大放异彩,一些研讨人员致力于将其应用到计算机视觉中。学术界发现 Transformer 的网络结构设计可以几乎不经过任何改变直接应用到视觉信号。于是不管是自然语言处理还是视觉类工作,都开始运用 Transformer 作为基础架构单元。这方面也有许多代表作,比如 ViT、DeiT、Swin Transformer 等。同时,模型的预训练方法逐渐统一。视觉范畴的训练往往需要大量人类标注的语言,而语言进修过程中的自监督预训练不需要额外进行标注。借助这种方式,视觉模型也可以利用几乎无限的数据进行预训练模型之后,并在一系列下游工作中取得非常瞩目的性能提升。这方面的代表作有BEiT、SimMIM、MAE等。下一步会走向何方?曹越认为,通用模型时代或将到来,预训练模型无需微调就可以处理分歧模态的输入,包含语言、视频和图像等,并且能够完成分歧的工作。小红书的多模态实践在学术界不断取得前沿突破的同时,多模态手艺也走进了工业界,逐渐落地生根。作为近年来国内发展最迅速的移动互联网平台之一,数亿量级的搜推流量、跨越多个模态的海量数据集、AI 智能化辅助 UGC 创作、基于多云的高可用基础架构、融合用户 – 商品 – 实质的深度理解及表征进修…… 这样的生态带来了许多前沿的手艺挑战,小红书已经成为了多模态相关手艺的绝佳落地场和领先实践场,为小红书的手艺人提供了广阔的成长空间。本场沙龙上,小红书社区部多模态智能算法负责人张德兵分享了《小红书多模态智能创作手艺与应用》相关主题实质。张德兵本科毕业于浙大丘成桐数学英才班,长期关注 CV / NLP / 音频 / 多模态 / 智能创作等相关手艺,并推动 CV、多模态等手艺在安防、零售、体育等 TO B 场景和短视频、广告等 C 端场景的多项业务落地。

火了一整年的多模态进修,在工业界的落地和实践进展到底怎么样了?

他在分享中提到,每天都有许多普通创作者在小红书上真诚分享和记录自己的生活,但是「创作」并不是一件特别容易的事。尤其是对于小红书社区的 UGC 属性而言,普通用户在如何进行视频表达的时候,会遇到拍摄的视频缺乏亮点、学不会复杂的剪辑过程等等阻碍。如何以手艺手段克服这些挑战,帮助用户更好地记录生活、表达生活,也是小红书手艺团队认真考虑的课题。目前,在小红书,多模态智能创作已经在助力更多普通人进行高效的实质创作,比如

智能模板、一键成片、一键添加闪光点等功能。

火了一整年的多模态进修,在工业界的落地和实践进展到底怎么样了?

以上图的视频和图文模板为例,在制作实质的时候,用户并不需要有特别专业的剪辑能力、创作能力,只要仿照类似的模板指引,就可以非常便捷地制作类似的实质。在多模态手艺的加持下,小红书还提供了基于文案寻找相关素材的辅助功能,加上智能配乐即可得到想要的结果。解决这些挑战并不容易。因此,小红书一直以来都在深耕相关底层手艺,特别是多模态手艺。在沙龙现场,张德兵深入介绍了小红书多模态智能创作手艺的整体框架:

火了一整年的多模态进修,在工业界的落地和实践进展到底怎么样了?

为了实现更好的辅助创作效果,小红书手艺团队打造了一条比较复杂的手艺链路,从基础架构、基础 AI 能力到端云协同的操作。此外,为了跟设计师有很好的协同,团队还做了大量提效工具,让设计师和 AI 的合作更加密切,更好地还原亮点效果,支撑各种各样的上游应用场景。小红书手艺团队的布局分三部分:视觉维度;音频维度;多模态维度。视觉手艺层面,包含目标精细分割、智能补全、稳定光流、深度估计;音频手艺层面,包含 ASR、TTS、音乐生成。此外,特别值得关注的是多模态手艺的应用。

鉴于小红书站内有非常多优质图文数据、笔记评论以及外部开源语料,团队基于大规模中文语料库和高质量的图文数据,做了小红书版本的多元场景跨模态预训练模型。在基础的训练模型版本上,团队结合具体场景去进行进一步的优化。张德兵介绍说,除了文案推荐之外,视觉元素和音乐之间的关联、歌词之间的关联、实质和模板之间的关联都是各种各样多模态形式,其关联性都可以通过跨模态匹配来建模。而且用户运用过程中会留下越来越多的行为信号,这些信号也可以用来持续优化算法,提升用户体验。

还有一个方向是实质生成。对于最近热门的AIGC方向,小红书手艺团队也在做一些尝试,一个很典型的方式是基于文本描述来搜索或者生成实质,另外如何基于用户提供的素材来进行更好的个性化创作也是个很有趣的方向。

火了一整年的多模态进修,在工业界的落地和实践进展到底怎么样了?

当自动驾驶遇见「多模态」正如上述实质所说,视频、图像、文字、语音这些我们日常接触到的信息形式都可以算作模态。而从理论上说,模态的范围要比我们的感知能力更广泛,比如利用传感器获得的雷达、红外线等感应数据也属于模态信息。这类模态信息在自动驾驶场景中更为常见。在本场沙龙上,中国科学院自动化研讨所研讨员张兆翔教授分享了《面向自动驾驶场景的多源融合视觉感知》相关实质。

火了一整年的多模态进修,在工业界的落地和实践进展到底怎么样了?

张兆翔教授现为中国科学院自动化研讨所研讨员、博士生导师。他的主要研讨方向包含视觉场景理解、类脑认知与进修等,在 TPAMI、IJCV、JMLR、CVPR 等本范畴顶刊顶会发表论文 100 余篇,担任过 CVPR、ICCV、AAAI、IJCAI、ACM MM 等知名国际会议的范畴主席。在当下炙手可热的自动驾驶行业,多源融合视觉感知是非常重要的手艺路线。张兆翔表示,自动驾驶场景的感知本质上是多模态、多工作的。比如视觉感知存在分歧场景,这些场景中的尺寸、视角可能又各不相同。一直以来,张兆翔致力于探索模型的自适应性,包含如何解决标注课题、如何适配场景等课题。在分享中,他介绍了一项代表性研讨:三叉戟网络 TriNet(Trident Network for Object Detection)。这项研讨探索了让一个通用模型借助分歧的分支类型去刻画尺度,分别适应解决小目标、中型目标、大目标的课题。随后,张兆翔亦介绍了自己在图像分割范畴的研讨心得。相比于小红书手艺实践中常见的人形分割,现实场景中的分割工作更加多样,比如帽子、水杯、路灯等物体。为了降低大量数据标注所带来的成本课题,他和团队将点级标注用于弱监督的全景分割。与完全监督方法所运用的密集的像素级标签分歧,点级标注只为每个目标提供一个单点作为监督,大大减少了标注负担。

火了一整年的多模态进修,在工业界的落地和实践进展到底怎么样了?

这项研讨《Pointly-Supervised Panoptic Segmentation》亿发表在 ECCV 2022 上。多源融合视觉感知的对象不仅包含图像,还包含点云,其场景不仅在车上,还包含各种各样智能设备,甚至是扫地机器人。面对大量非结构化的原始数据,张兆翔也尝试引入 Transformer 架构,实现方法上的创新。在一篇 CVPR 2022 论文中,他提出了空间稀疏的单步长 Transformer 结构,完成了主干网络的空间稀疏化,提升了物体检测性能。「大咖面对面」:给年青人的研讨建议聆听完最前沿的手艺分享之后,在本次沙龙的压轴环节,北京师范大学人工智能学院黄华教授、小红书手艺副总裁风笛两位前辈分别从学界和业界角度出发,开展了一场关于「AI 手艺提升与实力升级」的对谈。

火了一整年的多模态进修,在工业界的落地和实践进展到底怎么样了?

多模态进修、AIGC 都属于当下比较火的方向,也引发了大量手艺人材的关注。那么,作为一名年青研讨者,如何看待瞬息万变的研讨热点呢?风笛表示,真正做出好的产品需要的是专注于用户价值和产品体验。对于新的手艺、新的模型方法,保持关注、了解到有哪些新的东西即可,不一定非要追逐热点。黄华教授表示,从研讨者个人角度出发的话,追热点也不是必须的。因为热点是随时变化的,当热点出现的时候,你往往追不到它,同时也会有许多其他人在追。换个角度说,即使你现在做的工作不是热点,但两三年后也许会变成热点。况且从研讨角度来讲,许多学术思想是相通的。还有一些话题,也是在场年青学子非常关心的。比如,当前 AI 范畴什么样的人材是最紧缺的?是手艺研讨型,还是落地应用型?基于这样的需求,学界和业界又该如何助力 AI 人材的培养呢?针对这些课题,两位嘉宾分别给出了自己的建议。在黄华教授看来,人工智能的理论研讨很重要,但是对企业来说,更重要的是落地,所以两种人材都是被需要的。对于 AI 相关专业的学生来说,如果说想去到工业界,就可以尽量多做点手艺类的项目,如果想在学术界深造,就多做一些理论方面的工作。高校的人材培养模式和企业界需求存在差异,学术界追求的是发表高水平论文,而企业要求的是能解决实际课题。现在教育界提倡的是「研讨真课题、真研讨课题」,想要解决好这个课题,就需要学界和业界合作。做理论研讨或许可以不考虑实际需求,但也有一种说法,做理论的人如果不了解工程课题,理论也不会做得特别好,因为真正有价值的理论课题通常是要能够解决实际课题的。风笛则更多根据小红书的经验,从企业界的角度出发介绍了年青手艺人材成长与培养的路径。他提到,企业对具备手艺落地能力的人材需求会更多一些,但是同时也会需要少量基础研讨类人材。特别地,像小红书这样的企业会很关注对于数据和算力的挖掘,这个方向上还需要更多的优秀 AI 人材来共同突破。小红书作为一家 UGC 视频分享平台,拥有非常特殊的海量的多模态数据集,在信息检索、信息推荐、信息理解,特别在智能创作相关手艺,以及底层多模态进修、统一表征进修等方向上,都能提供非常重要的研讨源头:数据。这恰好弥补了学术界研讨普遍缺少的要素——对于许多做人工智能方向研讨的实验室来说,挑战基本不在于硬件设备的条件,缺少的是真正能够为数亿用户所运用的应用场景,以及这些场景产生的真实数据。许多工作难以与真实用户做交互,更多是基于可能存在偏差的历史数据进行研讨。而数据集和真实场景,都是小红书本身具备的优势。此外,小红书还能提供比较强大的算力资源。此外,对于优秀的应届毕业生,小红书从人材培养机制上进行了精心的设置,包含从融入职场到成长为行业手艺人材全周期的的详细培养方案。

火了一整年的多模态进修,在工业界的落地和实践进展到底怎么样了?

入职之后,小红书手艺团队会通过薯光计划、Mentor 机制等方式,帮助应届生成为真正的手艺人。小红书从内部精选了一批绩优资深工程师组成 Mentor 池,每位应届生都会有专属的 Mentor 手把手带教,帮助应届生在实践中找到擅长的手艺方向。在小红书手艺团队中,许多成员都拥有谷歌、BAT 等海内外一线大厂的工作经历。他们也会将这些经验沉淀下来,传承给每一位入职小红书的应届生。在专业能力培养上,小红书手艺团队会设置各种手艺交流形式,比如由公司内部手艺范畴专家授课答疑的「手艺 101 课程」、定期内部手艺分享、公司内部学术牛人组织的「论文领读会」以及定期的高校及重点实验室交流等,帮助他们尽早接触到更为前沿的工业级手艺,实现更好的成长。此外,小红书手艺团队对于年轻人是非常友好的,随着小红书的不断发展,有非常多的手艺场景给予了同学完整参与乃至扮演重要角色的机会,以往已经有多位手艺应届生获得了连续晋升。伴随着小红书社区的高速增长,小红书手艺团队所能提供的人材成长空间,比以往任何时候都更加广阔,也正在等待更多优秀 AI 年青学子的加入。小红书 2023 届校招仍有相关岗位开放内推,欢迎有志于此的你扫码参与~

火了一整年的多模态进修,在工业界的落地和实践进展到底怎么样了?

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/huo-le-yi-zheng-nian-de-duo-mo-tai-jin-xiu-zai-gong-ye-jie/

(0)
上一篇 2022年 11月 22日 下午3:05
下一篇 2022年 11月 23日 下午3:56

相关推荐

  • 不氪金玩转中文超大规模预训练,这里有一份详细攻略

    随着企业智能化转型的深入,智能文本处理需求广泛存在,而传统的NLP定制方法在实际的产业使用中面临着不少问题,包括需要较多高质量的人工标注数据、缺少NLP手艺选型与模型调优经验、迭代调优耗时长等,再加上往往需要高昂的算力花费,让不少企业望而生畏。

    2020年 12月 18日
  • 直播预约 | “BT + IT ”,这场论坛邀您共论生物盘算工业发展新范式

    9 月 2 日 13:00,2022 上海生物盘算论坛,精彩相约!随着 AI+ 生物学盘算应用的逐渐广泛,生物盘算已经成为人工智能发展的下一个明珠。依托上海强大的生物医药和人工智能工业基础,在世界人工智能大会组委会办公室指导下,由上海市生物医药工业促进中心、上海市人工智能行业协会、机械之心发起并联合主办,上海中青年知识份子联谊会、上海市经济和信息化系统中青年知识份子联谊会协办 2022 上海生物盘算论坛,论坛将于 9 月 2 日下午在张江科学会堂 303 举办。活动旨在衔接政府、药企、医院、钻研机构、创新企业等工业

    2022年 8月 31日
  • 无代码生产力对象赋能数字化供应链新发展

    「机器之心2021-2022年度AI趋势大咖说」聚焦「驱动将来的AI技术」与「重塑财产的AI科技」,推出线上分享,共邀请近40位AI领域知名学者、财产专家及企业高管通过主题分享及多人圆桌等形式,与行业精英、读者、观众共同回顾 2021年中的重要技术和学术热点,盘点AI财产的年度研究方向以及重大科技突破,展望2022年度AI技术发展方向、AI技术与财产科技融合趋势。

    2022年 8月 1日
  • 在线试玩,在体感游玩中打败泰森,这位小哥破解了任天堂「拳无虚发」

    加入体感控制,这位小哥破解了原版任天堂的拳击格斗游玩「拳无虚发」。

    2021年 11月 9日
  • 元宇宙中的这些新物种流派来了

    元宇宙有多火,已经无需赘言。似乎不投元宇宙的VC,已经是古典VC,没听过元宇宙,和没听过互联网一样out了。不过,一千个人心中有一千个元宇宙,如何定义它,它又如何从概念落地为应用呢?科幻电影《头号玩家》是最接近元宇宙想象的影视模型,故事虽然偏赛博朋克,但它提及的平行全国和元宇宙的设想不谋而合。Metaverse元宇宙,meta指“超越”,universe指“宇宙”。原始概念来自于1992年的一部美国小说《雪崩》。这部小说描述了一个相对实际全国平行但又超越其上的假造全国

    2022年 4月 11日
  • 对抗图象变幻进犯,腾讯OVB-AI手艺中心获NeurIPS2021图象近似度寻衅赛季军

    近日,在 AI 顶会 NeurIPS 2021 的图象近似度寻衅赛中(Image Similarity Challenge),来自腾讯在线视频 BU-AI 手艺中心的团队,在 Matching Track 赛道战胜来自全球 1000 多支队伍,荣获季军。

    2022年 1月 9日
  • Science出台新政,旗下部分期刊论文立即收费,无需作家付费

    好起来了?收费科学文献设计Plan S今年生效,Science昨天又放出「大招」。

    2021年 1月 16日
  • Nature子刊:科学家在类脑芯片上实现类似LSTM的功能,能效高1000倍

    格拉茨技术大学的计算机科学家在 Nature 子刊上发表的一篇论文表明,他们找到了一种在神经形状芯片上放荡 LSTM 的方案,可以让类脑神经形状芯片上的 AI 算法能效提高约 1000 倍。随着智能手机的普及,手机游戏也越来越受欢迎。但视频游戏等程序会大量耗电耗能。与 GPU 等标准硬件相比,基于 spike 的神经形状芯片有望实现更节能的深度神经收集(DNN)。但这需要我们理解如何在基于 event 的稀疏触发机制(sparse firing regime)中放荡 DNN,否则神经形状芯片的节能优势就会丧失。比如

    2022年 5月 21日
  • 9亿训练集、通用CV任意,微软打造Florence模型打破分类、检索等多项SOTA

    来自微软的研讨者另辟蹊径,提出了一种新的计算机视觉基础模型 Florence。在广泛的视觉和视觉 – 语言基准测试中,Florence 显著优于之前的大规模预训练方法,实现了新的 SOTA 结果。

    2021年 11月 24日
  • 中国队夺金幕后的「AI手语翻译官」:初次上岗,手语可懂度超90%

    有了腾讯 3D 手语数智人主播「聆语」的精彩讲授,即使是身处「无声世界」的群体也能实时感受冰雪赛事的每一份激情。

    2022年 2月 9日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注