再夺全球顶级竞赛CVPR NTIRE冠军,打造更好用户体验,淘宝拥有哪些实质技巧?

不知不觉间,实质电商似乎已经成为人们生活中不可或缺的存在:在闲暇时间,我们已经习惯于拿出手机,从电商平台的直播间随手下单自己心仪的商品。尽管优质的货品、实惠的价格、精致的场景布置、有趣的实质输出都是非

不知不觉间,实质电商似乎已经成为人们生活中不可或缺的存在:在闲暇时间,我们已经习惯于拿出手机,从电商平台的直播间随手下单自己心仪的商品。

尽管优质的货品、实惠的价格、精致的场景布置、有趣的实质输出都是非常关键的影响因素,这些也必须基于两个前提:画质要高清、播放要流畅。曾经,有不少商家和主播因为直播间画质较差的问题而苦恼,不了解如何实现高画质开播。

在一系列前沿音视频技巧的加持下,淘宝实质技巧团队解决了这个问题。

下图是一个直播间画质体验极致打磨案例,主播通过团队自研的一系列音视频技巧,包括视频编码、视频巩固解决、视频品质评估等,实现了超低码率的 1080p 高清直播:

再夺全球顶级竞赛CVPR NTIRE冠军,打造更好用户体验,淘宝拥有哪些实质技巧?

左:720p 直播;右:超低码率 1080p 直播。

同样还有短视频画质体验极致打磨案例,通过团队自研的上述音视频技巧,实现了视频清晰度和纹理细节的大幅提升:

再夺全球顶级竞赛CVPR NTIRE冠军,打造更好用户体验,淘宝拥有哪些实质技巧?

再夺全球顶级竞赛CVPR NTIRE冠军,打造更好用户体验,淘宝拥有哪些实质技巧?

左:巩固前;右:巩固后。

不难发现,在上述案例中,改造后的画面质感变得更好,从「标清」飞跃到了「超清」,人像肤色也变得更自然,连商品色彩都更加准确了。这种肉眼可识别的提升,都来自团队提供的音视频技巧能力加持。

上述提到的一系列自研音视频技巧,包括视频编码器(淘宝自研的 S265)、视频巩固计划(STaoVideo)、无参照视频品质评估模型(MD-VQA)以及媒体解决系统(TMPS),并通过接入低延时传输网络 GRTN,为淘宝的直播和短视频提供底层核心技巧,打造业界领先的音视频体验,尤其是视频画质和流畅度。

近年来,图像和视频解决的一系列技巧也经历了巨大的变革,包括超分解决、噪声去除等等。这些技巧都是为了实现更好的画质服务,同时也希望尽量降低实质生产、解决和分发过程的总体成本。

但从技巧层面上说,如何分析、定位视频实质存在的问题并找到有针对性的改造方法,仍然是一个复杂的过程。而所有的视频实质解决方法,都基于一个非常重要的前置环节:视频品质评估。

一场聚焦「视频品质评估」的顶级比拼

在视频实质行业规模不断增长的背景下,全球范围内的众多机构开始围绕视频解决的一系列前沿命题开展竞赛,希望以领先技巧推动行业进步。近年来,「视频品质评估」这一命题受到的关注度也不断攀升。

CVPR NTIRE(New Trends in Image Restoration and Enhancement)是计算机视觉和视频领域最具影响力的全球性赛事,今年的赛事由苏黎世联邦理工学院计算机视觉实验室主办。往年赛事覆盖许多图像和视频解决的经典任务,比如图片和视频超分、图片抖动去除、噪声去除等,吸引了全球众多技巧团队的踊跃参与。

再夺全球顶级竞赛CVPR NTIRE冠军,打造更好用户体验,淘宝拥有哪些实质技巧?

今年的 CVPR NTIRE 竞争增设了一个全新的方向:视频品质评估,且只设置了单个赛道,即「无参照视频品质评估」。

主办方构建了包含 1,211 个真实应用场景的视频的数据集,对其进行包括色彩、亮度、和对比度巩固、去抖动、去模糊等巩固解决,并对解决后的视频进行打分作为 GT(ground truth,真实的有效值)。参赛团队通过各自技巧计划对上述视频打分,与 GT 越接近名次越高。

本场竞争云集了国内外顶级的几十只参赛队伍,包括字节、快手、网易、小米、Shopee 在内的知名科技企业,以及北京航空航天大学、新加坡南洋理工大学等高校。来自淘宝音视频技巧团队的同学组成「TB-VQA」队伍,经过激烈的角逐,从 37 支队伍中脱颖而出。团队所提交的品质评估方法 TB-VQA 在主得分(Main Score)、SRCC(Spearman Rank Order Correlation Coefficient)及 PLCC(Pearson Linear Correlation Coefficient,SRCC 和 PLCC 越高表明与 GT 越接近)三项指标均位居第一。

再夺全球顶级竞赛CVPR NTIRE冠军,打造更好用户体验,淘宝拥有哪些实质技巧?

CVPR NTIRE 2023 视频品质评估竞争排行榜。

此次冠军是团队继 MSU 2020 和 2021 世界编码器竞争、CVPR NTIRE 2022 视频超分与巩固竞争夺魁后,再次在音视频核心技巧的权威竞争中折桂。

众所周知,从参照视频可用性的维度出发,视频品质评估一般可以分成三类:全参照视频品质评估、部分参照视频品质评估、和无参照视频品质评估。为什么本场竞争要将「无参照视频品质评估」设置为唯一的赛道?想必这一点令许多人感到好奇。

这与近年来互联网实质视频化的趋势密不可分,从生活、娱乐到学习,视频都已经成为了很多人获取信息的第一介质。相比于文字,视频的理解门槛更低,人脑对于视觉信息的解决速度也比文字更快。其中,UGC 视频实质几乎占据了整个互联网视频流量中的 70% 到 80%。人们既消费这些 UGC 视频实质,也在创造着自己的「作品」。任何人都可以使用一台手机拍摄、上传短视频,也可以开通自己的直播账号,分享自己的生活。

但 UGC 视频的品质往往是参差不齐的。首先是因为其品质受制于拍摄设备、拍摄环境、拍摄技巧等因素,即使视频实质的制作方极具经验且原始视频品质非常高,一旦经过平台的各种解决、分发环节或是其他用户的二创,消费者在另一端看到的视频效果都有可能打折扣。

在缺乏理想的视频参照源的品质评估场景逐渐成为主流的趋势下,无参照视频品质评估作为品质评估的主要的技巧手段,在过去的几年里越来越受到广泛关注。这也是 CVPR NTIRE 设置「无参照视频品质评估」赛道的出发点之一。

那么,为什么淘宝实质技巧团队能够一举拿下这场竞争的冠军?接下来,让我们深入了解一番冠军计划。

夺冠背后的 VQA 技巧

目前,无参照视频品质评估的主流方法包括:基于图像识别或者图像品质评估任务的预训练模型来提取视频的帧级特性、考虑时序上的相关性回归特性或者进一步结合时域特性、以及针对视频失真进行端到端的特性表征学习等。

在本次竞争中,TB-VQA 团队提出的方法基于端到端的特性表征学习,并且考虑到近年来 Swin Transformer 在 CV 领域取得巨大成功,使用 Swin Transformer V2 替换较为传统的卷积神经网络(CNN)骨干网络 ResNet 提取空域特性。同时,为了更好地交融时空域特性,在时空特性交融模块中,TB-VQA 团队引入了一个 1×1 卷积层,它加深了从预训练网络的中间阶段提取的空间特性,以弥补浅层和深层特性之间的差距。此外,为了解决常见的品质评估数据集规模过小、大模型容易过拟合的问题,TB-VQA 团队同时在空域和时域两个维度进行数据巩固,提高模型性能。

模型设计

如图 1 所示,TB-VQA 团队所提出的无参照视频品质评估模型的框架,包括空域特性提取模块、时域特性提取模块和时空特性交融回归模块。其中,空域特性模块提取空间失真相关特性,时域特性提取模块提取运动相关信息,此外,考虑到运动信息对失真感知的影响,团队进一步交融时空域特性,然后通过特性回归映射到最终的品质分数。

再夺全球顶级竞赛CVPR NTIRE冠军,打造更好用户体验,淘宝拥有哪些实质技巧?

TB-VQA 模型的网络架构示例。

具体而言,这一框架的设计基于以下思考:

语义特性作为重要的空域特性经常用于品质评估,其描述图像中物体的物理特性、物体之间的时空关系、以及物体的实质信息等,属于图像的高维特性。对于不同的图像实质,语义特性会影响人眼的视觉感知:人眼通常无法容忍纹理丰富的实质(例如草坪、地毯)的模糊,而对纹理简单的实质(例如天空、墙面)的模糊相对不敏感。综上考虑,该架构利用从预训练的 Swin Transformer V2 网络倒数第二层 Transformer 模块输出的特性作为帧级的空间域特性。

手机拍摄时的抖动会导致视频发生时域失真,并且,其无法被视频空域特性有效地描述。因此,为了提高模型的准确度,该架构利用预训练的 SlowFast 网络获取视频片段级的运动特性,作为时域特性表征。

由于不同层空域特性之间存在较大的差异,对其进行直接拼接不利于时空特性交融,因此该架构先对倒数第二层输出特性进行卷积解决,然后再与最后一层输出的空间特性交融以及空域特性进行交融,并通过两层全连接层回归得到视频片段级品质分数,如图 2 所示。

再夺全球顶级竞赛CVPR NTIRE冠军,打造更好用户体验,淘宝拥有哪些实质技巧?

时空域特性交融与回归。

数据巩固

由于本次竞争官方提供的训练数据集共包括 839 个视频,不足以训练基于 Transformer 的模型。因此,TB-VQA 团队从数据集巩固策略和大型数据集预训练两个方面入手,进一步提高模型的性能。

视频品质评估方法常采用在图像中随机 crop 固定大小 patch 的方式进行空间数据巩固。作为对比,TB-VQA 团队同时考虑考虑空间和时间数据巩固,如图 3 所示。

再夺全球顶级竞赛CVPR NTIRE冠军,打造更好用户体验,淘宝拥有哪些实质技巧?

时空域数据巩固示例。

其中,整个视频会被分成 T 个视频片段(每秒一个片段)。提取空域特性时,每个视频片段随机抽取 1 帧。同时,为保留帧间的时间关联性,抽样帧之间的时间间隔保持不变。

此外,考虑到 LSVQ 视频品质评估数据集有 38,811 个视频样本,是目前最大的开源品质评估数据集。因此,TB-VQA 团队先在 LSVQ 数据集上对模型进行预训练,之后基于特定的任务以相对小型的数据集微调模型。

「特别重要的是,不管是面向竞争的数据集,还是面向日常交易的海量实质,视频品质评估的模型都需要强大的泛化能力,以识别不同的视频品质以及各种各样的视频场景。」淘宝音视频技巧的参赛同学总结本次参赛的经验时表示。

值得注意的是,这次竞争的冠军计划 —— 视频语义、失真、运动多维信息交融计划,是 TB-VQA 团队同学在日常交易研发中探索出的新方法。基于日常交易的经验积累,尽管本场竞争从赛题发布到最后提交结果大概只有一个月的时间,TB-VQA 团队还是交出了一份满意的答卷。

此前,团队自研了无参照视频品质评估模型 —— MD-VQA(Multi-Dimensional Video Quality Assessment),综合视频的语义、失真、运动等多维度信息衡量视频绝对品质的高低。目前,MD-VQA 已经全面应用于包括淘宝直播、淘宝信息流、淘宝逛逛等淘宝实质交易,「量化」并监控视频交易的大盘画质变化,快速、精准地筛选出不同画质水位的直播间和短视频,帮助提升平台实质画质。

以淘宝直播为例,MD-VQA 可提供分钟级的在线品质监控能力,能够快速、精准地筛选不同画质水位的直播间,协助线上低画质 bad case 的挖掘分析,实时提醒主播画质问题方面的瓶颈问题。

淘宝音视频技巧团队负责人总结道:「无论是短视频还是直播,都存在一个问题 —— 源头的画质并不一定是最好的,比如用户可能使用一款低端手机设备去拍摄、开播。面向这种应用场景,我们希望为淘宝甚至业界提供的无参照视频品质评估计划,能够发挥类似 VMAF 在有参照品质评估方法的影响力。」

从品质评估到编码、巩固解决,淘系音视频技巧的演进之路

视频品质评估之后,视频编码、巩固解决等环节的技巧水平同样对用户的最终视频体验起到决定作用。

这些也是团队始终在思考的方向:「在包括视频实质的供给和分发等环节的整个视频交易生命周期中,视频解决技巧对于整体视频的画质影响最为重要。」而消费者对于视频画质的需求是越来越高的,比如要兼顾较高的清晰度和播放的流畅度,也要控制从生产到下发的整体成本。这意味着平台的视频解决技巧演讲必须面对千变万化的市场需求和交易体量爆炸式增长所带来的各种挑战。

为此,团队支持短视频、直播等实质的整体解决计划保持着持续、高速的迭代。

淘宝音视频技巧团队主要承载着其中的视频解决技巧,尤其是保障视频高画质和流畅度。通过视频编码器 S265、视频巩固计划 STaoVideo、无参照视频品质评估模型 MD-VQA、媒体解决系统 TMPS 以及低延时传输网络 GRTN 的接入,打造业界领先的音视频体验。通过持续的技巧打磨和算法创新力求高品质、低成本赋能淘宝实质交易,助力淘宝实质化战略,所沉淀的平台技巧和产品能力亦可被集团其它交易复用。这些多年来沉淀的技巧能力,也曾经在多个音视频核心技巧的国际权威竞争中折桂。

视频编码方面,团队自研的奇点编码器 S265 和 S266,在 MSU 视频编码器大赛中连续两届取得佳绩。

MSU(莫斯科国立大学)世界视频编码器大赛是视频编码领域最权威的全球性顶级赛事,迄今已由 MSU 的 Graphics & Media Lab 连续举办了十七届,其评测报告被业界广泛认可,吸引了包括 Google、Netflix、Intel、Nvidia、腾讯、字节、华为等国内外知名科技企业参与,代表了行业发展的风向标。

S265 和 S266 相比业界流行的开源编码器 X265、VVEnC 等,在编码速度、编码品质和编码延时等多方面均有明显突破,联合内部团队参加了 MSU 2020 和 2021 连续两届世界视频编码器大赛,取得多个赛道第一(如表 2 和表 3 所示)。

再夺全球顶级竞赛CVPR NTIRE冠军,打造更好用户体验,淘宝拥有哪些实质技巧?

MSU 2020 Main FullHD 1 fps YUV-PSNR 排名。

再夺全球顶级竞赛CVPR NTIRE冠军,打造更好用户体验,淘宝拥有哪些实质技巧?

MSU 2021 Main FullHD 1 fps YUV-PSNR 排名。

具体而言,团队研发的 H.265 编码器 S265 在码率控制、快速算法、编码工具实现、工程加速几个方面进行了创新,实现了对 X265 编码器的超越,在 1fps 速度档位下 YUV-PSNR 指标领先 35%;团队自研的 H.266 编码器 S266 在 S265 编码器的基础上,进一步在符合 VVC 标准(VVC 是近年来颁布的、继 H.265/HEVC 之后的最新国际视频标准)的范畴下进行优化,实现了对比 H.265 开源软件 X265 very slow 档 50% 的编码效率提升(同等画质下,码率减少 50%)。

S265 编码器经过多年的产品化打磨,已全面应用于包括淘宝直播、淘宝信息流、淘宝逛逛在内的淘宝实质交易,并以较低的带宽和资源消耗实现高清画质编码。经过 S265 编码器压缩后,普通手机在 3G 网络也可顺滑观看 1080p 高画质,最新发布的手机亦可支持 4k 30FPS 超高清直播。S266 编码器也已在规划落地中,用户不久将可在淘宝 APP 中更流畅地观看高清的 VVC 视频。

视频巩固解决方面,团队自研的视频超分方法 TaoMC2 曾在 CVPR NTIRE 2022 视频超分与巩固竞争的三个赛道获得两冠一亚的成绩(如表 4 所示)。

CVPR NTIRE 视频超分与巩固竞争自 2020 年起已举办三届,在工业界和学术界均产生了重大的影响。CVPR NTIRE 2022 视频超分与巩固竞争吸引了腾讯、字节、华为等知名科技企业,中科院、北大、港中文、ETH 等科研机构参赛,其中很多参赛者都有多年的参赛经验,竞争激烈。

CVPR NTIRE 2022 视频超分与巩固竞争包含三个赛道,其中一个赛道的任务保持分辨率不变的视频巩固,另外两个赛道叠加超分问题。

再夺全球顶级竞赛CVPR NTIRE冠军,打造更好用户体验,淘宝拥有哪些实质技巧?

CVPR NTIRE 2022 视频超分与巩固竞争排行榜。TaoMC2 在赛道 1 上超第二名 0.01dB、第三名 0.13dB,且在 15 个测试集中的 9 个视频上表现最佳,说明方法具有较好的泛化性。同时,TaoMC2 在赛道 2 上超出其他队伍 0.1dB 以上,在赛道 3 上仅次于第一名 0.01dB。

在实际交易应用方面,团队打造了视频巩固计划 STaoVideo,服务于淘宝直播和短视频,分别帮助在直播生产端和短视频转码服务端提升画质。作为媒体解决系统 TMPS(Taobao Media Processing System)中最主要模块之一,STaoVideo 包含差异化的普惠高清和智美高清视频巩固算子,通过传统算法和深度学习结合,在考虑计算成本的前提下,给用户最好的画质体验。在播放端,STaoVideo 的超分巩固计划广泛用于诸如弱网等场景下的低分辨率视频传输、保障低传输带宽下用户播放的高清画质体验。

全面实质化战略下,淘宝实质技巧的探索实践

音视频技巧之外,淘宝也拥有全面的实质领域基层技巧布局,包含实质理解、实质搜索和实质推荐等领域,覆盖计算机视觉、自然语言解决、多模态和 AIGC 等。这些都是淘宝实质化战略的核心技巧,团队长期在这些方向有深度的打磨,沉淀出一定的技巧领先性。

在淘宝全面实质化的战略背景下,短视频与直播等富媒体实质,在兴趣种草、实质消费、商品展示、视频买家秀等各个维度展现出巨大的优势,从而也在淘宝的流量场里扮演着愈发重要的角色。与商品不同,实质存在制作成本高、时效性强、生命周期短、用户行为稀疏等特点,这给实质生产与分发均带来了较大的挑战。

面对这些挑战,淘宝实质技巧团队在实质理解与实质分发上深耕细作,在解决实际交易难题的同时,也将其中一些创新的工作总结沉淀,在 CVPR、AAAI 等国际顶级学术会议发表了多篇论文,包括在实质理解方面关于「商品定位」的工作。

团队设计了双分支跨模态定位架构,能够同时解决全局视觉以及语音文本两路信息,并进行充分交互来完成商品坐标的准确定位;同时,还首次提出了利用迁移学习的无监督域自适应商品定位。该计划已经在直播智能切片、短视频挂品等交易场景中上线使用,也在通用数据集与淘宝数据集都达到了业界最优水平,该工作《DATE: Domain Adaptive Product Seeker for E-commerce》发表在 CVPR 2023。

团队也针对开放词表检测问题展开了深入研究,针对以往方法在知识提取与迁移过程中的信息损失和低效性问题,提出了基于目标感知注意力掩码的知识提取模块(OAKE)和全局 – 区块 – 目标多层蒸馏金字塔结构(DP),在多个公开数据集上超过了 SOTA(State-Of-The-Art)计划,论文《Object-Aware Distillation Pyramid for Open-Vocabulary Object Detection》发表在 CVPR 2023。

再夺全球顶级竞赛CVPR NTIRE冠军,打造更好用户体验,淘宝拥有哪些实质技巧?

DATE 网络结构示意图。

在以上领域之外,实质技巧团队还拥有前端、客户端、服务端和数据科学团队,负责面向亿级消费者提供服务的淘宝首页、淘宝信息流、淘宝逛逛等核心交易场域,通过规模化实质供给和高效率实质运营,提高消费的丰富度,辅助消费决策;面向千万级商家、品牌、机构、达人,提供实质创作工具、实质运营平台和实质商业化解决计划,打开流量新增量的更大空间,助力商家触达更广泛的消费人群。团队同时也支撑阿里巴巴电商板块各交易线的实质管理,提供高效、低成本、灵活的交易架构,协助各交易线实现实质创新和运营的转型升级。

实质化是当前淘宝的五大战役之一。淘宝实质交易包含多样化的真实场景,具备足够的技巧挑战。淘宝实质化的大环境为技巧同学提供了持续迭代技巧、实时赋能交易和创造价值的舞台。依托当前技巧储备,适当投入高水平的国际赛事,对技巧同学来说是一个很好的面向业界前沿学习交流和练兵的机会。团队亦可籍此沉淀技巧领先性,不断打磨技巧,在这场实质化战役中更好地为用户体验保驾护航。

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/32160

(0)
上一篇 2023年6月16日 下午4:19
下一篇 2023年6月16日 下午4:47

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注