大厂的告白体系升级,怎能少了大模型的身影

模型是告白体系中的一个复杂且重要的组成部分。之所以说它很复杂,不仅在于庞大的用户量及告白场景,也在于告白这种天然的多模态数据,要求模型具有强大的拟合本领。思考一下,如果你是一名工程师,怎样才能让你的模

模型是告白体系中的一个复杂且重要的组成部分。之所以说它很复杂,不仅在于庞大的用户量及告白场景,也在于告白这种天然的多模态数据,要求模型具有强大的拟合本领。思考一下,如果你是一名工程师,怎样才能让你的模型了解告白的实质、主题、方向受众?对于手机、电脑等不同设备,食品、汽车等不同行业,销量、名声等不同方向,模型怎样才能了解不同的告白场景?又怎样才能从百万条告白中为受众选择适宜的推送?面对流量竞争加剧的大环境,告白体系如何用技术破局,通过模型本领的提拔助力告白主达成生意方向,同时兼顾用户体验,实现多赢局面?不得不承认,抛开工程难度不说,想要拍脑袋得出一套好的解决方案,也基本是不可能的。

图片 那么业界顶尖的告白体系,它到底是怎么做的呢?本文将从腾讯告白混元AI大模型及告白大模型出发,介绍腾讯告白体系背后的技术,以及如何带来告白体系的硬指标——商品交易总额(GMV)的提拔。

大模型:告白体系的灵魂

在了解腾讯告白体系具体细节之前,我们先要有一个概念:大规模预训练模型,或者说大模型,不仅是 NLP、CV 的未来,同时也是告白体系的灵魂。归根究底,告白体系须要解决以下两个关键问题:如何了解各种告白文案、图片与视频?如何将适宜的告白,在适宜的时间推送给适宜的人?而这两点,恰恰是大模型能够处理的。一方面,多模态大模型能充分了解告白实质;另一方面,告白推荐大模型,能充分考虑庞大的用户与告白库,找到最适宜的推荐。拥有了大模型,手上也就有了武器。混元AI大模型充分编码文本、图片、视频等各种类型的告白数据,并了解它们都是什么,以及想要表达什么;腾讯告白大模型则基于之前了解的告白实质,思考到底要推荐给哪些人群,才能既帮告白主达成营销方向,又能让信息满足受众的须要。

混元AI大模型:实质了解是一切的基础

在告白体系中,告白的视频、图片、文案是天然的多模态数据,能充分了解它们的也必然是最新的大规模多模态训练。BERT证明了Transformer无监督预训练能了解自然语言,MAE证明了Transformer无监督预训练能了解图像数据。这种情况下,统一用 Transformer建模图像与文字等数据,构建一种统一的大规模多模态预训练模型就成为了炙手可热的领域。为此,针对实质了解,混元AI大模型使用大量无监督告白实质,构建一个通用的多模态实质了解预训练模型,并预期它能为各种下游了解任务提供更强的基础本领。该实质了解模型主要基于Transformer结构,并根据真实业务场景与告白数据特性,提出多尺度视觉特点融合、层次化注意力交互、大规模对抗训练等诸多改进和设计。  图片混元AI大模型的Transformer,通过预训练实现多模态实质了解。上图所示为混元AI大模型针对多模态了解构建的Transformer架构。该模型会通过多种任务,例如预测被遮盖的语言(MLM)、图像文本是否匹配(ITM)和视频文本是否匹配(VTM)等等,让模型同时学会了解多种形式的告白。腾讯告白的混元AI大模型,已经霸榜了多个多模态实质了解榜单,包括VCR、CLUE、MSR-VTT等11个公开测评集,这也充分体现了其训练方式的有效性。此外,腾讯告白还通过多种策略以加强模型的了解本领。例如在上图「Image」部分选拔了多尺度视觉特点融合,即特点同时选拔主体Region、Patch特点,以便获取更丰富的视觉语义信息。其次在Transformer层级中增加了层次化注意力交互,通过选拔全局+局部注意力的方式,在不损失重要信息交互进修下,节省估计开销,提拔训练效率。最后就是每种数据都增加了对抗噪声(Adversarial Noise),进行大规模对抗训练,这主要针对大模型在下游任务容易出现过拟合现象,因此在预训练和微调两阶段都增加了对抗噪声,从而提拔模型的稳健性。当然,除了要了解多模态告白实质,混元AI大模型还须要实现生成文案、搜索 / 推荐相似告白等任务,这些任务似乎并不能直接使用之前的多模态实质了解模型。腾讯的做法是选拔更适宜的架构,为它们打造独立的「实质了解」模型。例如跨模态检索,就更适合使用双塔Transformer结构,从而得到不同模态之间的对应关系。图片混元AI大模型的双塔 Transformer,通过层级化对比进修,进修视频和文本两种模态的不同粒度的相似度。

告白大模型:适宜的实质给适宜的受众

对于告白体系来说,不仅须要准确了解告白所表达的信息,同时也要将下游任务做好。在众多下游任务中,推荐体系又是最为突出的部分,毕竟它承担着将适宜的实质推送给适宜的受众,是告白投送方与告白接收方最能感知的部分。将适宜的实质推送给适宜的受众,听上去很简单,但背后的告白大模型实际上涵盖了召回、粗排、精排等告白投放环节的一系列方法。简而言之,召回负责从百万量级告白中筛选出某类的告白;粗排在召回结果的基础上进一步筛选出数万量级的告白,选择某一典型的告白集合;最后,也是最重要的精排模型,则对粗排筛选的结果进一步排序,从而选择最终要向受众曝光的告白。因此,告白大模型须要在考虑哪个告白最能迎合用户诉求的同时,为告白主带来最大的效益。   图片  总的来说,告白大模型可以实现千亿参数量的高效训练与推理,并提供可靠的告白匹配结果。得益于告白大模型的本领,腾讯告白整体的商品交易总额实现大幅提拔。对于告白主来说,商品交易总额的提拔,就是告白大模型实打实的本领。

打破天花板:告白大模型的创新解法

打破百亿参数量「小模型」的效果天花板,离不开高效的模型算法。算法工程师们须要考虑的是,千亿参数的告白大模型,怎样设计、优化才能解决告白业务中的个性化、场景化、行业化这三大难点。个性化说的是,告白场景须要更精准、更个性化的表征,从而突破小模型的表征本领天花板。通过改特点维度、Attention机制、让模型了解更长的时序跨度等方法,腾讯告白团队提拔了模型对「个性」的建模本领。场景化说的是,对于腾讯上万的告白位,场景差异特别大。小模型只能引入场景特点,或者分场景建模,这样效果既达不到最好,维护起来也困难重重。而告白大模型,通过构建场景化模型,集成了多个算法特性组合,从而解决多场景联合建模问题。还有行业化,深入行业转化方向多达上百个且数据稀疏,大模型加入大量高维特点,造成样本相对特点参数空间不足。这里腾讯通过提出Multi-Embedding Net,选拔多种不同尺寸的嵌入组合进修来减轻这个问题,同时也通过显示匹配(match)特点,降低特点稀疏度。腾讯告白在召回、粗排和精排算法上都有很多重要创新,再借助千亿参数大模型的强大进修本领,它们共同为解决如上告白三大难点做出努力。

精排算法三大创新

第一点:从原始特点抽取信息。精排模型是一种典型的稀疏神经网络架构,参数主要集中在Embedding层,或者说表示层。以前的小模型因为算力、表征本领等受限,原始行为特点会先通过降维算法,再输入到模型,这必然导致信息的损失。来到大模型时代,腾讯告白团队直接把用户曝光、点击、转化、文章阅读等行为高维特点植入模型,减少了信息损失。但是研发团队也发现,简单增加原始行为序列特点并不能使模型完美进修,为此进一步提出了AutoAttention,即通过注意力机制,自动且高效地抽取用户行为序列中重要的部分,增加模型表达本领。

图片

研发团队也与阿里开源的DIN(Deep Interest Network)点击率预估模型做了对比,AutoAttention有以下两项优势:DIN特点组合须要人工选择,AutoAttention能自动进修不同特点的权重;相比DIN的外积+MLP方式,AutoAttention仅选拔内积,更高效,且更节省估计量。因为特点维度从亿级别提拔到十亿级,线上效果也比较显著,其中朋友圈页面访问点击率模型(pCTR)商品交易总额也呈现提拔。第二点:让子网络解决告白场景多且差异大的问题。腾讯的告白位多,且差异大,它们是一种高度不均衡的样本分布,甚至多样的场景在训练中会带偏少样本的场景。为此,腾讯告白团队叠加运用一系列子网络设计技巧解决该问题:1)表示层:进修共享Embedding在不同领域下的权重,并通过位置偏置网络和多维度场景交叉特点强化场景差异;2)隐藏层:选拔Partitioned layer normalization,对不同领域的样本分别进行归一化,增强模型分领域的收敛速度;3)输出层:按照场景拆分公共塔和场景独立塔,强化场景个性表达。

图片

通过叠加一系列算法优化,之前因为领域差异拆开的模型能重新合起来,这不仅会降低维护成本,如公众号页面点击预估现在只须要一个模型,同时也取得GMV的提拔。

第三点:解决告白模型特有的高维与稀疏问题。随着行业化深入,细粒度行业特点增多,与此同时,转化链路变长。虽然链路长的方向样本更稀疏,但其也更重要。腾讯告白团队提出的Multi-Embedding Net构建了三种不同的Embedding子网络,并期待从Embedding Size大的子网络帮助浅层方向更准确,Embedding Size小的子网络帮助深层方向收敛更快。

图片

腾讯告白团队表示,以朋友圈pCVR为例,选拔Multi-Embedding模型后,不同方向AUC都有较显著的提拔,线上的模型目前均已选拔该结构。

粗排、召回算法也升级

为了配合精排模型的创新与提拔,召回算法、粗排算法都选择了排序进修(Learn to Rank, LTR),它们以精排结果为进修方向,希望能更好地对接最终的精排模型。召回候选告白队列达百万级,需在全库告白中择优,因此存在较大的选择性偏差问题。为此,腾讯告白团队引入用户和告白自监督对比进修,并与原有监督进修任务联合训练,提拔了模型泛化本领。其次,团队还对负采样进行了优化,并在告白对比进修中引入 Momentum Contrast机制,提拔了全库感知。粗排在业界长期以来选拔类似精排、但更简单的LiteCXR模型。然而,考虑到粗排的定位是典型的集合选择问题,其核心优化方向应该是排序一致性。所以,研发团队转向排序进修LTR 模型。对比传统做法,LTR模型更加简洁高效,之前数据稀疏、样本选择偏差问题也得到大幅缓解。

图片

物质基础:太极机械进修平台

与算法同等重要的是估计平台,尤其是对于告白体系,在线进修、高并发低延迟的推断,都离不开估计平台的支持,不然前文大模型的各种方案与创新,都只是空中阁楼。从估计平台方面,首先须要它能支持千亿参数量模型的在线进修,也即告白大模型要能 7*24小时实时迭代优化自己的效果;其次在发布模型时,须要快速将300多GB的模型权重文件推送到全国上百个推理服务器,并启动、加载到估计设备中;最后,估计平台还要有本领支持快速推理,别看说的简单,但当模型达到千亿量级,优化推理速度可是难之又难。混元AI大模型和告白大模型,其背后的物质基础,即腾讯「太极机械进修平台」。太极机械进修平台由腾讯TEG云架构平台部的机智平台和数据平台部的Tesla平台协作共建而成,是该公司首个大规模云原生机械进修平台,更在中国信通院举办的2021云原生产业大会上获得了「云原生应用优秀案例」奖项。先从技术上来看,通过整合与高效利用资源,太极机械进修平台旨在提供统一的机械进修框架和加速方案。该平台选拔分布式参数服务器架构,具备业内领先的模型训练本领,提供GPU算力和训练加速框架,是业界第一梯队企业们公认的最佳选择。

图片

太极机械进修平台在训练上的技术突破。除此之外,平台的大模型发布机制、推理机制都在技术上有本质的突破。再从应用上来看,太极机械进修平台目前为多个公司级的业务提供训练平台与加速服务,其中针对告白应用场景及依附的大模型技术进行了性能优化,并得到了充分的工业应用检验。太极机械进修平台在技术上具备独有优势,又能落地到实际应用场景中。那么,面对具有优化训练速度和推理需求的混元AI大模型和告白大模型技术,该平台是如何基于自身本领进行针对性优化和提拔的呢?首先是平台易用性提拔大模型研发效率。告白模型的开发通常涉及特点与样本生产、模型训练、模型服务等主要环节,在过去的体系中,这些环节的操作须要涉及多个子体系,算法开发者须要在多个体系之间切换,导致操作复杂,时间长成本高。为此,太极机械进修平台针对告白场景打造了一站式告白平台,将主要的模型开发流程进行集成,过去多个子体系收拢到一处入口,大幅提拔平台的易用性,提高模型研发的效率。其次是针对不同类别的大模型「具体问题具体分析」。混元AI大模型属于CV/NLP类预训练模型,基于太极机械进修平台进行研发。借助GPU算力,实现快速算法迭代和模型训练。该平台的预训练大模型训练框架支持数据并行和模型并行等分布式训练策略,其中模型并行包含张量并行、流水并行和专家并行,以及多种组合优化策略。腾讯告白大模型属于告白推荐类稀疏大模型,太极机械进修平台对它选拔了分布式参数服务器(Parameter Server, PS)架构。这种架构的优势在于存储模型参数和执行模型估计在各自的服务器上运行,如此一来,增加更多服务器意味着可以支持更大、估计需求更高的模型。这就为赋能腾讯亿级用户、海量告白实质的大模型提供了架构支撑。此外,腾讯基于这种架构自研了参数服务器体系AngelPS,现在可以支持10TB级模型的训练。

图片

Angle参数服务器架构设计。

最后是模型训练硬件加速本领和超大模型在线推理服务本领。一方面,太极机械进修平台的模型训练硬件加速本领非常突出。我们就以混元AI大模型的训练为例,太极的加速方案高于业界其他方案3.7倍,能够有效提拔模型的训练效率。另一方面,该平台具备超大模型在线推理服务的本领。推理估计方面支持常规 CPU 估计和复杂模型的GPU估计加速;存储上,根据在线推理模型大小,自适应选择小模型本地内存加载和大模型AngelPS远程查询的部署策略。就效果而言,目前在太极机械进修平台上,千亿参数、TB规模训练、百GB规模预测的腾讯告白大模型能够短时间内完成估计,并提供可靠的告白匹配结果。可以这样说,太极机械进修平台实现了对混元AI大模型和告白大模型的助力,并最终提拔了腾讯告白自身的推荐效率以及面向受众的推荐效果。

软硬联合:价值倍增

告白体系这种复杂的模型集合,也只有结合了硬件的算力与大模型的拟合力,才能尽可能高效。很明显,在模型上,混元AI大模型对多模态的了解本领已经登顶各大榜单,告白大模型又直接展现出提拔商品交易总额(GMV)的本领。算法上肯定属于领先水平了。同时,估计平台能支持千亿参数模型的重度使用,训练、推理、部署发布一气呵成,可以说独此一份了。两大技术缺一不可,软硬联合起来,本领才可以得到最大程度的释放。告白主能更精准、正确地将信息传递给方向受众,达成生意方向,用户也真正获取到自己想要的信息,形成双赢。当然,GMV只是一个指标,只是大模型在当前阶段希望尽力提拔的成果。我们还须要看到未来,腾讯告白大模型现在也一直在进修,它希望能更好地完成「广而告之」这一使命,将正确的信息传递给须要的人。也许当模型越来越强大,商品、服务信息能快速而精准地匹配给须要的人群,那整个社会的经济活力都将因为大模型而变得不同。参考链接:https://toutiao.io/posts/0p8zys/previewhttps://zhuanlan.zhihu.com/p/337444865https://www.jiqizhixin.com/articles/2022-06-20-5https://cloud.tencent.com/developer/article/1829554

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/33367

(0)
上一篇 2022年7月4日 下午2:29
下一篇 2022年7月4日 下午4:50

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注