在电影中,随着女主角 Lucy 脑力的逐渐开发,她获得了以下能力:
10%:能够控制身体的自主神经系统,提高身体协调能力和反应速度。
30%:能够展望未来并展望人们的行动,提高洞察力和判断力。
50%:能够通过感知周围环境的微小变化来展望未来的变化。
70%:能够控制身体和物体的运动,拥有超凡的运动和战斗技能。
90%:能够与宇宙和时间相连,拥有灵感和直觉的力量。
100%:能够实现超自然的力量,超越了人类的认知极限。
在电影的结尾,女主逐渐消失并变成了一种纯粹的能量形态,最终消失在宇宙中,与宇宙和时间融为一体。人类超体的实现即为连通外界,以获取无限值的能力。将此思想迁徙到神经搜集域,若能建立与所有搜集的连通,即也可实现搜集超体, 理论上将获得无边界的展望能力。
即实体化的搜集必然会限制搜集功能的增长,而将目标搜集与 Model Zoo 举行连通,此时搜集不再具备实体,而是一种建立起搜集之间的连通超体形态。
图上:超体搜集和实体搜集的区别。超体搜集无实体,是一种搜集之间的连通形式
该搜集超体的思想在本文分享 CVPR 2023 论文《Partial Network Cloning》,中得以探索。在该论文中,新加坡国立大学 LV lab 提出一种全新的搜集克隆技术。
链接:https://arxiv.org/abs/2303.10597
01 问题定义
在该文中,作者提到利用该搜集克隆技术实现搜集去实体化可以带来以下优势:
弱数据依赖:只需要片面批改数据对一些连接模块举行修正
低训练复杂度:仅需 fine-tune 一些连接模块和工作展望模块
低存储需求:仅需存储搜集的连通路径,无需存储所有搜集
可持续可恢复:连通路径可增可减,不对 Model Zoo 举行任何修正
传输友好:在搜集传输时仅需传输连通路径信息,无需对所有搜集传输
超体搜集的实现基础为迅速扩张的 Model Zoo,海量预训练模型可供使用。因此对于任意工作 T,我们总能找到一个或多个模型,使得这些已有模型的工作能组成成所需求工作。即:(选择了三个搜集举行连通)。
如上图所示,对于工作 T,为了构建对应的超体搜集 M_c , 本文提出以下的构建框架:
方法一:定位最合适的本质搜集 M_t ,使得本质搜集 M_t 的工作集 T_t 与所需工作集 T 的交集 T⋂T_t 最大,此时本质搜集被设定为主搜集;
方法二:选择批改搜集 M_s^1 和 M_s^2,对本质搜集中缺失的片面工作举行补充;
方法三:利用搜集克隆技术定位和连通片面批改搜集 M_s^1 和 M_s^2 至本质搜集 M_t;
方法四:利用片面批改数据对搜集的连通模块和展望模块举行 fine-tune。
综上所述,本文提出的构建搜集超体所需的搜集克隆技术可以被表达为:
其中 M_s 表达批改搜集集合,因此搜集超体的连通形式为一个本质搜集加上一个或若干个批改搜集,搜集克隆技术就是克隆所需要的片面批改搜集,嵌入至本质搜集中。
具体来说,本文提出的搜集克隆框架包括以下两个技术要点:
对于包含有 P 个批改搜集的克隆,第一个技术要点为关键片面定位 Local (∙)。由于批改搜集可能会含有与工作集 T 无关的工作信息,关键片面定位 Local (∙) 的目标为定位批改搜集中与工作 T⋂T_s 相关的部位,定位参数用 M^ρ 表达,实现细节在第 2.1 小节中给出。第二个技术要点为搜集模块嵌入 Insert (∙),需选择合适的搜集嵌入点 R^ρ 嵌入所有的批改搜集,实现细节在第 2.2 小节中给出。
02 方法总览
在搜集克隆的方法片面,为了简化叙述,我们设定批改搜集的数量 P=1(因此省略了批改搜集的上标 ρ),即我们连通一个本质搜集和一个批改搜集来搭建所需的超体搜集。
如上文所述,搜集克隆包含关键片面定位和搜集模块嵌入。在这里,我们引入中间的可迁徙模块 M_f 用以辅助理解。即,搜集克隆技术在批改搜集中定位关键部位形成可迁徙模块 M_f,再将可迁徙模块通过软连接嵌入至本质搜集 M_t。因此,搜集克隆技术的目标为定位和嵌入具有可迁徙性和片面保真性的可迁徙模块。
2.1 搜集关键部位定位
搜集关键部位定位的目标是学习选择函数 M,选择函数 M 在这里被定义为作用于搜集每一层 filter 的 mask。此时的可迁徙模块可以被表达为:
在上式中,我们将批改搜集 M_s 表达为 L 层,每一层表达为。已知可迁徙模块的提取不对批改搜集做任何修正。
为了得到合适的可迁徙模块 M_f,我们定位批改搜集 M_s 中对最终展望结果做出最大贡献的显式片面。在此之前,考虑到神经搜集的黑盒特性,且我们只需要搜集的片面展望结果,因此我们利用 LIME 拟合批改搜集在所需工作的片面建模(具体细节请查看论文正文)。
片面建模结果用来表达,其中 D_t 是所需的片面展望结果对应的训练数据集(小于原始搜集的训练集)。
因此选择函数 M 可以通过以下目标函数举行优化:
在该式中,定位的关键片面拟合片面建模的 G。
2.2 搜集模块嵌入
在批改搜集中定位可迁徙模块 M_f 时,使用择函数 M 直接从 M_s 中提取,无需修正其权重。下一步是决定在本质搜集 M_t 中可迁徙模块 M_f 的嵌入位置,以获得最佳的克隆功能。
搜集模块的嵌入由位置参数 R 控制。遵循大多数模型重用设置,搜集克隆将本质模型的前几层保留为通用特征提取器,搜集嵌入过程被简化为查找最佳嵌入位置(即在第 R 层嵌入可迁徙模块 M_f)。查找嵌入的过程可以表达为:
详细的公式解释请查询正文。总体来说,基于搜索的嵌入包括以下要点:
最佳位置参数 R 搜索的过程从搜集的深层到浅层;
在第 R 层举行可迁徙性模块嵌入后的超体搜集后,还需额外引入嵌入位置的 Adapter A 和重新 finetune F_c 层(对于分类搜集来说),但两者的参数量相较于所有 model zoo 可以忽略不计;
当从搜集的第 L-1 层至第 0 层建立起连接后,我们粗略的根据每一次 fine-tune 的 loss 收敛值估计嵌入的功能,选取最小收敛值点作为最终的搜集嵌入点。
03 搜集克隆技术的实际应用
本文提出的搜集克隆技术的核心为建立起预训练搜集之间的连通路径,不需要对预训练搜集举行任何参数的修正,它除了可以用作搭建搜集超体的关键技术,也能被灵活的运用到各种实际场景中。
场景一:搜集克隆技术使得 Model Zoo 在线使用成为可能。在一些资源有限的情况下,用户可以在不下载预训练搜集到本地的情况下灵活地利用在线的 Model Zoo。
注意到克隆后的模型是由确定的,其中 M_t 和M_s 在所有过程中都是固定且不变的。模型克隆对预训练模型上没有举行任何修正,也没有引入新模型。模型克隆使得 Model Zoo 中任何功能组合都成为可能,这也有助于维护 Model Zoo 的良好生态环境,因为建立连接使用 M 和 R 是一种简单的 mask 和定位操作,易于撤销。因此,提出的搜集克隆技术支持建立一个可持续的 Model Zoo 在线推理平台。
场景二:经由搜集克隆生成的搜集具备更好的信息传输形式。当举行搜集传输时,该技术可以减少传输延迟和损失。
在举行搜集传输时,我们只需要传输集合,结合公共 Model Zoo,接收方可以恢复出原始搜集。与所有克隆后的搜集相比,
非常小,因此可以减少传输延迟。如若 A 和 F_c 仍然存在一些传输损失,接收方可以通过在数据集上举行 fine-tune 来轻松修复。因此,搜集克隆为高效传输提供了一种新形式的搜集。
04 实验结果
我们在分类工作上举行了实验验证。为了评估可迁徙模块的片面功能表征能力,我们引入了条件相似性指标:
其中 Sim_cos (∙) 表达余弦相似性。
上表中给出了在 MNIST,CIFAR-10,CIFAR-100 和 Tiny-ImageNet 上的实验结果,可以看出搜集克隆(PNC)得到的模型的功能提升最为显著。且若举行所有搜集的 fine-tune(PNC-F)并不会带来搜集功能的提升,相反,它会增加模型的 bias。
除此之外,我们对可迁徙模块的质量举行了评估(如上图)。从图(左)可以看出,从每个子数据集中学习的每个功能或多或少是相关的,这显示出从批改搜集中提取和定位片面功能的重要性。对于可迁徙模块,我们计算其相似度 Sim (∙)。图(右)显示,可迁徙模块与待克隆的子数据集在相似性上很高,其与其余子数据集的关系被削弱(非对角线区域用比源搜集的矩阵图浅的颜色标记)。因此,可以得出结论,可迁徙模块成功地模拟了要克隆的工作集上的片面功能,证明了定位策略的正确性。
05 总结
本文研究了一种新的知识转移工作,称为片面搜集克隆(PNC),它以复制粘贴的方式从批改搜集中克隆参数模块并将其嵌入到本质搜集中。与以往的知识转移设置不同(它们依赖于更新搜集的参数)我们的方法保证所有预训练模型的参数不变。PNC 的技术核心为同时举行搜集关键部位定位和可迁徙模块嵌入操作,两个方法相互加强。
我们在多个数据集上展示了我们的方法在准确性和可迁徙性指标的突出结果。
原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/21464