把指纹焊死在频率上：抗微调神经网络指纹的硬核方案来了

论文第一作者唐灵，张拳石老师课题组的博二学生。今天要聊的是个硬核技术 —— 如何给神经网络刻上抹不掉的 "身份证"。现在大模型抄袭纠纷不断，这事儿特别应景。

论文第一作者唐灵，张拳石老师课题组的博二学生。

今天要聊的是个硬核技术 —— 如何给神经网络刻上抹不掉的 "身份证"。现在大模型抄袭纠纷不断，这事儿特别应景。

所谓神经网络指纹技术，是指使用神经网络内部如同人类指纹一样的特异性信息作为身份标识，用于判断模型的所有权和来源。传统方法都在玩 "贴标签"：往模型里塞各种人造指纹。但问题是，模型微调（fine-tuning）就像给整容 —— 参数一动，"整张脸" 就变了，指纹自然就糊了。

面对神经网络微调训练的威胁，现有方案都在修修补补，而我们上升到理论层面重新思考：神经网络是否先天存在某种对微调鲁棒的特征？如果存在，并将该固有特征作为网络指纹，那么无论对模型参数如何微调，该指纹就能始终保持不变。在这一视角下，前人的探索较为有限，没有从理论上证明出神经网络内部对微调天然鲁棒的特征。

论文地址：https://arxiv.org/pdf/2505.01007
论文标题：Towards the Resistance of Neural Network Watermarking to Fine-tuning

方法介绍

这里我们发现了一个颠覆性事实：卷积核的某些频率成分根本不怕微调。就像给声波做 DNA 检测，我们把模型参数转换到频率域，找到了那些 "焊死" 在频谱上的特征点 —— 我们拓展了离散傅里叶变换，从而定义了神经网络一个卷积核所对应的频谱，并进一步证明：当输入特征仅包含低频成分时，卷积核的某些特定频率成分在微调过程中能够保持稳定。

理论框架。我们证明，通过对卷积核 W 进行拓展后的离散傅里叶变换（不是传统的傅里叶变换）所获得的特定频率成分，在训练过程中保持稳定。因此，我们使用这些特定的频率成分作为对于微调鲁棒的神经网络指纹。

首先，我们发现神经网络时域上的前向传播过程可以写为频域当中的向量乘法。具体而言，给定一个卷积核 W 和偏置项 b，以及对应的输入特征 X，我们通过对卷积核进行扩展的离散傅里叶变换得到频率成分，同时对输入特征进行离散傅里叶变换得到频域成分，其中不同的代表不同的频率点。可以证明，空间域中的卷积操作严格等价于在频率域中各频率成分之间的向量点积。