传统的图像编辑需要用户具备专业的技术知识和大量的手动操作能力。近年来,虽然生成模型的发展使得基于指令的图像编辑变得更加高效,但这些方法仍然依赖于用户输入大量的文本提示、视觉参考或物理操作,在很大程度上限制了图像编辑的效率和可访问性。
为了突破这一瓶颈,研究人员开始探索利用脑机接口(BCI)技术来实现图像编辑。BCI技术通过直接解码大脑信号,为用户与设备之间的交互提供了一种全新的方式。但以往的研究大多仅限于单一模态数据,无法满足复杂编辑场景下对用户意图的精准捕捉。
浙江大学、新加坡国立大学等高校联合发布了LoongX,通过整合多模态神经生理信号(包括EEG、fNIRS、PPG和头动信号),并结合先进的扩散模型和对比学习技术,实现了从用户神经意图到图像编辑的无缝转换。
CS3编码器是LoongX系统中负责从多模态神经信号中提取特征的关键组件。其设计目标是从复杂的神经信号中提取出能够有效表征用户意图的特征,同时确保这些特征能够适应不同长度的输入信号。为了实现这一目标,CS3编码器采用了自适应特征金字塔和结构化的状态空间模型(S3M)。
在特征提取过程中,CS3编码器首先将输入信号通过一个自适应平均池化(AAP)模块,生成不同尺度的特征金字塔。这一过程类似于在不同分辨率下观察同一信号,从而捕捉到信号中的多尺度信息。
以EEG信号为例,经过多层AAP处理后,可以得到一系列不同分辨率的特征表示。这些特征金字塔不仅保留了信号的细节信息,还能够提供更宏观的信号模式,为后续的特征融合提供了丰富的信息基础。
为了进一步捕捉神经信号中动态的时空模式,CS3编码器采用了结构化的状态空间模型(S3M)。S3M是一种能够高效处理长序列信号的模型,它通过分别对时间和通道信息进行编码,实现了对信号的全面分析。
输入信号经过填充和排列后,分别通过两个并行的S3M块进行处理。这两个S3M块分别关注信号的时间模式和通道动态,从而实现对信号的全面编码。通过这种设计,CS3编码器不仅能够捕捉到信号中的短期动态变化,还能够理解信号在更长时间尺度上的演变趋势。
在特征融合阶段,CS3编码器将多尺度特征和时空特征沿着通道维度进行合并,并通过自适应非线性投影(ANP)模块进行投影,得到最终的特征表示。ANP模块由两层全连接层、层归一化(LayerNorm)、ReLU激活函数和Dropout组成,能够对合并后的特征进行进一步的非线性变换,从而提取出更具代表性的特征。
最终,CS3编码器输出的特征不仅保留了输入信号的关键信息,还能够适应不同长度的输入信号,为后续的特征融合和图像编辑提供了坚实的基础。
动态门控融合(DGF)则是LoongX系统中用于将不同模态的特征进行融合的关键所在。其主要功能是将来自不同模态的特征,例如,EEG、fNIRS、PPG和头动信号动态地结合在一起,生成一个统一的潜在空间表示,并将其与文本嵌入进行对齐。
在门控混合阶段,DGF模块计算输入内容嵌入和条件嵌入的实例均值和方差。这些统计量用于评估每个通道的信息含量和噪声水平。通过一个一维门控网络,DGF模块为每个通道计算一个权重,这些权重用于自适应地混合统计信息。具体来说,门控网络会根据每个通道的信息含量动态调整其权重,从而强调信息丰富的通道,抑制噪声较大的通道。这种动态调整机制使得DGF模块能够根据输入信号的特性灵活地选择重要的特征信息。
接下来,在自适应仿射调制阶段,DGF模块对条件特征进行全局平均池化,生成一个全局特征表示。这个全局特征被传递到一个仿射网络中,生成两个仿射系数。这两个系数用于对归一化后的内容特征进行调制,从而实现对特征的动态调整。通过这种方式,DGF模块能够根据条件特征的全局信息对内容特征进行有针对性的调整,进一步优化特征表示。
在动态掩码阶段,DGF模块计算条件特征的通道重要性分数,并选择其中最重要的几个通道。通过应用一个二进制掩码,可以将不重要的通道信息过滤掉,从而提高特征的鲁棒性和有效性。这种动态掩码机制不仅能够去除噪声信息,还能够保留对图像编辑任务最有帮助的特征,进一步提升模型的性能。