与高调推出 ChatGPT 、GPT-4 不同,这次 OpenAI 在上个月偷偷上传了一篇论文《 Consistency Models 》,也不能说是偷偷,只是这次没有媒体大张旗鼓的报道,就显得这项钻研有些低调。论文内容主要是关于图象天生领域的。
作者阵容也非常强大,有本科毕业于清华大学数理基础科学班、目前在 OpenAI 担任钻研员的宋飏。宋飏将于 2024 年 1 月加入加州理工学院电子系(Electrical Engineering)和计算数学科学系(Computing and Mathematical Sciences)担任助理教授。此外还包括 OpenAI 联合创始人、首席科学家 Ilya Sutskever。
前面我们已经提到,OpenAI 的这项钻研主要是图象天生方面的,大家或多或少的都听过这项技术,例如最近热门的 Midjourney 和 Stable Diffusion,它们大都采用集中模型,由于其天生的图片效果惊艳,很多人都将其视为最好的工具。但集中模型依赖于迭代天生过程,这导致此类法子采样速度缓慢,进而限制了它们在实时应用中的潜力。
OpenAI 的这项钻研就是为了克服这个限制,提出了 Consistency Models,这是一类新的天生模型,无需对抗训练即可快速获得高质量样本。与此同时,OpenAI 还发布了 Consistency Models 实现以及权重。
论文地址:https://arxiv.org/pdf/2303.01469.pdf
代码地址:https://github.com/openai/consistency_models
具体而言,Consistency Models 支持快速 one-step 天生,同时仍然禁止 few-step 采样,以权衡计算量和样本质量。它们还支持零样本(zero-shot)数据编辑,例如图象修复、着色和超分辨率,而无需针对这些任务进行具体训练。Consistency Models 可以用蒸馏预训练集中模型的方式进行训练,也可以作为独立的天生模型进行训练。
钻研团队通过尝试证明 Consistency Models 在 one-step 和 few-step 天生中优于现有的集中模型蒸馏法子。例如,在 one-step 天生方面,Consistency Models 在 CIFAR-10 上实现了新的 SOTA FID 3.55,在 ImageNet 64 x 64 上为 6.20。当作为独立天生模型进行训练时,Consistency Models 在 CIFAR-10、ImageNet 64 x 64 和 LSUN 256 x 256 等标准基准上的表现也优于 single-step、非对抗天生模型。
有网友将其视为集中模型的有力竞争者!并表示 Consistency Models 无需对抗性训练,这使得它们更容易训练,不容易出现模式崩溃。
还有网友认为集中模型的时代即将结束。
更有网友测试了天生速度,3.5 秒天生了 64 张分辨率 256×256 的图片,平均一秒天生 18 张。
接下来我们看看 Consistency Model 零样本图象编辑能力:
图 6a 展示了 Consistency Model 可以在测试时对灰度卧室图象进行着色,即使它从未接受过着色任务的训练,可以看出,Consistency Model 的着色效果非常自然,很逼真;图 6b 展示了 Consistency Model 可以从低分辨率输入天生高分辨率图象,Consistency Model 将 32×32 分辨率图象转成 256×256 高分辨率图象,和真值图象(最右边)看起来没什么区别。图 6c 证明了 Consistency Model 可以根据人类要求天生图象(天生了有床和柜子的卧室)。
Consistency Model 图象修复功能:左边是经过掩码的图象,中间是 Consistency Model 修复的图象,最右边是参考图象:
Consistency Model 天生高分辨率图象:左侧为分辨率 32 x 32 的下采样图象、中间为 Consistency Model 天生的 256 x 256 图象,右边为分辨率为 256x 256 的真值图象。相比于初始图象,Consistency Model 天生的图象更清晰。
模型介绍
Consistency Models 作为一种天生模型,核心设计思想是支持 single-step 天生,同时仍然禁止迭代天生,支持零样本(zero-shot)数据编辑,权衡了样本质量与计算量。
我们来看一下 Consistency Models 的定义、参数化和采样。
首先 Consistency Models 建立在连续时间集中模型中的概率流 (PF) 常微分方程 (ODE) 之上。如下图 1 所示,给定一个将数据平滑地转换为噪声的 PF ODE,Consistency Models 学会在任何时间步(time step)将任意点映射成轨迹的初始点以进行天生式建模。Consistency Models 一个显著的特性是自洽性(self-consistency):同一轨迹上的点会映射到相同的初始点。这也是模型被命名为 Consistency Models(一致性模型)的原因。
Consistency Models 禁止通过仅使用 one network 评估转换随机噪声向量(ODE 轨迹的端点,例如图 1 中的 x_T)来天生数据样本(ODE 轨迹的初始点,例如图 1 中的 x_0)。更重要的是,通过在多个时间步链接 Consistency Models 模型的输出,该法子可以提高样本质量,并以更多计算为代价执行零样本数据编辑,类似于集中模型的迭代优化。
在训练方面,钻研团队为 Consistency Models 提供了两种基于自洽性的法子。第一种法子依赖于使用数值 ODE 求解器和预训练集中模型来天生 PF ODE 轨迹上的相邻点对。通过最小化这些点对的模型输出之间的差异,该钻研有效地将集中模型蒸馏为 Consistency Models,从而禁止通过 one network 评估天生高质量样本。
第二种法子则是完全消除了对预训练集中模型的依赖,可独立训练 Consistency Models。这种法子将 Consistency Models 定位为一类独立的天生模型。
值得注意的是,这两种训练法子都不需要对抗训练,并且都禁止 Consistency Models 灵活采用神经网络架构。
尝试及结果
尝试数据集包括 CIFAR-10 、ImageNet 64x 64 、LSUN Bedroom 256 x 256 、 LSUN Cat 256 x 256。首先该钻研在 CIFAR-10 上进行了一系列尝试。结果图 3 所示。
Few-Step 图象天生
接着该钻研在 ImageNet 64x 64、LSUN Bedroom 256 x 256 数据集上进行尝试,结果如图 4 所示。
表 1 表明,CD( consistency distillation )优于 Knowledge Distillation、DFNO 等法子。
表 1 和表 2 表明 CT( consistency training ) 在 CIFAR-10 上的表现优于所有 single-step、非对抗性天生模型,即 VAE 和归一化流。此外,CT 在不依赖蒸馏的情况下获得与 PD ( progressive distillation )相当的质量,用于 single-step 天生。
图 5 提供了 EDM (Karras et al., 2022) 样本(顶部)、single-step CT 样本(中)和 two-step CT 样本(底部)。
了解更多内容,请参考原论文。
原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/20868