谷歌复用30年前经典算法,CV引入加强进修,网友:视觉RLHF要来了?

模型预测和预期运用之间存在错位,不利于 CV 模型的部署,来自谷歌等机构的钻研者用加强进修技术的赞美函数,从而改善了计算机视觉工作。

ChatGPT 的火爆有目共睹,而对于支撑其成功背后的技术,监督式的指令微调以及基于人类反应的加强进修至关重要。这些技术也在逐渐扩展到其他 AI 领域,包括计算机视觉(CV)。我们知道,在解决计算机视觉中的复杂输出时,成功的主要标准不在于模型对训练指标的优化程度,而在于预测能力与工作的吻合程度,即模型在预期用途上的表现效果。为了追求这种一致性,有钻研者在模型架构、数据、优化、采样、后解决等方面从事了一些改善。例如,在物体检测工作中,钻研人员运用了 NMS(non-maximum suppression )、基于集合的全局损失(set-based global loss)以及改变输入数据来获得在测试时具有改善行为的模型。虽然这些要领带来了显著的收益,但它们往往只对特定工作有用,仅仅是间接地对工作风险从事了优化。不仅 CV,包括自然语言解决(NLP)、加强进修(RL)等领域也在广泛钻研这一现象。在这些领域中,对于指标不太明确的工作,如翻译或生成摘要,制定优化指标非常困难。在解决这类问题时,一种流行的要领是进修模仿例子的输出,然后从事加强进修,使模型与赞美函数保持一致。运用这种要领,NLP 领域产生了令人兴奋的结果,该要领运用大型预训练语言模型和由人类反应定义的赞美来解决原本难以指定的工作。此外,同样的要领被广泛用于图象字幕工作中,其中 CIDEr(Vedantam 等人 2015 年提出)被用来作为赞美。尽管如此,据了解,赞美优化以前还没有在(非文本)计算机视觉工作中从事过探索。近日,谷歌大脑团队的钻研者在论文《Tuning computer vision models with task rewards》中证明了,运用 REINFORCE 算法(Williams 于 1992 提出)来调整(Tuning)具有赞美函数的预训练模型可以开箱即用地用于各种计算机视觉工作。其实许多关于加强进修工作的钻研都会提及 Williams 的 REINFORCE 算法,可见这个算法的重要性。可以说 REINFORCE 算法是策略梯度乃至加强进修的典型代表。图片论文地址:https://arxiv.org/pdf/2302.08242v1.pdf图 1 展示了一些关键结果,主要包括指标检测、全景分割和图象着色的赞美优化带来的定量和定性改善。该钻研所提出的要领在解决各种 CV 工作上简单而有效,证明了它的多功能性和适应性。尽管本文主要采用评估指标形式的赞美,但这些初步结果显示了该要领用来优化计算机视觉模型也不失为一种有效途径,这些模型具有更复杂和更难指定的赞美,例如人的反应或整体系统性能。图片推特网友对这篇文章给了一个比较全面的总结,即本文实现的功能是运用 RL 调整预训练视觉模型。钻研的动因是受到 LLM 加强进修成功的启发;其效果是在指标检测、全景分割等方面性能大幅提升。并表示,这项钻研可能是实现视觉 RLHF (Reinforcement Learning from Human Feedback)的有效途径。图片图源:https://twitter.com/johnjnay/status/1627009121378598912赞美在不丧失泛化性的情况下,该钻研将 CV 工作描述为进修一个函数的过程,该函数将输入 x(即图象)映射到输出 y = [y_1, y_1,……, y_n](文本 token 序列、bounding box 序列等)。该钻研旨在进修以 θ 为参数的条件分布 P (y|x, θ),使赞美函数 R 最大化。用抽象的公式来形容,就是本文要解决以下优化问题。图片问题有了,接下来就是怎么解决了,本文分两步走:首先用最大似然预计对模型从事预训练;然后运用 REINFORCE 算法对模型从事 Tuning 。下面我们看看这两步的具体过程:最大似然预训练首先运用最大似然原理预计参数 θ 并捕获训练数据的分布。实现这一指标可采用梯度下降算法,该算法通过最大化训练数据的 log-likelihood图片来实现。算法 1 和图 2 描述了 MLE(最大似然预计)优化步骤,这是训练模型最常用的要领。完成这一步将得到 MLE 模型。图片图片REINFORC 算法将赞美最大化 为了更好的优化 MLE 模型以适应工作风险,还需要最大化赞美函数。对于给定输入 x,该钻研利用 REINFORCE 算法来预计对给定 x 期望赞美的梯度,公式如下所述:图片算法 2 提供了伪代码,图 3 说明了该过程:图片图片实验结果接下来我们看看本文提出的要领在视觉工作上的表现。全景分割如下表 1 所示,Tuning 过程显著改善了 MLE 模型。视觉检查(visual inspection)后的结果表明,Tuning 后的模型在避免不连贯预测方面更好,特别是对于小尺度物体,可参见图 1。图片指标检测表 2 显示,通过优化,该钻研将原始 MLE 模型的 mAP 分数从 39.2% 大幅提高到 54.3%。在 Pix2seq 中,具有稍大的 1333×1333 分辨率和许多启发式的相同大小的 ViT-B 模型达到了 47.1%。当运用更大的 ViT-L 主干时,Pix2seq 报告的最佳指标检测结果为 50.0%。图片上色图 4 给出的定性结果清楚地表明,新模型始终能产生更丰富多彩的图象。图片图象描述表 3 结果表明,应用所提出的要领可以改善 MLE 模型,这与先前文献中的观察结果一致,证明了该要领针对特定工作风险从事 tuning 的有效性。图片

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/27809

(0)
上一篇 2023年2月24日 下午1:05
下一篇 2023年2月26日 下午12:51

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注