本文提出了一个图象去含混方向的综述,来自澳大利亚国立大学、中山大学、美国加州大学 Merced 分校、日本乐天研究所的研究者回首了鉴于深度进修的图象去含混技术研究进展,回首了图象去含混的研究历史,归纳了当前的研究进展,并从事了展望。该综述近期被计算机视觉旗舰期刊 International Journal of Computer Vision 接收。
链接:https://link.springer.com/article/10.1007/s11263-022-01633-5
图象去含混是计算机底层视觉中的一个经典问题,它的指标是将输入的含混图象中恢复成清楚的图象。近年,鉴于深度进修的神经收集在该任意上取得了重大进展。本文对最近发表的鉴于深度进修的图象去含混格式从事了全面的回首,主要看点如下:
1. 阐述图象去含混的研究背景,包孕如何定义去含混、含混产生的原因、去含混的格式、质量评价的指标、常见的数据集。
2. 讨论了近年鉴于深度进修在图象去含混领域中取得的进展,对当前的深度去含混格式从事全面回首。
3. 分析了当前图象去含混存在的挑战以及未来的研究课题。
背景知识
图象含混是由拍摄图象过程中的各种因素引起,包孕相机抖动、指标活动以及离焦等。根据含混图片的分歧,一般将含混图片分为如下几类:活动含混,离焦含混,高斯含混,以及混合含混。
(1)活动含混:在光照充足的条件下,当曝光时间足够短时,相机可以捕捉到清楚的图象。但是,当曝光时间相对于物体或者相机活动过长的时候,图象会产生含混,该含混图片一般被称为活动含混。
(2)离焦含混:除了活动含混之外,图象清楚度还受到指标位置以及相机焦距的影响。在相机的成像区域中,分歧指标的景深是分歧的,当相机的对焦系统无法对焦到某些指标时,相机就会拍摄到离焦含混的图片。
(3)高斯含混:高斯含混是通过高斯卷积得到的一种含混图象。
(4)混合含混:当一个图片同时被多种因素影响时,造成的含混就是混合含混,比如相机拍摄在离焦状态下的高速活动物体时,得到的含混就是一种混合含混。
为了评价去含混的效果,通常采用一些图片评价算法,这些算法包孕鉴于主观和鉴于客观的评测。主观格式是不需要清楚图象作参照的,一个具有代表性的指标是 MOS,评测者用 1-5 的等级对图象质量从事评分,之后对分数从事平均。对于图象去含混的问题,大多数现有格式都是根据鉴于客观的指标从事评测,该格式可以进一步分为两类:有参照和无参照的指标。有参照的指标通过将恢复的图象与清楚图从事比较来评价图象质量,包孕 PSNR,SSIM, WSNR, MS-SSIM、IFC、NQM、UIQI、VIT、LPIPS 等等,其中 PSNR 跟 SSIM 是最常用的指标。
与有参照的指标分歧,无参照指标仅使用去含混的图象就可以衡量其质量。常见的指标包孕 BIQI、BLINDS、BRISQUE、CORNIA、NIQE、SSEQ 等。此外,也有人通过测量去含混算法对分歧视觉任意(例如指标检测和识别)准确性的影响,来评价图象去含混算法的性能。
非盲图象去含混
图象去含混的任意是根据给定的含混图象,恢复潜在的清楚图象。当已知图片含混核的情况下,则该问题也可以被称为非盲图象去含混。尽管已知了含混核,但是由于传感器噪声和高频信息的丢失,该任意仍然具有挑战性。
一些鉴于非深度进修的格式通常使用自然图象先验,例如全局或者局部图象先验,在空间域 或频域中重建清楚的图象。为了恢复出更好的图片,近年,一些鉴于空间反卷积和深度神经收集的格式相继被提出。本文在下面表格中归纳了现有的鉴于深度进修的非盲格式,这些格式可以大致分为两组:第一组是鉴于反卷积去噪,而第二组是鉴于先验去噪声:
盲图象去含混
当含混图的含混核未知时,图象去含混任意被称为盲图象去含混。早期的盲图象去含混格式侧重于去除均匀的含混核。然而,真实世界的含混图象,其分歧区域通常是由分歧的含混核生成,因此其含混核是非均匀的。为了解决盲图象的去含混任意,多种鉴于深度进修的图象去含混算法被提出。本文在下面表格中归纳了现有的鉴于深度进修的盲图象去含混格式,这些格式通常采用各种分歧的收集框架,包孕多尺度收集、对抗神经收集、级联收集、再含混收集等等。
损坏函数
为了更好的训练深度去含混收集,各种各样的损坏函数被提出。早期的格式大部分是鉴于像素级内容的损坏函数,用于测量收集训练过程中的去含混图片跟清楚图片的重建误差。考虑到像素级内容的损坏不能准确衡量去含混图象的质量,各种其他的损坏函数被提出,包孕鉴于对抗的损坏函数、鉴于感知的损坏函数、鉴于相对含混的损坏函数、鉴于光流的损坏函数等等。
模型性能对比
本本归纳了具有代表性的图象去含混跟视频去含混算法在主流数据集上的 PSNR/SSIM 指标。
此外,本文归纳了分歧损坏函数对去含混格式的影响,模型在 non-reference 的评价指标上的表现,以及模型的速度。
特定场景的图象去含混
当前,绝大部分鉴于深度进修的图象去含混算法是不区分场景的,也就是他们是对常见的自然与人为设计的场景从事去含混。但是,在现实生活中,经常会遇到一些特定场景的图象去含混。比如人脸去含混、文本去含混、双目去含混。本文归纳了这些分歧场景的特点,以及各自的深度去含混算法。
机遇与挑战
尽管图象去含混算法在主流数据集上取得了重大进展,但把真实世界的含混图恢复成清楚的图象仍然具有挑战性。本文最后归纳了图象去含混算法现在面临的挑战并讨论了未来可能的研究机会,包孕真实数据采集、损坏函数、评价指标、模型规模、无监督进修等等。
感兴趣的读者可以阅读论文原文,了解更多研究细节。
原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/25936