论文原文地址:https://arxiv.org/abs/2104.10729v1
github: https://github.com/Li-Chongyi/Lighting-the-Darkness-in-the-Deep-Learning-Era-Open
百度云(word版翻译及原文pdf):https://pan.baidu.com/s/1zJ7tU-GpT7O3FYvSN-_7ZA?pwd=gzrr 密码:gzrr
Lighting the Darkness in the Deep Learning Era
Abstract
1 INTRODUCTION
由于不可避免的环境和/或技术限制(例如照明不足和曝光时间有限),图像通常在次优照明条件(sub-optimallighting condition)下拍摄,受到背光、非均匀照明和弱照明的影响。此类图像的美学质量受损,并且造成诸如目标跟踪、识别和检测等高级任务信息的不理想的传输。图 1 展示了由次优照明条件引起的退化的一些示例。
弱光增强是图像处理的基本任务之一。它在不同领域有广泛的应用,包括视觉监控、自动驾驶和计算摄影。尤其是智能手机摄影已变得非常常见。受限于相机光圈的大小、实时处理的要求以及内存的限制,在昏暗的环境中使用智能手机的相机拍照尤其具有挑战性。在此类应用中增强低光图像和视频是一个令人兴奋的研究领域。
传统的弱光增强方法包括基于直方图均衡的方法 和基于Retinex 模型的方法 。后者受到的关注相对较多。典型的基于Retinex 模型的方法通过某种先验或正则化将低光图像分解为反射分量和照明分量。估计的反射分量被视为增强结果。这种方法有一些局限性:1)将反射分量视为增强结果的理想假设并不总是成立,特别是考虑到各种照明属性,这可能导致不切实际的增强,例如细节丢失和颜色失真,2)噪声通常在Retinex 模型中被忽略,因此在增强的结果中保留或放大,3)找到有效的先验或正则化具有挑战性。不准确的先验或正则化可能会导致增强结果中的伪影和颜色偏差,以及 4) 由于其复杂的优化过程,运行时间相对较长。
近年来,自第一个开创性工作LLNet[1]以来,基于深度学习的 LLIE 取得了令人瞩目的成功。与传统方法相比,基于深度学习的解决方案具有更好的准确性、鲁棒性和速度,因此近年来受到越来越多的关注。图 2 显示了基于深度学习的 LLIE 方法的一个简明里程碑。如图所示,自 2017 年以来,基于深度学习的解决方案的数量逐年增长。这些解决方案中使用的学习策略包括监督学习 (SL)、强化学习 (RL)、无监督学习 (UL)、零样本学习 (ZSL) 和半监督学习 (SSL)。请注意,我们仅在图 2 中报告了一些具有代表性的方法。实际上,从 2017 年到 2020 年,关于基于深度学习的方法的论文有 100 多篇,超过了常规方法的总数。此外,虽然一些通用的照片增强方法 [38]、[39]、[40]、[41]、[42]、[43]、[44]、[45]、[46] 可以将图像的亮度提高到在某种程度上,我们在本次调查中省略了它们,因为它们并非旨在处理各种低光照条件。我们专注于专为弱光图像和视频增强而开发的基于深度学习的解决方案。
尽管深度学习主导了 LLIE 的研究,但缺乏对基于深度学习的解决方案的深入和全面的调查。文献[47]、[48] 为两篇 LLIE综述文章。与主要回顾传统 LLIE 方法的 [47] 和从人类和机器视觉的角度探索几种传统和基于深度学习的 LLIE 方法的实验性能的 [48] 相比,我们的调查具有以下独特特征:1)我们的工作是第一个系统全面地回顾基于深度学习的 LLIE 的最新进展。我们在各个方面进行了深入的分析和讨论,涵盖学习策略、网络结构、损失函数、训练数据集、测试数据集、评估指标等。2)我们提出了一个包含由在不同的照明条件下使用不同的设备来评估现有方法的泛化性。因此,我们为关键的开放性问题、挑战和未来方向提供见解。此外,据我们所知,我们是第一个比较 LLIE 方法在不同现实世界场景中捕获的低光视频上性能的。3) 我们提供了一个在线平台,涵盖了许多流行的基于深度学习的 LLIE 方法,结果可以通过用户友好的 Web 界面生成。这个统一的平台解决了比较不同深度学习平台中实现的不同方法并需要不同硬件配置的问题。使用我们的平台,没有任何 GPU 的人可以在线评估任何输入图像的不同方法的结果。
我们希望我们的调查能够提供新的见解和启发,以促进对基于深度学习的 LLIE 的理解,促进对提出的未解决问题的研究,并加快该研究领域的发展。
2 DEEP LEARNING-BASED LLIE
2.1 Problem Definition
我们首先给出基于深度学习的 LLIE 问题的通用公式。对于宽高的低光图像,
其中
2.2 Learning Strategies
根据不同的学习策略,我们将现有的 LLIE 方法分为监督学习、强化学习、无监督学习、零样本学习和半监督学习。图 3 给出了从不同角度进行的统计分析。在下文中,我们回顾了每种策略的一些代表性方法。
监督学习 。对于基于监督学习的 LLIE 方法,它们可以进一步分为端到端方法、基于深度Retinex 的方法和现实数据驱动方法。
第一个基于深度学习的 LLIE 方法 LLNet[1] 采用堆叠稀疏去噪自动编码器 [49] 的变体同时对低光图像进行增亮和去噪。这项开创性的工作激发了 LLIE 中端到端网络的使用。吕等人。[3] 提出了一种端到端的多分支增强网络(MBLLEN)。MBLLEN通过特征提取模块、增强模块和融合模块提取有效的特征表示来提高 LLIE 的性能。同一作者 [15] 提出了其他三个子网络,包括Illumination-Net、Fusion-Net 和 Restoration-Net,以进一步提高性能。任等人。[12] 设计了一个更复杂的端到端网络,包括用于图像内容增强的编码器-解码器网络和用于图像边缘增强的循环神经网络。与 [12] 类似,Zhu 等人。[16] 提出了一种称为 EEMEFN的方法。EEMEFN包括两个阶段:多曝光融合和边缘增强。为 LLIE 提出了一种多曝光融合网络 TBEFN[20]。TBEFN在两个分支中估计一个传递函数,可以得到两个增强结果。最后,采用简单的平均方案来融合这两个图像,并通过细化单元进一步细化结果。此外,在 LLIE 中引入了金字塔网络(LPNet) [18]、残差网络 [19] 和拉普拉斯金字塔 [21](DSLR)。这些方法通过 LLIE 常用的端到端网络结构学习有效和高效地集成特征表示。最近,基于观察到噪声在不同频率层中表现出不同程度的对比度,Xu 等人。[50] 提出了一种基于频率的分解和增强网络。该网络在低频层通过噪声抑制恢复图像内容,同时在高频层推断细节。
与在端到端网络中直接学习增强结果相比,由于物理上可解释的Retinex 理论 [51]、[52],基于深度Retinex 的方法在大多数情况下享有更好的增强性能。基于深度视网膜的方法通常通过专门的子网络分别增强 il 亮度分量和反射率分量。在 [4] 中提出了一个Retinex-Net。Retinex-Net 包括一个Decom-Net,它将输入图像拆分为与光无关的反射率和结构感知平滑照明,以及一个调整照明图以进行低光增强的Enhance-Net。为了减少计算负担,Li 等人。[5] 提出了一种用于弱光照图像增强的轻量级LightenNet,它仅由四层组成。LightenNet 将弱光照图像作为输入,然后估计其光照图。基于Retinex理论[51]、[52],通过将光照图除以输入图像得到增强图像。为了准确估计光照图,Wang 等人。[53] 通过他们提出的DeepUPE 网络提取全局和局部特征以学习图像到照明的映射。张等人。[11] 分别开发了三个子网络,用于层分解、反射率恢复和光照调整,称为 KinD。此外,作者通过多尺度照明注意模块减轻了 KinD[11] 结果中留下的视觉缺陷。改进后的 KinD 称为 KinD++[54]。为了解决基于深度Retinex 的方法中忽略噪声的问题,Wang 等人。[10] 提出了一种渐进式Retinex 网络,其中 IM-Net估计光照,NM-Net 估计噪声水平。这两个子网络以渐进的机制工作,直到获得稳定的结果。范等人。[14] 集成语义分割和Retinex 模型,以进一步提高实际案例中的增强性能。核心思想是使用语义先验来指导照明分量和反射分量的增强。
尽管上述方法可以获得不错的性能,但由于使用了合成训练数据,它们在真实的低光照情况下表现出较差的泛化能力。为了解决这个问题,一些方法试图生成更真实的训练数据或捕获真实数据。蔡等人。[6]构建了一个多曝光图像数据集,其中不同曝光水平的低对比度图像有其对应的高质量参考图像。每个高质量的参考图像都是通过从不同方法增强的 13 个结果中主观选择最佳输出而获得的。此外,在构建的数据集上训练频率分解网络,并通过两阶段结构分别增强高频层和低频层。陈等人。[2] 收集一个真实的低光图像数据集 (SID) 并训练 U-Net[55] 以学习从低光原始数据到 sRGB 空间中相应的长曝光高质量参考图像的映射。此外,陈等人。[8] 将 SID 数据集扩展到低光视频 (DRV)。DRV 包含具有相应长时间曝光基本事实的静态视频。为了保证处理动态场景视频的泛化能力,提出了一种孪生网络。为了增强黑暗中的运动物体,Jiang 和 Zheng[9] 设计了一个同轴光学系统来捕获时间同步和空间对齐的低光和高光视频对(SMOID)。与 DRV 视频数据集 [8] 不同,SMOID 视频数据集包含动态场景。为了在 sRGB 空间中学习从原始低光视频到高光视频的映射,提出了一种基于 3DU-Net 的网络。考虑到以前的低光视频数据集的局限性,例如 DRV 数据集 [8] 仅包含统计视频和 SMOID 数据集 [9] 仅具有 179 个视频对,Triantafyllidou等人。[17] 提出了一种低光视频合成管道,称为 SIDGAN。SIDGAN可以通过具有中间域映射的半监督双CycleGAN 生成动态视频数据(RAW-to-RGB)。为了训练这个管道,从Vimeo-90K 数据集 [56] 中收集了真实世界的视频。低光原始视频数据和相应的长曝光图像是从 DRV 数据集 [8] 中采样的。利用合成的训练数据,这项工作采用与 [2] 相同的 U-Net 网络结构进行低光视频增强。
强化学习 。在没有配对训练数据的情况下,Yu 等人。[22] 通过强化对抗学习来学习曝光照片,命名为 DeepExposure。具体地,首先根据曝光将输入图像分割成子图像。对于每个子图像,策略网络基于强化学习顺序学习局部曝光。奖励评估函数通过对抗学习来近似。最后,利用每次局部曝光对输入进行修饰,从而获得不同曝光下的多张修饰图像。最终的结果是通过融合这些图像来实现的。
无监督学习 。在配对数据上训练深度模型可能会导致过度拟合和泛化能力有限。为了解决这个问题,在 [23] 中提出了一种名为EnligthenGAN 的无监督学习方法。EnlightenGAN 采用注意力引导的 U-Net[55] 作为生成器,并使用全局-局部鉴别器来确保增强的结果看起来像真实的正常光图像。除了全局和局部对抗性损失外,还提出了全局和局部自特征保持损失来保留增强前后的图像内容。这是稳定训练这种单路径生成对抗网络(GAN)结构的关键点
Zero-shot Learning 。监督学习、强化学习和无监督学习方法要么泛化能力有限,要么训练不稳定。为了解决这些问题,提出了零样本学习来仅从测试图像中学习增强。注意,低层视觉任务中的零样本学习概念是用来强调该方法不需要配对或非配对的训练数据,这与它在高层视觉任务中的定义不同。张等人。[24] 提出了一种零样本学习方法,称为 ExCNet,用于背光图像恢复。首先使用一个网络来估计最适合输入背光图像的 S 曲线。一旦估计了 S 曲线,输入图像就会使用引导滤波器 [57] 分为基础层和细节层。然后通过估计的 S 曲线调整基础层。最后,Webercontrast [58] 用于融合细节层和调整后的基础层。为了训练 ExCNet,作者将损失函数表述为基于块的能量最小化问题。朱等人。[26] 提出了一个三分支 CNN,称为 RRDNet,用于恢复曝光不足的图像。RRDNet通过迭代最小化专门设计的损失函数将输入图像分解为照明、反射和噪声。为了驱动零样本学习,提出了结合视网膜重构损失、纹理增强损失和光照引导噪声估计损失的方法。与基于图像重建的方法 [1]、[3]、[4]、[11]、[12]、[21]、[54] 不同,在 [25] 中提出了一种深度曲线估计网络零 DCE ]。Zero-DCE 将光增强制定为图像特定曲线估计的任务,它将低光图像作为输入并产生高阶曲线作为其输出。这些曲线用于对输入的动态范围进行逐像素调整,以获得增强的图像。此外,还提出了一种加速和轻型版本,称为Zero-DCE++ [59]。这种基于曲线的方法在训练期间不需要任何配对或非配对数据。他们通过一组非参考损失函数实现零参考学习。此外,与需要大量计算资源的基于图像重建的方法不同,图像到曲线的映射只需要轻量级网络,从而实现快速的推理速度。半监督学习。为了结合监督学习和无监督学习的优势,近年来提出了半监督学习。杨等人。[27]提出了一种半监督深度递归带网络(DRBN)。DRBN首先在监督学习下恢复增强图像的线性波段表示,然后通过基于无监督对抗学习的可学习线性变换重新组合给定波段来获得改进的波段表示
观察图 3(a),我们可以发现监督学习是基于深度学习的 LLIE 方法中的主流。比例达到77%。这是因为当 LOL[4]、SID [2]和各种低光/正常光图像合成方法等配对训练数据公开可用时,监督学习相对容易。然而,基于监督学习的方法面临一些挑战:1) 收集涵盖各种现实世界弱光条件的大规模配对数据集是困难的,2) 合成的弱光图像不能准确地表示现实世界的照度诸如空间变化的照明和不同级别的噪声等条件,以及 3) 在配对数据上训练深度模型可能会导致对具有不同照明属性的真实世界图像的过度拟合和有限泛化
因此,一些方法采用无监督学习、强化学习、半监督学习和零样本学习来绕过监督学习中的挑战。尽管这些方法实现了竞争性能,但它们仍然存在一些局限性:1)对于无监督学习/半监督学习方法,如何实现稳定的训练、避免颜色偏差以及建立跨域信息的关系对当前的方法提出了挑战 , 2) 对于强化学习方法,设计有效的奖励机制和实施高效稳定的训练是错综复杂的,以及 3) 对于零样本学习方法,非参考损失的设计在保色、去除伪影时非常重要,并且应该考虑梯度反向传播。
3 TECHNICAL REVIEW AND DISCUSSION
在本节中,我们首先总结表 1 中具有代表性的基于深度学习的 LLIE 方法,然后分析和讨论它们的技术特点。
表1:基于深度学习的代表性方法的基本特征总结,包括学习策略、网络结构、损失函数、训练数据集、测试数据集、评估指标、输入数据格式以及模型是否基于Retinex。“simulated”是指通过与合成训练数据相同的方法模拟测试数据。“self-selected”代表作者选择的真实世界图像。“#P”表示可训练参数的数量。“-”表示该项目不可用或未在论文中注明。
3.1 Network Structure
现有模型中使用了多种网络结构和设计,从基本的 U-Net、金字塔网络、多级网络到频率分解网络。分析图3(b)可以看出,LLIE中主要采用U-Net和类U-Net网络。这是因为 U-Net 可以有效地集成多尺度特征,并同时使用低级和高级特征。这些特性对于实现令人满意的低光增强是必不可少的。
然而,在当前的 LLIE 网络结构中可能会忽略一些关键问题:
1) 在经过几个卷积层后,由于其像素值较小,极低光图像的梯度在梯度反向传播过程中可能会消失,这会降低增强性能并影响网络训练的收敛性。
2) 类 U-Net 的网络中使用的跳跃连接可能会在最终结果中引入噪声和冗余特征。应该仔细考虑如何有效滤除噪声并融合低级和高级特征。
3) 虽然为 LLIE 提出了一些设计和组件,但大部分都是从相关的低级视觉任务中借用或修改的。在设计网络结构时应考虑低光数据的特性。
3.2 Combination of Deep Model and Retinex Theory
如图 3(c) 所示,几乎 1/3 的方法将深度网络的设计与Retinex 理论相结合,例如,设计不同的子网络来估计Retinex 模型的组件,并估计光照图来指导学习网络。尽管这种组合可以建立基于深度学习和基于模型的方法之间的联系,但它们各自的弱点可能会引入最终模型中:1)反射率是基于Retinex 的 LLIE 方法中使用的最终增强结果的理想假设仍然会影响最终结果,以及 2)尽管引入了Retinex 理论,但深度网络中过度拟合的风险仍然存在。因此,当研究人员将深度学习与Retinex 理论相结合时,应该仔细考虑如何取其精华,去其糟粕。
3.3 Data Format
如图 3(d) 所示,原始数据格式Raw在大多数方法中占主导地位。尽管原始数据仅限于特定传感器,例如基于拜耳模式的传感器,但数据涵盖更广的色域和更高的动态范围。因此,在原始数据上训练的深度模型通常可以恢复清晰的细节和高对比度,获得鲜艳的色彩,减少噪声和伪影的影响,并提高极低光图像的亮度。尽管如此,RGB 格式也用于某些方法,因为它通常是智能手机相机、Go-Pro 相机和无人机相机产生的最终图像形式。在未来的研究中,从不同模式的原始数据到RGB格式的平滑转换将有可能结合RGB数据的便利性和LLIE对原始数据的高质量增强的优势。
3.4 Loss Function
在图3(e)中,LLIE模型中常用的损失函数包括重建损失(L1、L2、SSIM)、感知损失和平滑损失。此外,根据不同的需求和策略,还采用了颜色损失、曝光损失和对抗损失。我们将代表性损失函数详述如下。
重建损失(ReconstructionLoss) 。常用的 L1、L2 和 SSIM 损失可以表示为:
其中
感知损失
。[62]提出了感知损失来限制与特征空间中的基本事实相似的结果。损失提高了结果的视觉质量。它被定义为增强结果的特征表示与对应的ground-truth的特征表示之间的欧几里得距离。特征表示通常是从在ImageNet 数据集 [64] 上预训练的 VGG 网络 [63] 中提取的。感知损失
其中
平滑度损失
。为了去除增强结果中的噪声或保留相邻像素的关系,通常使用平滑损失(TV loss)
其中
曝光损失。作为基于
LLIE 网络中常用的损失函数,如 L1、L2、SSIM、感知损失,也用于图像重建网络中,用于图像超分辨率 [65]、图像去噪 [66]、图像去训练(Imagedetraining) [67]、[68 ]和图像去模糊[69]。与这些通用损失不同,为 LLIE 专门设计的曝光损失激发了非参考损失的设计。非参考损失不依赖参考图像,从而使模型具有更好的泛化能力。在设计损失函数时考虑图像特征是一项正在进行的研究。
3.5 Training Datasets
其中输入
为了模拟在真实世界的低光照场景中拍摄的图像,将高斯噪声、泊松噪声或真实噪声添加到
其中
LOL 。LOL[4] 是第一个在真实场景中拍摄的配对低光/正常光图像数据集。通过改变曝光时间和 ISO 来收集低光图像。LOL 包含 500 对以 RGB 格式保存的大小为400×600 的低光/正常光图像。
SCIE 。SCIE 是低对比度和良好对比度图像对的多曝光图像数据集。它包括 589 个室内和室外场景的多重曝光序列。每个序列有3到18张不同曝光级别的低对比度图像,因此总共包含4,413张多重曝光图像。589张高质量的参考图像是从13种具有代表性的增强算法的结果中选择得到的。即许多多重曝光图像具有相同的高对比度参考图像。图像分辨率介于3,000×2,000 和6,000×4,000 之间。SCIE 中的图像以 RGB 格式保存。
MIT-Adobe FiveK 。MIT-Adobe FiveK [70] 被收集用于全局色调调整,但已用于 LLIE。这是因为输入图像具有低光和低对比度。MIT-Adobe FiveK 包含 5,000 张图像,每张图像都由 5 位训练有素的摄影师进行美化,以呈现视觉上令人愉悦的效果,类似于明信片。因此,每个输入都有五个修饰结果。通常,专家C的结果在训练阶段被用作地面ground-truth图像。图片都是Raw原始格式。要训练能够处理 RGB 格式图像的网络,需要使用 AdobeLightroom 对图像进行预处理,并按照此过程将其保存为 RGB 格式。图像通常被调整为长边为500像素的大小。
SID 。SID[2] 包含 5,094 张原始短曝光图像,每张图像都有对应的长曝光参考图像。不同的长曝光参考图像的数量为424。换句话说,多个短曝光图像对应于相同的长曝光参考图像。这些图像是在室内和室外场景中使用两台相机拍摄的:索尼 α7S II和富士 X-T2。因此,图像具有不同的传感器模式(索尼相机的拜耳传感器和富士相机的 APS-CX-Trans 传感器)。索尼的分辨率为4,240×2,832,富士的分辨率为6,000×4,000。通常,长曝光图像由 libraw(一个原始图像处理库)处理并保存在 sRGB 颜色空间中,并随机裁剪512×512 块进行训练。
VE-LOL 。VE-LOL[48] 包含两个子集:用于训练和评估 LLIE 方法的配对 VE-LOLL 和用于评估 LLIE 方法对人脸检测效果的未配对VE-LOL-H。具体来说,VE-LOLL 包括 2,500 个配对图像。其中,1000双是合成的,1500双是真实的。VE-LOL-H 包括 10,940张未配对的图像,其中人脸是用边界框手动注释的。
DRV 。DRV[8] 包含 202 个静态原始视频,每个视频都有一个对应的长曝光ground-truth。每个视频在连续拍摄模式下以每秒大约 16 到 18 帧的速度拍摄,最多可拍摄 110 帧。这些图像由索尼 RX100VI 相机在室内和室外场景中拍摄,因此全部采用 BayerRaw 格式。分辨率为3,672×5,496。
SMOID 。SMOID[9] 包含 179 对由同轴光学系统拍摄的视频,每对有 200 帧。因此,SMOID 包括 35,800个极低光BayerRaw 图像及其相应的光照良好的 RGB 计数器。SMOID 中的视频由不同光照条件下的移动车辆和行人组成。
一些问题对上述配对训练数据集提出了挑战:1)由于合成数据和真实数据之间的差距,在合成数据上训练的深度模型在处理真实世界的图像和视频时可能会引入伪影和颜色偏差,2)数据的规模和多样性,真实的训练数据不能令人满意,因此一些方法会结合合成数据来增加训练数据。这可能会导致次优增强,并且 3) 输入图像和相应的 ground-truth可能会由于运动、硬件和环境的影响而存在错位。这将影响使用逐像素损失函数训练的深度网络的性能。
3.6 Testing Datasets
3.7 Evaluation Metrics
4 BENCHMARKING AND EMPIRICAL ANALYSIS
4.1 A New Low-Light Image and Video Dataset
4.2 Online Evaluation Platform
到目前为止,LoLi 平台涵盖了 13 种流行的基于深度学习的 LLIE 方法,包括 LLNet[1]、LightenNet[5]、Retinex-Net[4]、EnlightenGAN[23]、MBLLEN[3]、KinD [11]、KinD++[54]、TBEFN[20]、DSLR[21]、DRBN[27]、ExCNet[24]、Zero-DCE[25] 和 RRDNet[26],通过一个用户友好的网络界面,可以将任何输入的结果输出。我们会定期在这个平台上提供新的方法。我们希望这个 LoLi 平台能够通过为用户提供灵活的界面来运行现有的基于深度学习的 LLIE 方法并开发他们自己的新 LLIE 方法,从而为不断发展的研究社区服务。
4.3 Benchmarking Results