暂无图片
暂无图片
暂无图片
暂无图片

深度学习低光图像增强综述(译)

AI论文翻译 2022-05-29
2407

论文原文地址:https://arxiv.org/abs/2104.10729v1

github: https://github.com/Li-Chongyi/Lighting-the-Darkness-in-the-Deep-Learning-Era-Open

百度云(word版翻译及原文pdf):https://pan.baidu.com/s/1zJ7tU-GpT7O3FYvSN-_7ZA?pwd=gzrr    密码:gzrr


Lighting the Darkness in the Deep Learning Era


Abstract


低光图像增强 (LLIE)旨在提高在照明较差的环境中捕获的图像的感知或可解释性。该领域的最新进展以基于深度学习的解决方案为主,其中采用了许多学习策略、网络结构、损失函数、训练数据等。在本文中,我们提供了一个全面的调研,涵盖从算法分类到未解决的开放问题的各个方面。为了检验现有方法的泛化性,我们提出了一个大规模的低光图像和视频数据集,其中图像和视频是由不同的手机相机在不同的光照条件下拍摄的。此外,我们首次提供了一个统一的在线平台,涵盖了许多流行的 LLIE 方法,其结果可以通过用户友好的 Web 界面生成。除了在公开可用的数据集和我们提出的数据集上对现有方法进行定性和定量评估外,我们还验证了它们在黑暗中人脸检测的性能。本研究中的数据集和在线平台可以作为未来研究的参考来源,促进该研究领域的发展。本文提出的平台和收集的方法、数据集和评估指标是公开的,并将定期更新在https://github.com/Li-Chongyi/Lighting-the-Darkness-in-the-Deep-Learning-Era-Open。我们将发布我们的低光图像和视频数据集。


1 INTRODUCTION


由于不可避免的环境和/或技术限制(例如照明不足和曝光时间有限),图像通常在次优照明条件(sub-optimallighting condition)下拍摄,受到背光、非均匀照明和弱照明的影响。此类图像的美学质量受损,并且造成诸如目标跟踪、识别和检测等高级任务信息的不理想的传输。图 1 展示了由次优照明条件引起的退化的一些示例。

弱光增强是图像处理的基本任务之一。它在不同领域有广泛的应用,包括视觉监控、自动驾驶和计算摄影。尤其是智能手机摄影已变得非常常见。受限于相机光圈的大小、实时处理的要求以及内存的限制,在昏暗的环境中使用智能手机的相机拍照尤其具有挑战性。在此类应用中增强低光图像和视频是一个令人兴奋的研究领域。

传统的弱光增强方法包括基于直方图均衡的方法  和基于Retinex 模型的方法 。后者受到的关注相对较多。典型的基于Retinex 模型的方法通过某种先验或正则化将低光图像分解为反射分量和照明分量。估计的反射分量被视为增强结果。这种方法有一些局限性:1)将反射分量视为增强结果的理想假设并不总是成立,特别是考虑到各种照明属性,这可能导致不切实际的增强,例如细节丢失和颜色失真,2)噪声通常在Retinex 模型中被忽略,因此在增强的结果中保留或放大,3)找到有效的先验或正则化具有挑战性。不准确的先验或正则化可能会导致增强结果中的伪影和颜色偏差,以及 4) 由于其复杂的优化过程,运行时间相对较长。


近年来,自第一个开创性工作LLNet[1]以来,基于深度学习的 LLIE 取得了令人瞩目的成功。与传统方法相比,基于深度学习的解决方案具有更好的准确性、鲁棒性和速度,因此近年来受到越来越多的关注。图 2 显示了基于深度学习的 LLIE 方法的一个简明里程碑。如图所示,自 2017 年以来,基于深度学习的解决方案的数量逐年增长。这些解决方案中使用的学习策略包括监督学习 (SL)、强化学习 (RL)、无监督学习 (UL)、零样本学习 (ZSL) 和半监督学习 (SSL)。请注意,我们仅在图 2 中报告了一些具有代表性的方法。实际上,从 2017 年到 2020 年,关于基于深度学习的方法的论文有 100 多篇,超过了常规方法的总数。此外,虽然一些通用的照片增强方法 [38]、[39]、[40]、[41]、[42]、[43]、[44]、[45]、[46] 可以将图像的亮度提高到在某种程度上,我们在本次调查中省略了它们,因为它们并非旨在处理各种低光照条件。我们专注于专为弱光图像和视频增强而开发的基于深度学习的解决方案。

尽管深度学习主导了 LLIE 的研究,但缺乏对基于深度学习的解决方案的深入和全面的调查。文献[47]、[48] 为两篇 LLIE综述文章。与主要回顾传统 LLIE 方法的 [47] 和从人类和机器视觉的角度探索几种传统和基于深度学习的 LLIE 方法的实验性能的 [48] 相比,我们的调查具有以下独特特征:1)我们的工作是第一个系统全面地回顾基于深度学习的 LLIE 的最新进展。我们在各个方面进行了深入的分析和讨论,涵盖学习策略、网络结构、损失函数、训练数据集、测试数据集、评估指标等。2)我们提出了一个包含由在不同的照明条件下使用不同的设备来评估现有方法的泛化性。因此,我们为关键的开放性问题、挑战和未来方向提供见解。此外,据我们所知,我们是第一个比较 LLIE 方法在不同现实世界场景中捕获的低光视频上性能的。3) 我们提供了一个在线平台,涵盖了许多流行的基于深度学习的 LLIE 方法,结果可以通过用户友好的 Web 界面生成。这个统一的平台解决了比较不同深度学习平台中实现的不同方法并需要不同硬件配置的问题。使用我们的平台,没有任何 GPU 的人可以在线评估任何输入图像的不同方法的结果。

我们希望我们的调查能够提供新的见解和启发,以促进对基于深度学习的 LLIE 的理解,促进对提出的未解决问题的研究,并加快该研究领域的发展。


2 DEEP LEARNING-BASED LLIE


2.1 Problem Definition


我们首先给出基于深度学习的 LLIE 问题的通用公式。对于宽高的低光图像, 过程可以建模为:

其中 是增强结果, 表示具有可训练参数 的网络。深度学习的目的是找到使误差最小的最优网络参数

其中 是 ground truth,损失函数 驱动网络的优化。在网络训练过程中可以使用监督损失和无监督损失等各种损失函数。更多细节将在第 3 节中介绍。


2.2 Learning Strategies


根据不同的学习策略,我们将现有的 LLIE 方法分为监督学习、强化学习、无监督学习、零样本学习和半监督学习。图 3 给出了从不同角度进行的统计分析。在下文中,我们回顾了每种策略的一些代表性方法。

监督学习 。对于基于监督学习的 LLIE 方法,它们可以进一步分为端到端方法、基于深度Retinex 的方法和现实数据驱动方法。

第一个基于深度学习的 LLIE 方法 LLNet[1] 采用堆叠稀疏去噪自动编码器 [49] 的变体同时对低光图像进行增亮和去噪。这项开创性的工作激发了 LLIE 中端到端网络的使用。吕等人。[3] 提出了一种端到端的多分支增强网络(MBLLEN)。MBLLEN通过特征提取模块、增强模块和融合模块提取有效的特征表示来提高 LLIE 的性能。同一作者 [15] 提出了其他三个子网络,包括Illumination-Net、Fusion-Net 和 Restoration-Net,以进一步提高性能。任等人。[12] 设计了一个更复杂的端到端网络,包括用于图像内容增强的编码器-解码器网络和用于图像边缘增强的循环神经网络。与 [12] 类似,Zhu 等人。[16] 提出了一种称为 EEMEFN的方法。EEMEFN包括两个阶段:多曝光融合和边缘增强。为 LLIE 提出了一种多曝光融合网络 TBEFN[20]。TBEFN在两个分支中估计一个传递函数,可以得到两个增强结果。最后,采用简单的平均方案来融合这两个图像,并通过细化单元进一步细化结果。此外,在 LLIE 中引入了金字塔网络(LPNet) [18]、残差网络 [19] 和拉普拉斯金字塔 [21](DSLR)。这些方法通过 LLIE 常用的端到端网络结构学习有效和高效地集成特征表示。最近,基于观察到噪声在不同频率层中表现出不同程度的对比度,Xu 等人。[50] 提出了一种基于频率的分解和增强网络。该网络在低频层通过噪声抑制恢复图像内容,同时在高频层推断细节。

与在端到端网络中直接学习增强结果相比,由于物理上可解释的Retinex 理论 [51]、[52],基于深度Retinex 的方法在大多数情况下享有更好的增强性能。基于深度视网膜的方法通常通过专门的子网络分别增强 il 亮度分量和反射率分量。在 [4] 中提出了一个Retinex-Net。Retinex-Net 包括一个Decom-Net,它将输入图像拆分为与光无关的反射率和结构感知平滑照明,以及一个调整照明图以进行低光增强的Enhance-Net。为了减少计算负担,Li 等人。[5] 提出了一种用于弱光照图像增强的轻量级LightenNet,它仅由四层组成。LightenNet 将弱光照图像作为输入,然后估计其光照图。基于Retinex理论[51]、[52],通过将光照图除以输入图像得到增强图像。为了准确估计光照图,Wang 等人。[53] 通过他们提出的DeepUPE 网络提取全局和局部特征以学习图像到照明的映射。张等人。[11] 分别开发了三个子网络,用于层分解、反射率恢复和光照调整,称为 KinD。此外,作者通过多尺度照明注意模块减轻了 KinD[11] 结果中留下的视觉缺陷。改进后的 KinD 称为 KinD++[54]。为了解决基于深度Retinex 的方法中忽略噪声的问题,Wang 等人。[10] 提出了一种渐进式Retinex 网络,其中 IM-Net估计光照,NM-Net 估计噪声水平。这两个子网络以渐进的机制工作,直到获得稳定的结果。范等人。[14] 集成语义分割和Retinex 模型,以进一步提高实际案例中的增强性能。核心思想是使用语义先验来指导照明分量和反射分量的增强。

尽管上述方法可以获得不错的性能,但由于使用了合成训练数据,它们在真实的低光照情况下表现出较差的泛化能力。为了解决这个问题,一些方法试图生成更真实的训练数据或捕获真实数据。蔡等人。[6]构建了一个多曝光图像数据集,其中不同曝光水平的低对比度图像有其对应的高质量参考图像。每个高质量的参考图像都是通过从不同方法增强的 13 个结果中主观选择最佳输出而获得的。此外,在构建的数据集上训练频率分解网络,并通过两阶段结构分别增强高频层和低频层。陈等人。[2] 收集一个真实的低光图像数据集 (SID) 并训练 U-Net[55] 以学习从低光原始数据到 sRGB 空间中相应的长曝光高质量参考图像的映射。此外,陈等人。[8] 将 SID 数据集扩展到低光视频 (DRV)。DRV 包含具有相应长时间曝光基本事实的静态视频。为了保证处理动态场景视频的泛化能力,提出了一种孪生网络。为了增强黑暗中的运动物体,Jiang 和 Zheng[9] 设计了一个同轴光学系统来捕获时间同步和空间对齐的低光和高光视频对(SMOID)。与 DRV 视频数据集 [8] 不同,SMOID 视频数据集包含动态场景。为了在 sRGB 空间中学习从原始低光视频到高光视频的映射,提出了一种基于 3DU-Net 的网络。考虑到以前的低光视频数据集的局限性,例如 DRV 数据集 [8] 仅包含统计视频和 SMOID 数据集 [9] 仅具有 179 个视频对,Triantafyllidou等人。[17] 提出了一种低光视频合成管道,称为 SIDGAN。SIDGAN可以通过具有中间域映射的半监督双CycleGAN 生成动态视频数据(RAW-to-RGB)。为了训练这个管道,从Vimeo-90K 数据集 [56] 中收集了真实世界的视频。低光原始视频数据和相应的长曝光图像是从 DRV 数据集 [8] 中采样的。利用合成的训练数据,这项工作采用与 [2] 相同的 U-Net 网络结构进行低光视频增强。

强化学习 。在没有配对训练数据的情况下,Yu 等人。[22] 通过强化对抗学习来学习曝光照片,命名为 DeepExposure。具体地,首先根据曝光将输入图像分割成子图像。对于每个子图像,策略网络基于强化学习顺序学习局部曝光。奖励评估函数通过对抗学习来近似。最后,利用每次局部曝光对输入进行修饰,从而获得不同曝光下的多张修饰图像。最终的结果是通过融合这些图像来实现的。

无监督学习 。在配对数据上训练深度模型可能会导致过度拟合和泛化能力有限。为了解决这个问题,在 [23] 中提出了一种名为EnligthenGAN 的无监督学习方法。EnlightenGAN 采用注意力引导的 U-Net[55] 作为生成器,并使用全局-局部鉴别器来确保增强的结果看起来像真实的正常光图像。除了全局和局部对抗性损失外,还提出了全局和局部自特征保持损失来保留增强前后的图像内容。这是稳定训练这种单路径生成对抗网络(GAN)结构的关键点

Zero-shot Learning 。监督学习、强化学习和无监督学习方法要么泛化能力有限,要么训练不稳定。为了解决这些问题,提出了零样本学习来仅从测试图像中学习增强。注意,低层视觉任务中的零样本学习概念是用来强调该方法不需要配对或非配对的训练数据,这与它在高层视觉任务中的定义不同。张等人。[24] 提出了一种零样本学习方法,称为 ExCNet,用于背光图像恢复。首先使用一个网络来估计最适合输入背光图像的 S 曲线。一旦估计了 S 曲线,输入图像就会使用引导滤波器 [57] 分为基础层和细节层。然后通过估计的 S 曲线调整基础层。最后,Webercontrast [58] 用于融合细节层和调整后的基础层。为了训练 ExCNet,作者将损失函数表述为基于块的能量最小化问题。朱等人。[26] 提出了一个三分支 CNN,称为 RRDNet,用于恢复曝光不足的图像。RRDNet通过迭代最小化专门设计的损失函数将输入图像分解为照明、反射和噪声。为了驱动零样本学习,提出了结合视网膜重构损失、纹理增强损失和光照引导噪声估计损失的方法。与基于图像重建的方法 [1]、[3]、[4]、[11]、[12]、[21]、[54] 不同,在 [25] 中提出了一种深度曲线估计网络零 DCE ]。Zero-DCE 将光增强制定为图像特定曲线估计的任务,它将低光图像作为输入并产生高阶曲线作为其输出。这些曲线用于对输入的动态范围进行逐像素调整,以获得增强的图像。此外,还提出了一种加速和轻型版本,称为Zero-DCE++ [59]。这种基于曲线的方法在训练期间不需要任何配对或非配对数据。他们通过一组非参考损失函数实现零参考学习。此外,与需要大量计算资源的基于图像重建的方法不同,图像到曲线的映射只需要轻量级网络,从而实现快速的推理速度。半监督学习。为了结合监督学习和无监督学习的优势,近年来提出了半监督学习。杨等人。[27]提出了一种半监督深度递归带网络(DRBN)。DRBN首先在监督学习下恢复增强图像的线性波段表示,然后通过基于无监督对抗学习的可学习线性变换重新组合给定波段来获得改进的波段表示

观察图 3(a),我们可以发现监督学习是基于深度学习的 LLIE 方法中的主流。比例达到77%。这是因为当 LOL[4]、SID [2]和各种低光/正常光图像合成方法等配对训练数据公开可用时,监督学习相对容易。然而,基于监督学习的方法面临一些挑战:1) 收集涵盖各种现实世界弱光条件的大规模配对数据集是困难的,2) 合成的弱光图像不能准确地表示现实世界的照度诸如空间变化的照明和不同级别的噪声等条件,以及 3) 在配对数据上训练深度模型可能会导致对具有不同照明属性的真实世界图像的过度拟合和有限泛化

因此,一些方法采用无监督学习、强化学习、半监督学习和零样本学习来绕过监督学习中的挑战。尽管这些方法实现了竞争性能,但它们仍然存在一些局限性:1)对于无监督学习/半监督学习方法,如何实现稳定的训练、避免颜色偏差以及建立跨域信息的关系对当前的方法提出了挑战 , 2) 对于强化学习方法,设计有效的奖励机制和实施高效稳定的训练是错综复杂的,以及 3) 对于零样本学习方法,非参考损失的设计在保色、去除伪影时非常重要,并且应该考虑梯度反向传播。


3 TECHNICAL REVIEW AND DISCUSSION


在本节中,我们首先总结表 1 中具有代表性的基于深度学习的 LLIE 方法,然后分析和讨论它们的技术特点。


表1:基于深度学习的代表性方法的基本特征总结,包括学习策略、网络结构、损失函数、训练数据集、测试数据集、评估指标、输入数据格式以及模型是否基于Retinex。“simulated”是指通过与合成训练数据相同的方法模拟测试数据。“self-selected”代表作者选择的真实世界图像。“#P”表示可训练参数的数量。“-”表示该项目不可用或未在论文中注明。


3.1 Network Structure


现有模型中使用了多种网络结构和设计,从基本的 U-Net、金字塔网络、多级网络到频率分解网络。分析图3(b)可以看出,LLIE中主要采用U-Net和类U-Net网络。这是因为 U-Net 可以有效地集成多尺度特征,并同时使用低级和高级特征。这些特性对于实现令人满意的低光增强是必不可少的。

然而,在当前的 LLIE 网络结构中可能会忽略一些关键问题:

1) 在经过几个卷积层后,由于其像素值较小,极低光图像的梯度在梯度反向传播过程中可能会消失,这会降低增强性能并影响网络训练的收敛性。

2) 类 U-Net 的网络中使用的跳跃连接可能会在最终结果中引入噪声和冗余特征。应该仔细考虑如何有效滤除噪声并融合低级和高级特征。

3) 虽然为 LLIE 提出了一些设计和组件,但大部分都是从相关的低级视觉任务中借用或修改的。在设计网络结构时应考虑低光数据的特性。


3.2 Combination of Deep Model and Retinex Theory


如图 3(c) 所示,几乎 1/3 的方法将深度网络的设计与Retinex 理论相结合,例如,设计不同的子网络来估计Retinex 模型的组件,并估计光照图来指导学习网络。尽管这种组合可以建立基于深度学习和基于模型的方法之间的联系,但它们各自的弱点可能会引入最终模型中:1)反射率是基于Retinex 的 LLIE 方法中使用的最终增强结果的理想假设仍然会影响最终结果,以及 2)尽管引入了Retinex 理论,但深度网络中过度拟合的风险仍然存在。因此,当研究人员将深度学习与Retinex 理论相结合时,应该仔细考虑如何取其精华,去其糟粕。


3.3 Data Format


如图 3(d) 所示,原始数据格式Raw在大多数方法中占主导地位。尽管原始数据仅限于特定传感器,例如基于拜耳模式的传感器,但数据涵盖更广的色域和更高的动态范围。因此,在原始数据上训练的深度模型通常可以恢复清晰的细节和高对比度,获得鲜艳的色彩,减少噪声和伪影的影响,并提高极低光图像的亮度。尽管如此,RGB 格式也用于某些方法,因为它通常是智能手机相机、Go-Pro 相机和无人机相机产生的最终图像形式。在未来的研究中,从不同模式的原始数据到RGB格式的平滑转换将有可能结合RGB数据的便利性和LLIE对原始数据的高质量增强的优势。


3.4 Loss Function


在图3(e)中,LLIE模型中常用的损失函数包括重建损失(L1、L2、SSIM)、感知损失和平滑损失。此外,根据不同的需求和策略,还采用了颜色损失、曝光损失和对抗损失。我们将代表性损失函数详述如下。

重建损失(ReconstructionLoss) 。常用的 L1、L2 和 SSIM 损失可以表示为:

其中 分别代表ground truth和增强结果, 分别是输入图像的高度、宽度和通道。均值 方差分别由和表示。根据 SSIM 损失 [60] 中的默认值,将常数 设置为 0.02 和 0.03。不同的重建损失有其优点和缺点。 损失倾向于惩罚较大的错误,但可以容忍小错误。 损失可以很好地保留颜色和亮度,因为无论局部结构如何,都会对误差进行同等加权。 损失很好地保留了结构和纹理。详细分析见[61]。

感知损失 。[62]提出了感知损失来限制与特征空间中的基本事实相似的结果。损失提高了结果的视觉质量。它被定义为增强结果的特征表示与对应的ground-truth的特征表示之间的欧几里得距离。特征表示通常是从在ImageNet 数据集 [64] 上预训练的 VGG 网络 [63] 中提取的。感知损失 可以表示为:

其中 分别是特征图的高度、宽度和通道数。函数 表示从 VGG 网络的第 个卷积层(在 ReLU 激活之后)提取的特征表示。

平滑度损失 。为了去除增强结果中的噪声或保留相邻像素的关系,通常使用平滑损失(TV loss) 来约束增强结果或估计的光照图,可以表示为:

其中 分别是水平和垂直梯度操作。

对抗性损失 。为了鼓励增强的结果与参考图像区分开来,对抗性学习解决了以下优化问题:
其中生成器 试图生成“假”图像来欺骗鉴别器 。鉴别器 试图将“假”图像与参考图像区分开来。输入 是从源流形 中采样的,而 是从目标流形 中采样的任意参考图像。为了优化生成器,应该最小化这个损失函数:
其中 输出增强的结果。为了优化鉴别器,这个损失函数被最小化:

曝光损失。作为基于 方法中的关键损失函数之一,曝光损失 衡量了在没有配对或未配对图像作为参考图像的情况下增强结果的曝光水平,可以表示为:

其中M是固定大小(默认为16×16)的非重叠区域的数量,Y是增强结果中区域的平均强度值。

LLIE 网络中常用的损失函数,如 L1、L2、SSIM、感知损失,也用于图像重建网络中,用于图像超分辨率 [65]、图像去噪 [66]、图像去训练(Imagedetraining) [67]、[68 ]和图像去模糊[69]。与这些通用损失不同,为 LLIE 专门设计的曝光损失激发了非参考损失的设计。非参考损失不依赖参考图像,从而使模型具有更好的泛化能力。在设计损失函数时考虑图像特征是一项正在进行的研究。


3.5 Training Datasets


图 3(f) 报告了使用各种配对训练数据集来训练低光增强网络。这些数据集包括真实世界捕获的数据集和合成数据集。我们将它们列在表 2 中,并详细介绍如下。
Gamma 校正模拟 。由于其非线性和简单性,伽玛校正用于调整视频或静止图像系统中的亮度或三色值。它由幂律表达式定义。

其中输入 和输出 通常在 [0,1] 范围内。通常情况下,常数 设置为 1。功率 控制输出的亮度。直观地说,输入在 <1时变亮, >1时变暗。输入可以是图像的三个 RGB 通道,也可以是与亮度相关的通道,例如 CIELab颜色空间中的 通道和 颜色空间中的 通道。使用 校正调整亮度相关通道后,颜色空间中的相应通道按等比例调整,以避免产生伪影和颜色偏差。

为了模拟在真实世界的低光照场景中拍摄的图像,将高斯噪声、泊松噪声或真实噪声添加到 校正图像中。使用 校正合成的低光图像可以表示为:

其中 代表噪声模型, 代表 值的 校正函数, 是正常光和高质量图像或亮度相关通道。虽然该函数通过改变 来产生不同光照水平的微光图像,但由于非线性调整,它往往会在合成的微光图像中引入伪影和颜色偏差。

随机照明模拟 。根据Retinex 模型,图像可以分解为反射分量和光照分量。基于图像内容与光照分量无关且光照分量中的局部区域具有相同强度的假设,可以通过下式获得弱光图像。
其中 范围内的随机光照值。可以将噪声添加到合成图像中。这种线性函数避免了伪影,但强假设要求合成仅在局部区域具有相同亮度的图像块上运行。由于上下文信息的疏忽,在此类图像块上训练的深度模型可能会导致次优性能。

LOL 。LOL[4] 是第一个在真实场景中拍摄的配对低光/正常光图像数据集。通过改变曝光时间和 ISO 来收集低光图像。LOL 包含 500 对以 RGB 格式保存的大小为400×600 的低光/正常光图像。

SCIE 。SCIE 是低对比度和良好对比度图像对的多曝光图像数据集。它包括 589 个室内和室外场景的多重曝光序列。每个序列有3到18张不同曝光级别的低对比度图像,因此总共包含4,413张多重曝光图像。589张高质量的参考图像是从13种具有代表性的增强算法的结果中选择得到的。即许多多重曝光图像具有相同的高对比度参考图像。图像分辨率介于3,000×2,000 和6,000×4,000 之间。SCIE 中的图像以 RGB 格式保存。

MIT-Adobe FiveK 。MIT-Adobe FiveK [70] 被收集用于全局色调调整,但已用于 LLIE。这是因为输入图像具有低光和低对比度。MIT-Adobe FiveK 包含 5,000 张图像,每张图像都由 5 位训练有素的摄影师进行美化,以呈现视觉上令人愉悦的效果,类似于明信片。因此,每个输入都有五个修饰结果。通常,专家C的结果在训练阶段被用作地面ground-truth图像。图片都是Raw原始格式。要训练能够处理 RGB 格式图像的网络,需要使用 AdobeLightroom 对图像进行预处理,并按照此过程将其保存为 RGB 格式。图像通常被调整为长边为500像素的大小。

SID 。SID[2] 包含 5,094 张原始短曝光图像,每张图像都有对应的长曝光参考图像。不同的长曝光参考图像的数量为424。换句话说,多个短曝光图像对应于相同的长曝光参考图像。这些图像是在室内和室外场景中使用两台相机拍摄的:索尼 α7S II和富士 X-T2。因此,图像具有不同的传感器模式(索尼相机的拜耳传感器和富士相机的 APS-CX-Trans 传感器)。索尼的分辨率为4,240×2,832,富士的分辨率为6,000×4,000。通常,长曝光图像由 libraw(一个原始图像处理库)处理并保存在 sRGB 颜色空间中,并随机裁剪512×512 块进行训练。

VE-LOL 。VE-LOL[48] 包含两个子集:用于训练和评估 LLIE 方法的配对 VE-LOLL 和用于评估 LLIE 方法对人脸检测效果的未配对VE-LOL-H。具体来说,VE-LOLL 包括 2,500 个配对图像。其中,1000双是合成的,1500双是真实的。VE-LOL-H 包括 10,940张未配对的图像,其中人脸是用边界框手动注释的。

DRV 。DRV[8] 包含 202 个静态原始视频,每个视频都有一个对应的长曝光ground-truth。每个视频在连续拍摄模式下以每秒大约 16 到 18 帧的速度拍摄,最多可拍摄 110 帧。这些图像由索尼 RX100VI 相机在室内和室外场景中拍摄,因此全部采用 BayerRaw 格式。分辨率为3,672×5,496。

SMOID 。SMOID[9] 包含 179 对由同轴光学系统拍摄的视频,每对有 200 帧。因此,SMOID 包括 35,800个极低光BayerRaw 图像及其相应的光照良好的 RGB 计数器。SMOID 中的视频由不同光照条件下的移动车辆和行人组成。

一些问题对上述配对训练数据集提出了挑战:1)由于合成数据和真实数据之间的差距,在合成数据上训练的深度模型在处理真实世界的图像和视频时可能会引入伪影和颜色偏差,2)数据的规模和多样性,真实的训练数据不能令人满意,因此一些方法会结合合成数据来增加训练数据。这可能会导致次优增强,并且 3) 输入图像和相应的 ground-truth可能会由于运动、硬件和环境的影响而存在错位。这将影响使用逐像素损失函数训练的深度网络的性能。


3.6 Testing Datasets


除了成对数据集[2]、[4]、[6]、[8]、[9]、[48]、[70]中的测试子集外,还有一些从相关工作中收集或常见的测试数据用于实验比较。它们是从 LIME[32]、NPE[30]、MEF[71]、DICM[72] 和 VV2 收集的。此外,一些数据集,如黑暗中的人脸检测[73]和低光图像中的检测和识别[74]被用来测试LLIE对高级视觉任务的影响。我们总结了表 3 中常用的测试数据集,并介绍了具有代表性的测试数据集如下。
BBD-100K BBD-100K [75] 是最大的驾驶视频数据集,包含 10,000个视频,涵盖一天中许多不同时间、天气条件和驾驶场景的 1,100 小时驾驶体验,以及 10 个任务注释。在 BBD-100K夜间拍摄的视频用于验证 LLIE 对高级视觉任务的影响以及在真实场景中的增强性能。
ExDARK ExDARK[74] 数据集是为低光图像中的对象检测和识别而构建的。 ExDARK数据集包含 7,363 张从极低光环境到暮光环境的低光图像,其中包含 12 个对象类,并使用图像类标签和局部对象边界框进行注释。黑脸。 DARKFACE [73] 数据集包含 6,000 张夜间室外场景中拍摄的低光图像,每张图像都标有人脸边界框。
从图 3(g) 中,我们可以观察到人们更喜欢在实验中使用自己收集的测试数据。主要原因有三点:1)除了成对数据集的测试划分,没有公认的评估基准,2)常用的测试集存在规模小(部分测试集仅包含10张图像)等缺点 )、重复的内容和光照特性,以及未知的实验设置,以及 3) 一些常用的测试数据最初不是为了评估 LLIE 而收集的。一般来说,当前的测试数据集可能会导致偏差和不公平的比较。

3.7 Evaluation Metrics


除了基于人类感知的主观评估外,图像质量评估 (IQA) 指标,包括完全参考和非参考 IQA 指标,能够客观地评估图像质量。此外,用户研究、可训练参数的数量、FLOP、运行时和基于应用程序的评估也反映了 LLIE 模型的性能,如图 3(h) 所示。我们将详细介绍它们如下。
PSNR MSE 。 PSNR 和 MSE 是低级视觉任务中广泛使用的 IQA 指标。它们总是非负的,更接近无限(PSNR)和零(MSE)的值更好。然而,像素级 PSNR 和 MSE 可能无法准确地指示图像质量的视觉感知,因为它们忽略了相邻像素的关系。
MAE 。 MAE 表示平均绝对误差,作为成对观测值之间误差的度量。 MAE值越小,相似度越高。
SSIM 。 SSIM 用于衡量两幅图像之间的相似度。它是一种基于感知的模型,将图像退化视为结构信息的感知变化。值为1只有在两组相同数据的情况下才能达到,表明结构相似。
LOE 。 LOE 表示反映增强图像自然度的亮度顺序误差。对于 LOE,LOE 值越小,亮度顺序保持得越好。应用。除了提高视觉质量外,图像增强的目的之一是服务于高级视觉任务。因此,LLIE 对高级视觉应用程序的影响通常被检查以验证不同方法的性能。
目前在 LLIE 中使用的评估方法需要在几个方面进行改进:1)虽然 PSNR、MSE、MAE 和 SSIM 是经典和流行的指标,但它们距离捕捉人类的真实视觉感知还很远,2)一些指标最初不是为低光图像设计的。它们用于评估图像信息和对比度的保真度。使用这些指标可能会反映图像质量,但它们与弱光增强的真正目的相去甚远,3)缺乏专门为弱光图像设计的指标,除了LOE指标。此外,没有用于评估低光视频增强的指标,4) 期望能有一个可以平衡人类视觉和机器感知的指标。

4 BENCHMARKING AND EMPIRICAL ANALYSIS


本节提供实证分析,并强调基于深度学习的 LLIE 中的一些关键挑战。为了便于分析,我们提出了一个大规模的低光图像和视频数据集来检查不同基于深度学习的解决方案的性能。此外,我们开发了第一个在线平台,可以通过用户友好的网络界面生成基于深度学习的 LLIE 模型的结果。在本节中,我们对几个基准和我们提出的数据集进行了广泛的评估。
在实验中,我们比较了13 种具有代表性的方法,包括 7 种基于监督学习的方法(LLNet[1]、LightenNet[5]、Retinex-Net[4]、MBLLEN[3]、KinD[11]、KinD++[54]、 TBEFN[20]、DSLR[21])、一种基于无监督学习的方法(EnlightenGAN[23])、一种基于半监督学习的方法(DRBN[27])和三种基于零样本学习的方法( ExCNet[24]、零 DCE[25]、RRDNet[26])。我们使用公开可用的代码来生成结果以进行公平比较。

4.1 A New Low-Light Image and Video Dataset


我们提出了一个名为LoLi-Phone 的大规模低光图像和视频数据集,以全面彻底地验证 LLIE 方法的性能。LoLi-Phone 是同类中最大、最具挑战性的真实世界测试数据集。特别是,该数据集包含由 18 种不同手机相机拍摄的 120 个视频(55,148 张图像),包括 iPhone6s、iPhone7、iPhone7Plus、iPhone8Plus、iPhone11、iPhone11 Pro、iPhoneXS、iPhoneXR、iPhoneSE、小米小米 9、小米 Mix 3、Pixel 3、Pixel 4、OppoR17、VivoNex、LG M322、一加 5T、华为 Mate20 Pro 在各种光照条件下(例如弱光、曝光不足、月光、暮光、黑暗、极暗)、背光、非均匀光和彩色光。)在室内和室外场景中。表 4 提供了LoLi-Phone 数据集的摘要。我们在图 4 中展示了 LoLi 电话数据集的几个示例。我们将发布建议的LoLi-Phone 数据集。
Fig. 4: Several images sampled from the proposedLoLiPhone dataset. The images and videos are taken by different devices underdiverse lighting conditions and scenes.

这个具有挑战性的数据集是在真实场景中收集的,包含各种低光图像和视频。因此,它适用于评估不同低光图像和视频增强模型的泛化能力。值得注意的是,该数据集可用作基于无监督学习的方法的训练数据集和合成方法的参考数据集,以生成逼真的低光图像和视频。

4.2 Online Evaluation Platform


不同的深度模型可以在不同的深度学习平台上实现,例如 Caffe、Theano、TensorFlow和PyTorch。因此,不同的算法需要不同的配置、GPU 版本和硬件规格。这样的要求让很多研究人员望而却步,尤其是对于刚接触这个领域甚至可能没有 GPU 资源的初学者。为了解决这些问题,我们开发了一个名为 LoLiPlatform 的 LLIE 在线平台。该平台可在http://mc.nankai.edu. cn/ll/ 。

到目前为止,LoLi 平台涵盖了 13 种流行的基于深度学习的 LLIE 方法,包括 LLNet[1]、LightenNet[5]、Retinex-Net[4]、EnlightenGAN[23]、MBLLEN[3]、KinD [11]、KinD++[54]、TBEFN[20]、DSLR[21]、DRBN[27]、ExCNet[24]、Zero-DCE[25] 和 RRDNet[26],通过一个用户友好的网络界面,可以将任何输入的结果输出。我们会定期在这个平台上提供新的方法。我们希望这个 LoLi 平台能够通过为用户提供灵活的界面来运行现有的基于深度学习的 LLIE 方法并开发他们自己的新 LLIE 方法,从而为不断发展的研究社区服务。


4.3 Benchmarking Results


为了定性和定量地评估不同的方法,除了提出的LoLi-Phone 数据集外,我们还采用了常用的 LOL[4] 和MIT-Adobe FiveK [70] 数据集。更多视觉结果可以在补充材料中找到。此外,不同手机摄像头拍摄的真实微光视频对比结果可以在YouTube上找到 https://www.youtube.com/watch?v=Elo9TkrG5Oo&t=6s .
具体来说,我们从LoLi-Phone 数据集的每个视频中平均选择 5 张图像,形成一个包含 600 张图像的图像测试数据集(记为LoLi-Phone imgT)。此外,我们从每个手机品牌的LoLi-Phone 数据集的视频中随机选择一个视频,形成一个包含 18 个视频的视频测试数据集(记为LoLi-Phone-vidT)。我们将LoLi-Phone-imgT 和 LoLi-Phone-vidT 中帧的分辨率减半,因为一些基于深度学习的方法无法处理测试图像和视频的全分辨率。对于 LOL 数据集,我们采用包含 15 个在真实场景中捕获的低光图像的原始测试集进行测试,记为LOL-test。对于MIT-Adobe FiveK 数据集,我们按照 [40] 中的处理将图像解码为 PNG 格式,并使用Lightroom 将它们调整为具有 512 像素的长边。我们采用与[40]相同的测试数据集,麻省理工学院 Adobe FiveK-test,包括 500 张图像,其中专家 C 的修饰结果作为相应的基本事实。
定性比较 (QualitativeComparison)。我们首先在图 5 和图 6 中展示了不同方法对从LOL-test 和MIT-Adobe FiveK-test 数据集采样的图像的结果。
如图 5 所示,所有方法都提高了输入图像的亮度和对比度。然而,当将结果与基本事实进行比较时,它们都没有成功地恢复输入图像的准确颜色。特别是,LLNet[1] 会产生模糊结果。LightenNet [5] 和 RRDNet[26] 产生曝光不足的结果,而 MBLLEN[3] 和 ExCNet[24] 往往会过度曝光图像。 KinD[11]、KinD++[54]、TBEFN[20]、DSLR[21]、EnlightenGAN[23] 和 DRBN[27] 引入了明显的伪影。
在图 6 中,LLNet [5]、KinD++ [54]、TBEFN [20] 和 RRDNet [26] 产生了过度曝光的结果。 Retinex-Net [4]、KinD++ [54] 和 RRDNet [26] 在结果中产生伪影和模糊。我们发现 MIT Adobe FiveK 数据集的基本事实仍然包含一些暗区。这是因为该数据集最初是为全局图像修饰而设计的,其中恢复低光区域不是该任务的主要优先事项。


我们还观察到 LOL 数据集和MIT-Adobe FiveK 数据集中的输入图像相对没有噪声,这与真实的低光场景不同。尽管一些 LLIE 方法 [18]、[21]、[53] 将 MITAdobe FiveK 数据集作为训练或测试数据集,但我们认为该数据集不适合 LLIE 的任务,因为它的不匹配/不令人满意的基础 LLIE的真相。
为了检查不同方法的泛化能力,我们对从我们的LoLi-Phone-imgT 数据集中采样的图像进行比较。不同方法的视觉结果如图 7 和图 8 所示。如图 7 所示,所有方法都不能有效地提高输入低光图像的亮度和去除噪声。此外,Retinex-Net[4]、MBLLEN[3] 和 DRBN[27] 会产生明显的伪影。在图 8 中,所有方法都增强了该输入图像的亮度。然而,只有 MBLLEN[3] 和 RRDNet[26] 在没有颜色偏差、伪影和曝光过度/不足的情况下获得视觉上令人愉悦的增强效果。值得注意的是,对于有光源的区域,没有一种方法可以在不放大这些区域周围的噪声的情况下使图像变亮。将光源考虑到 LLIE 将是一个有趣的探索方向。结果表明增强LoLi-Phone-imgT 数据集图像的难度。
定量比较 (QuantitativeComparison)。对于具有基本事实的测试集,即LOL-test 和MIT-Adobe FiveK-test,我们采用 MSE、PSNR、SSIM[60] 和 LPIPS[76] 指标来定量比较不同的方法。 LPIPS[76] 是一种基于深度学习的图像质量评估指标,它通过深度视觉表示来测量结果与其对应的基本事实之间的感知相似性。对于 LPIPS,我们采用基于AlexNet 的模型来计算感知相似度。较低的 LPIPS 值表明在感知相似性方面更接近相应的基本事实的结果。在表 5 中,我们展示了定量结果。



如表 5 所示,在LOL-test 和MIT-Adobe FiveK-test 上,基于监督学习的方法的定量分数优于基于无监督学习、基于半监督学习和基于零样本学习的方法数据集。其中,LLNet[1] 在LOL-test 数据集上获得了最好的 MSE 和 PSNR 值;但是,它在MIT-Adobe FiveK-test 数据集上的性能下降。这可能是由于 LLNet [1] 对 LOL 数据集的偏见,因为它是使用 LOL 训练数据集进行训练的。对于 LOL 测试数据集,TBEFN[20] 获得最高的 SSIM 值,而 KinD[11] 获得最低的 LPIPS 值。尽管有些方法是在 LOL 训练数据集上训练的,但在 LOL 测试数据集上的这四个评估指标中没有赢家。对于MIT-Adobe FiveK-test 数据集,MBLLEN [3] 在四个评估指标下优于所有比较方法,尽管在合成训练数据上进行了训练。尽管如此,MBLLEN[3] 仍然无法在两个测试数据集上获得最佳性能。
对于LoLi-Phone-imgT 测试集,我们使用非参考图像质量评估指标,即 NIQE [77]、感知指数 (PI)[77]、[78]、[79]、LOE[30] 和 SPAQ[80]定量比较不同的方法。在 LOE 方面,LOE 值越小,亮度顺序保持得越好。对于NIQE,NIQE值越小,视觉质量越好。较低的 PI 值表示更好的感知质量。 SPAQ 是为智能手机摄影的感知质量评估而设计的。较大的 SPAQ 值表明智能手机摄影的感知质量更好。定量结果见表 6。
观察表 6,我们可以发现Retinex-Net [4]、KinD++[54] 和EnlightenGAN [23] 的性能相对优于其他方法。 Retinex-Net [4] 获得了最好的 PI 和 SPAQ 分数。这些分数表明Retinex-Net [4] 增强了结果的良好感知质量。然而,从图 7(d) 和图 8(d) 来看,Retinex-Net[4] 的结果明显受到伪影和颜色偏差的影响。因此,我们认为非参考 PI 和 SPAQ 指标可能不适合低光图像的感知质量评估。此外,KinD++[54] 的 NIQE 得分最低,而原始输入的 LOE 得分最低。对于事实上的标准 LOE 指标,我们质疑亮度顺序是否可以有效地反映增强性能。总体而言,非参考 IQA 指标在评估增强的低光图像质量时存在偏差。

为了准备LoLi-vidT 测试集中的视频,我们首先丢弃连续帧中没有明显物体的视频。总共选择了10个视频。对于每个视频,我们选择一个出现在所有帧中的对象。然后,我们使用跟踪器 [81] 跟踪输入视频的连续帧中的对象,并确保相同的对象出现在边界框中。我们丢弃了具有不准确对象跟踪的帧。收集每一帧中边界框的坐标。我们使用这些坐标来裁剪通过不同方法增强的结果中的相应区域,并计算连续帧中对象的平均亮度方差 (ALV) 分数: 其中是视频的帧数, 表示第 帧边界框区域的平均亮度值, 表示视频中所有边界框区域的平均亮度值。较低的 ALV 值表明增强视频的时间相干性更好。 LoLividT测试集的10个视频平均的不同方法的ALV值如表7所示。每个视频的不同方法的ALV值可以在补充材料中找到。此外,我们按照[9]在补充材料中绘制它们的亮度曲线。
如表 7 所示,TBEFN[20] 在 ALV 值方面获得了最佳的时间相干性,而 LLNet[1] 和EnlightenGAN [23] 分别排名第二和第三。相比之下,作为表现最差的 ExCNet [24] 的 ALV 值达到了1375.29。这是因为基于零参考学习的 ExCNet[24] 的性能对于连续帧的增强是不稳定的。换句话说,ExCNet[24] 可以有效地提高某些帧的亮度,而在其他帧上效果不佳。

4.4 Computational Complexity


在表 8 中,我们比较了不同方法的计算复杂度,包括运行时、可训练参数和使用 NVIDA1080Ti GPU 对 32 张大小为1200×900×3 的图像进行平均的 FLOP。为了公平比较,我们省略了LightenNet [5],因为只有其代码的 CPU 版本是公开可用的。此外,我们没有报告 ExCNet[24] 和 RRDNet[26] 的 FLOP,因为数量取决于输入图像(不同的输入需要不同的迭代次数)。
如表 8 所示,Zero-DCE[25] 的运行时间最短,因为它仅通过轻量级网络估计几个曲线参数。因此,它的可训练参数和 FLOP 数量要少得多。此外,LightenNet[5] 的可训练参数和 FLOP 的数量是比较方法中最少的。这是因为LightenNet [5] 通过一个由四个卷积层组成的微型网络来估计输入图像的光照图。相比之下,LLNet[1] 和 KinD++[54] 的 FLOPs 非常大,分别达到4124.177G 和12238.026G。由于耗时的优化过程,基于 SSL 的 ExCNet[24] 和 RRDNet[26] 的运行时间很长。

4.5