请先看【专栏介绍文章】:
前言
论文题目:Abandoning the Bayer-Filter to See in the Dark —— 放弃拜耳滤镜,在黑暗中看东西
论文地址:Abandoning the Bayer-Filter to See in the Dark
CVPR 2022
文章目录
Abstract
微光图像增强——一个普遍但具有挑战性的问题,在增强在光照较差的环境中捕获的图像的可见性方面起着核心作用。由于并非所有光子都可以在彩色相机的传感器上传递拜耳滤波器,在这项工作中,我们首先提出了一种基于深度神经网络的De-Bayer-Filter模拟器,从彩色原始图像中生成单色原始图像。接下来,提出了一种全卷积网络,通过将彩色原始数据与合成的单色数据融合来实现微光图像增强。在融合过程中引入了通道注意,以建立彩色和单色原始图像特征之间的互补交互。为了训练卷积网络,我们提出了一个单色和颜色原始对的数据集,名为 Mono-Colored Raw pairs 数据集 (MCR),该数据集是通过使用没有 Bayer-Filter 的单色相机和带有 Bayer-Filter 的彩色相机收集的。所提出的管道利用了虚拟单色和颜色原始图像的融合,我们的大量实验表明,通过利用原始传感器数据和数据驱动学习可以实现显着的改进。
摘要总览:新数据集MCR,De-Bayer-Filter合成单色RAW,用带通道注意的全卷积网络融合彩色RAW和合成的RAW实现增强。
1. Introduction
对于数字化图像,由于室内、夜间或相机曝光参数不当等光照条件差下的颜色失真和噪声,图像质量可能会严重下降。
长时间曝光时间和高ISO(对光的敏感性)通常用于弱光环境中,以保持视觉质量。然而,压倒性的曝光会导致运动模糊和不平衡的过度暴露,以及高ISO放大噪音。虽然相机的闪光灯为光线不足提供了曝光补偿,但它不适合远距离拍摄,也引入了颜色失真和伪影。另一方面,已经报道了各种算法来增强低光图像。最近,深度神经网络模型已被用于解决低光图像恢复问题,例如 DeepISP [22] 并在黑暗 (SID) [3] 中看到。
然而,这些算法被限制在图像处理管道中,因为光子捕获率和量子效率通常被忽略。一般来说,高光子捕获率可以显着提高图像的视觉质量。一个典型的例子是基于ryyb的颜色过滤器,它可以比基于Bayer-RGGB的颜色过滤器捕获40%以上的光子1。因此,基于ryb的颜色过滤器可以自然地获得更好的性能。
拜耳滤波器去除是提高光子捕获率的另一种合理方法。拜耳滤波器是一个数组许多微小的颜色过滤器覆盖图像传感器来渲染颜色信息(见图1)。通过去除拜耳滤波器并牺牲颜色信息,图像传感器可以捕获更多的光子,与带有拜耳滤波器的相机相比,在光照条件较差的情况下,这有助于更清晰的可见性(见图2 (a))。另一方面,双摄像头是当今智能手机等智能设备的趋势之一。一种类型的双相机集是单色传感器和彩色传感器的组合。单色传感器通常与彩色传感器相同,但没有拜耳阵列滤波器。由于传感器接收到的光子较多,这种双相机设置可以在弱光环境中获得更好的成像质量。但是,为配备的额外相机需要额外的成本。因此,对于大多数只配备彩色相机的手机,保持双相机集产生的相同低光图像质量,而仅使用单个彩色相机是一项具有挑战性的任务。
受上述讨论的启发,我们提出了一个由两个模块组成的完全端到端卷积神经网络(如图 1 所示):De-Bayer-Filter (DBF) 模块和双分支微光增强模块(DBLE)。DBF模块学习从彩色相机原始数据中恢复单色原始图像,而不需要单色相机。DBLE 旨在融合彩色原始和合成单色原始数据并生成增强的 RGB 图像。
此外,我们提出了一个数据集来训练我们的端到端框架。据我们所知,没有现有数据集包含由相同类型的传感器捕获的单色和彩色原始图像对。为了建立这样一个数据集,一个带有拜耳滤波器的相机用于捕获彩色图案原始图像。另一个没有拜耳滤波器但配备相同类型的传感器的相机用于捕获单色原始图像(见图 2(b))。该数据集是在不同的场景下收集的,每个彩色原始图像都有一个对应的单色原始图像,这些图像是用相同的曝光设置捕获的。
我们的贡献可以概括为:
- 提出了一种 De-Bayer-Filter 模型来模拟虚拟单色相机并从彩色原始输入合成单色原始图像数据。DBF模块旨在预测单色原始图像,类似于单色传感器能力。据我们所知,我们是第一个探索使用基于深度学习的模型去除拜耳滤波器的人。
- 我们设计了一个双分支微光增强模型,用于将彩色原始图像与合成的单色原始融合,生成最终的可监控的RGB图像。弥合领域差距在彩色原始和单色原始之间,采用通道注意层在两个域之间建立交互,以获得更好的恢复性能。实验结果表明,可以实现最先进的性能。
- 我们提出了MCR,这是一个彩色原始图像和单色原始图像对的数据集,在相同的曝光设置下捕获。它作为促进社区利用的研究材料公开开放,并在发布后发布。
2. Related work
为了实现弱光图像增强任务,尝试了巨大的方法。这些方法可分为直方图均衡化(HE)方法[1,15,29]、Retinex方法[5,26,28,33]、去雾模型方法[4]、统计方法[16,17,23]和机器学习方法[7,11,30,34]。最近,已经提出了几种关于原始图像数据的工作 [3,9,22]。我们的工作也属于这一类;我们将在本节中主要讨论基于原始的方法的现有方法。
深度神经网络成为实现数码相机图像信号处理任务的一种新兴方法。2018年,[22]提出了一种全卷积模型DeepISP,从原始微光拼接图像到最终RGB图像的映射,具有较高的视觉质量。为了模拟数码相机的图像信号处理(ISP)管道,DeepISP首先提取低层特征并进行局部修改,提取高层特征并进行全局校正。利用Lab域中的L1范数和多尺度结构相似性指数(MS-SSIM)损失来训练DeepISP来模拟ISP管道。当 DeepISP 仅用于去噪和去马赛克等低级成像任务时,将使用 L2 损失。因此,DeepISP 可以实现低级任务和更高级别的任务,例如去马赛克、去噪和颜色校正。[22] 中的结果表明,与制造商 ISP 相比,性能优越。
文献[3]提出了另一种类似于deepISP的并行工作,即在黑暗(SID)中看到。在SID中,U-net[21]网络用于直接对原始传感器数据进行操作,输出人类视觉就绪的RGB图像。建立了具有相应长曝光参考图像的原始短曝光微光图像数据集来训练模型。与传统的图像处理管道相比,[3] 中的结果表明,可以取得显着的改进。后来,[27]中提出了改进的SID版本。使用与骨干网相似的u-net网络,引入小波变换进行下采样和上采样操作。[27]中使用感知损失[10]来训练网络以更好地恢复图像中的细节。在DID[18]中,作者提出用残差学习替换SID中的U-net,以更好地保存图像特征中的信息。类似的基于原始的方法也被应用于视频,例如 [2, 9]。
在基于原始的方法之上,在低光图像增强任务上还探索了基于频率的分解。在[31]中,作者提出了一种管道,即LDC,以实现基于基于频率的分解和增强模型的微光图像增强任务。该模型首先过滤掉高频特征,并学习基于放大操作恢复剩余的低频特征。随后,恢复高频细节。[31]的结果表明,LDC 可以实现最先进的性能。
为了提高原始域中微光图像增强的效率,还进行了一些研究。为了实现计算速度较快的微光增强系统,[14]的作者提出了一种用于极端微光图像增强的轻量级体系结构(RED)。此外,作者还提出了一个放大器模块来估计基于输入原始图像的放大因子。在[6]中,提出了一种自引导神经网络(SGN),以实现去噪性能和计算代价之间的平衡。它旨在通过利用来自混洗多分辨率输入的大规模上下文信息来指导更精细的图像恢复过程。
上面讨论的方法通常学习将相机捕获的原始数据映射到人类视觉就绪图像。由于原始数据提供了完整的信息,审查的方法实现了最先进的性能。然而,这些方法的性能上限为原始数据中包含的信息。虽然在我们的工作中,我们考虑在原始 RGB 数据之外引入额外的信息。
3. The method
受上述讨论的启发,受单色相机的高光灵敏度的启发,我们提出了一种新的管道,以进一步推动基于原始的方法向前推进。具体来说,我们的管道以带有Bayer-Filter的颜色相机捕获的原始图像作为输入。我们管道中的 De-Bayer-Filter 模块将首先生成单色图像,然后双分支微光增强模块融合单色原始数据和颜色原始数据以产生最终的增强 RGB 图像。这两个模块都适用于原始图像,因为原始图像线性依赖于接收到的光子数,与噪声分布[2,20]等RGB图像相比,其中包含额外的信息。每个模块的详细信息将在续集中讨论。我们框架的详细架构如图 3(a) 所示(更多细节在补充材料中)。此外,图 3(b-f) 和图 3(g-k) 分别可视化了我们的模型在我们的数据集和 [3] 中的 SID 数据集上每个步骤的输出。
3.1. De-Bayer-Filter module
设计了数以百万计的微小光腔来收集光子并激活相机传感器上的电信号。然而,单独使用这些光腔只能产生灰度图像。因此,设计了一种拜耳滤色器来覆盖光腔并收集颜色信息来产生彩色图像。更具体地说,标准的拜耳单元是一个2x2像素块,有2个绿色、1个红色和1个蓝色滤光片,特定颜色的过滤器只会允许相应波长的光子通过。
为了模拟使用神经网络的相机成像过程已经在一些工作中得到了证明[3,20,22]。受这些工作的启发,我们通过对每个颜色滤波器的输入和输出光子之间的关系建模,几乎考虑去除拜耳阵列滤波器。具体来说,本文设计了一个 De-Bayer-Filter (DBF) 模块,从输入彩色原始 Acolor ∈ RH2 × W2 ×4 中恢复单色原始图像 Amono ∈RH×W:
A
Mono
=
f
M
(
A
Color
)
(1)
A_{\text {Mono }}=f_{M}\left(A_{\text {Color }}\right)\tag{1}
AMono =fM(AColor )(1)
其中 fM (·) 是一个基于 U-net 的全卷积网络(见图 3)。地真单色图像AGT M oo与预测图像AM ano之间的L1距离用作损失,以鼓励 DBF 学习从低光原始图像中恢复具有更多细节的单色图像。我们假设生成的单色原始图像可以通过在后续模块中引入更多信息来增强低光图像。
3.2. Dual branch low-light image enhancement module
彩色原始图像和单色图像之间有很多差异:1)彩色原始图像有马赛克图案;2)彩色原始图像由四个分辨率为H2 × W2的通道组成,对应的通道由一个分辨率为H × W的通道组成;3)单色图像中没有包含颜色信息;4)由于单色相机传感器可以更好地捕获光,单色图像上保留了更好的照明信息。
基于上述观察,我们提出了一种双分支微光图像增强(DBLE)模块(见图3),该模块在下采样过程中分别处理DBF生成的单色原始图像和彩色原始图像。同时,基于级联融合两个下采样分支的不同层次的特征图,然后在上采样分支中进行通道注意(CA)层[8],合成人体视觉就绪RGB图像Irgb∈RH×W ×3。DBLE模块定义为:
I
R
G
B
=
f
C
(
A
C
o
l
o
r
;
A
M
o
n
o
)
,
(2)
I_{R G B}=f_{C}\left(A_{C o l o r} ; A_{M o n o}\right),\tag{2}
IRGB=fC(AColor;AMono),(2)
其中 fC 是一个专门设计的全卷积网络,如图 3 (a) 所示。地面实况 RGB 图像 IGT RGB 和预测图像 IRGB 之间的 L1 距离用作损失,以鼓励 DBLE 学习从低光原始图像中恢复视觉就绪的 RGB 输出。
由于传统的 U-net 网络平等地对待每个通道的特征,直接连接来自单色原始分支和彩色原始分支的特征图可能会导致由于域间隙而导致的矛盾。跨步卷积和转置卷积层的使用也会导致空间信息损失。受[32]的启发,在连接操作之后,采用CA层[8]在DBLE中实现信道注意重新校准,以弥合单色图像和彩色图像之间的差距。CA 层可以显式建模彩色原始模态和单色原始模态的相互作用,以利用互补性并减少两个域的矛盾。
据报道,U-net中使用的上采样层(转置卷积层)会导致图像被棋盘伪影扭曲[13,19,24,25]。我们还在 U-Net 的设置中发现了这样的棋盘伪影,特别是对于具有白色背景的图像。在我们的工作中,CA 层也起到了避免棋盘伪影的作用。由于 CA 层中包含了缩小和高档操作,CA 层类似于调整大小卷积操作,以权重方式阻止高频伪影 [19]。
3.3. Dataset design
单色原始配对数据集 (MCR)。据我们所知,没有现有数据集包含由相同类型的传感器捕获的单色和拜耳原始图像对。为了建立数据集,我们用两个摄像机捕获同一场景的图像对,记为Cam-Color和Cam-Mono3。两个相机具有相同的1/2英寸CMOS传感器,输出1280H x 1,024V成像像素阵列。然而,只有Cam-Color配备了拜耳滤色器。Cam-Color 用于在我们的工作中捕获彩色原始图像,Cam-Mono 捕获单色原始图像。
我们在室内和室外条件下收集数据。室内场景的照度在常规灯下在50勒克斯到2000勒克斯之间。室外图像是在白天和晚上拍摄的,在阳光照明或街道照明下,照度在900勒克斯到14000勒克斯之间。捕获的场景包括玩具、书籍、车站对象、街景和公园。
摄像机安装在坚固的三脚架上的滑动平台上,或者安装在坚固的桌子上的固定平台上。当安装在滑动平台上时,通过滑动平台将摄像机调整到相同的位置,以最小化同一场景中两个摄像机捕获的图像之间的位置位移。当安装在固定平台上时,摄像机连接到平台的相同位置,以最小化位置位移。相机增益设置为相机默认值。调整焦距以最大化长时间曝光下图像的质量。根据特定的场景环境调整曝光时间。
位置位移在捕获过程中是不可避免的。因此,有必要对齐从两个相机捕获的图像。选择最佳曝光彩色原始和单色原始来对齐两个相机在同一场景中捕获的图像。然后,利用单应性特征匹配从所选图像对中提取关键点,利用蛮力匹配器找到匹配的关键点。基于经验阈值方法对提取的良好匹配位置进行过滤。可以根据良好匹配的过滤位置来决定单应矩阵。最后,将单应变换应用于从同一场景捕获的其他图像。数据集的统计信息总结在表 1 中。图 2(a) 展示了数据集中的一系列单色原始配对图像。
人工单色原始SID数据集。[3]中收集的原始SID数据集包含从室内和室外环境中拍摄的5094张原始短曝光图像,而每个短曝光图像都有相应的长曝光参考图像。短曝光时间通常在1/30秒到1/10秒之间,对应的长曝光图像的曝光时间为10到30秒。
然而,单色图像在原始SID数据集中是不可用的。为了解决这个问题,我们在这项工作中构建了一个基于SID[3]数据集的人工单色原始数据集。更具体地说,我们首先将原始SID数据集中的长曝光原始图像转换为RGB图像,并通过形成R、G和B通道的加权和,将这些RGB图像进一步转换为灰度,如图3(h)所示。这种转换可以消除色调和饱和度信息,同时保留亮度信息。
3.4. Training
默认情况下,我们对输入图像进行预处理,类似于 [3],其中图像的像素值以预定义的比率放大,然后是打包原始操作。我们结合CA层[8]来弥合单色原始图像和彩色原始图像特征之间的域差距。整个系统与L1损失联合训练,直接输出相应的长曝光单色和sRGB图像。数据集被分成训练集和测试集,不重叠比例为9:1。输入补丁从512 × 512的原始图像中随机裁剪。
在原始图像输入的情况下,在裁剪过程中小心地保留了RGGB像素位置。我们在 RTX 3090 GPU 平台上使用 Pytorch 1.7 实现我们的模型,我们使用 Adam [12] 优化器从头开始训练网络。收敛后学习率设置为10−4和10−5,权值衰减设置为0。
4. Experiments and results
在本节中,我们对所提出的微光图像增强系统进行了全面的性能评估。为了衡量性能,我们根据峰值信噪比 (PSNR) 和结构相似性 (SSIM) 来评估系统性能。对于 PSNR 和 SSIM,值越高意味着输出图像和地面实况之间的相似性越好。
4.1. Comparison with State-of-the-Arts
定性比较。我们首先直观地比较了所提出的方法与其他最先进的基于深度学习的图像增强方法的结果,包括SID[3]、DID[18]、SGN[6]、LDC[31]和RED[14]。此外,传统的直方图均衡化(HE)方法和商业软件自动图像增强(CSAIE)方法也包含在比较中。图 4 显示了不同方法在两幅低光图像上的结果(参见补充部分的更多结果)。
如图 4 所示,我们的方法可以实现更好的增强和去噪视觉性能。具体来说,对于白色背景的图像,通常在SID上找到棋盘伪影。这是因为模型中上采样层的使用。SGN通常观察到雾伪影;SGN、DID 和 RED 上也发现了颜色失真,如图 4 (A-J) 所示,其中黄色框包围的绿色植物在 SGN、DID 和 RED 恢复后变为黑色。与 LDC 相比,我们的方法可以保留更多细节,因为在 LDC 上通常可以找到过度平滑。请注意,过度平滑可能更具视觉吸引力,但细节会丢失,例如,墙裂纹在 LDC 上变得不可见,如图 4 (H-I) 所示。简而言之,图 4 展示了我们的方法实现的令人满意的视觉性能,伪影更少,恢复更令人信服。
定量比较。还进行了与最先进的增强方法的定量比较。为了公平比较,SID[3]、DID[18]、SGN[6]、LDC[31]和RED[14]在MCR数据集上进行训练。
如表 2 所示,我们提出的方法大大优于同类方法。具体来说,我们的方法可以在 MCR 数据集上实现 31.69dB 的 PSNR,比第二好的方法(即 LDC [31])高 7.9%。我们的方法还可以实现 0.908 的 SSIM,这是所有比较方法中最高的。
与其他方法相比,我们将额外的单色信息合并到处理管道中,从而实现最先进的性能。如表 2 中的前两个数据行所示,RED [14] 和 SGN [6] 都只能实现大约 26dB 的 PSNR。RED 和 SGN 都旨在减少计算成本并提高效率。因此,观察性能下降是合理的。表 2 中 DID [18] 的结果表明,用残差学习替换 U-net 并不能在我们的数据集中取得卓越的性能。
在 MCR 数据集上,SID [3] 仅实现了 29.00dB 的 PSNR。棋盘伪影可能是原因。从表 2 中,我们观察到 LDC [31] 实现了第二好的性能。这是因为它们基于频率的分解和增强模型,可以更好地恢复噪声图像,避免噪声放大。我们还在修改后的 SID 数据集上训练我们的模型,以进一步验证我们的方法进行公平比较。性能结果如表2中的SID列所示。结果表明,我们的方法也优于所有同类方法。具体来说,我们的方法可以实现 29.65dB 的 PSNR,比 LDC 高约 0.1dB,而 SSIM 可以达到相似的性能。
其他方法包括SID、DID、SGN和RED,只能实现大约28dB的PSNR。总之,结果表明我们的模型在增强带有噪声的低光图像方面更有效。大多数现有方法的性能上限为原始数据中包含的信息。在我们提出的管道中,我们通过考虑单色域进一步扩展了上限。因此可以实现更好的性能。
4.2. Ablation study
在本小节中,我们为所提出的系统提供了一些消融研究,以更好地证明我们系统的每个模块的有效性。在我们的初步探索阶段发现了棋盘伪影,特别是对于具有白色背景的图像。
为了消除棋盘伪影,我们在 DBLE 模块中合并了 CA 层 [8]。在这项消融研究中,我们首先去除DBLE模块中的CA层,以证明棋盘伪影消除和性能升级。此外,我们还在数据集上训练原始的SID[3]网络,以显示U-net棋盘伪影的视觉效果。来自SID、DBLE w/o CA层和带有CA层的DBLE的恢复图像如图5所示。可以观察到,通过引入CA层可以完美地避免棋盘伪影。此外,如表3所示的定量结果所示,与对应的29.23dB相比,CA层可以提高图像增强性能,PSNR提高到31.69dB。
我们还训练模型直接学习比率,而不是用预定义的比率放大图像像素值。因此,我们训练了一个模型,而不用预定义的比率放大输入的原始图像。因此,如表 3 所示,这样的模型仍然可以实现相当的性能,PSNR 和 SSIM 略有下降。
正如[3]所建议的,我们将基于包raw的输入更改为原始的单通道原始图像。如表 3 中没有打包的基线行所示,观察到 PSNR 和 SSIM 退化。我们认为原始打包可以帮助模型更好地处理颜色信息。
L1到L2的损失函数的变化不能获得更好的性能,如表3所示。我们还尝试将输入的原始转换为sRGB格式。表 3 中 sRGB 行的结果显示了显着的性能下降,这与其他作品一致[3,31]。
DBF 模块在我们的系统中在生成单色图像中起着关键作用,这有助于 DBLE 模块将低光图像恢复为可监控的 sRGB 图像。我们还探索了没有 DBF 模块和单色分支的模型的性能。如表 3 所示,当去除 DBF 模块时,PSNR/SSIM 的性能下降到 29.99dB/0.883,从而提供了对 DBF 有效性的可靠验证。
5. Limitations and future work
未来有各种各样的方面来改进。在这项工作中采用的摄像机只能输出8位原始图像,将使用16位摄像机在未来收集数据,以覆盖更多样化的场景和对象。此外,网络复杂性需要更加轻量级,以在现实世界中部署所提出的系统。此外,将提议的工作扩展到视频也将是一个未来的方向。我们希望本文提出的工作能够为社区和工业中的微光图像增强研究提供初步探索。当谈到我们的MCR数据集上的一些极暗图像时,现有的微光图像增强算法(SID[3]、LDC[31]和我们的方法)有时显示出不满意的结果。与地面真实图像相比,恢复后的图像通常会丢失高频边缘信息,变得模糊(见补充)。极端黑暗的设置有时会在每个颜色通道中产生非常弱的信号,导致SoTA和我们的方法中常见的颜色伪影,需要进一步研究。
6. Conclusion
删除拜耳滤波器允许传感器捕获更多的照片。受这一事实的启发,这项工作提出了一个端到端的全卷积网络,由 DBF 模块和双分支微光增强模块组成,在单个彩色相机系统上实现低光图像增强。DBF模块设计用于从彩色相机原始数据输入预测相应的单色原始图像。DBLE 旨在基于原始输入和 DBF 预测的单色原始图像来恢复低光原始图像。DBLE 通过使用双分支网络架构分别处理彩色原始和单色原始。在DBLE上采样流中,将单色原始和彩色原始的特征融合在一起,并对融合特征应用通道注意。
我们还提出了一个单色原始配对数据集(MCR),其中包括由彩色相机收集的彩色和单色原始图像对,带有Bayer-Filter和没有Bayer-Filter的单色相机。该数据集是在不同的场景中收集的,每个彩色原始图像都有一个对应的单色原始图像,这些图像是用相同的曝光设置捕获的。为了更好地展示我们的优越性,评估还采用了SID数据集。灰度图像是从SID数据集中相应的地面真实彩色图像生成的,作为单色图像。随后,在修改后的数据集上训练模型以验证性能。
我们的实验表明,通过利用原始传感器数据和数据驱动学习可以实现显着的性能。我们的方法可以克服在 U-net 上找到的棋盘伪影,同时保留视觉质量。我们的定量实验表明,我们的方法可以实现最先进的性能:我们自己的数据集上的 PSNR 为 31.69dB,SID 数据集上的 PSNR 为 29.65dB。
用实践巩固理论!请马不停蹄地来到复现文章吧!看看MCR具体是如何实现的吧!
本文对应的复现文章:
至此本文结束。
如果本文对你有所帮助,请点赞收藏,创作不易,感谢您的支持!
点击下方👇公众号区域,扫码关注,可免费领取一份200+即插即用模块资料!