《Deep learning-based watermarking techniques challenges - a review of current and future trends》论文精读

1. 引言

数字革命极大地推动了数字媒体水印技术的发展,这主要是由于多媒体内容面临未经授权修改的脆弱性不断增加。最近,在数据隐藏技术的数字化浪潮中,研究趋向于使用各种深度学习架构来执行水印操作,自其诞生以来已经探索了各种各样的问题。已经提出了几种基于深度学习的水印方法,与传统方法相比,它们已经证明了自己的效率。本文总结了传统和深度学习图像和视频水印技术的最新发展。它表明,虽然有许多专注于视频水印的传统技术,但还没有专注于该领域的深度学习模型;然而,对于图像水印,观察到了不同的基于深度学习的技术,其在不可见性和鲁棒性方面的效率取决于所使用的网络架构。本研究最后讨论了基于深度学习的视频水印的可能研究方向。

互联网和网络技术的快速广泛进步简化了通过物理传输媒介对多媒体内容的复制、更改、复制和分发。这在通信、信息处理和数据存储过程中发生,成本低且不会损害内容质量。因此,保护数据和维护数字信息免受即将到来的黑客威胁是首要任务。已经提出了不同的数据隐藏技术来解决这个问题,如密码学、隐写术和数字水印。最后一种技术包括将签名嵌入到原始内容中,然后在对标记内容应用不同操作后尝试检测它。

水印用于多种应用,如内容保护、版权管理、内容认证和篡改检测。图1展示了水印的几个广泛认可的应用。

[图1:水印应用示意图]

在过去的二十年中,许多传统水印方法已经被提出来保护不同类型的媒体,如图像[84]、2D视频[88]、3D模型[20]和音频[36]。这些传统方法基于使用空间或频率域将签名嵌入到特征区域中,它们在不可见性和对攻击的鲁棒性方面证明了效率。最近,水印技术基于人工智能得到了很多科学关注。深度学习如今是最强大、最省时、最具成本效益的机器学习方法。深度学习在众多应用研究领域都有显著改进,如计算机视觉、医学、自然语言处理、目标检测、人脸识别、手写识别和语音识别。它是发展最快的方法之一,具有显著的突破性能。因此,深度学习模型的高性能被认为在保护任何数字多媒体内容的知识产权方面是有效的。自2017年以来,已经提出了几种基于深度学习的水印技术来将签名嵌入到媒体内容中。

然而,这些工作大多集中在图像内容上,其中技术通常基于其网络架构进行分类[17]。尽管为视频、3D模型和音频提出了许多传统水印算法,但深度学习模型尚未专注于这些领域。事实上,据我们所知,只有一篇针对3D模型的论文[93],两篇针对视频的论文,没有探索深度学习模型用于音频水印的论文。

由于基于深度学习的水印是一个相对较新的研究领域,当前的综述集中在传统算法上。自2020年以来,已经提出了一些关于深度学习图像水印的综述论文,但没有综述论文专注于基于深度学习的视频水印技术。Byrnes等人[17]提出了一个关于深度数据隐藏模型的综合综述,统一了数字水印和隐写术。Zhang等人[95]还提出了关于基于深度学习的数据隐藏、隐写术和图像水印的简要综述。Li等人[51]提供了深度学习模型水印的概述,[29]给出了基于深度神经网络架构的图像水印的简要综述。

随着基于深度学习的水印继续扩展,最近为视频提出了几项工作,总结和比较为图像和视频提出的当前方法是重要的。本综述旨在简要分类传统的图像和视频水印技术,并讨论现有的基于深度学习的图像和视频水印模型。我们提出了基于深度学习的视频水印领域研究可能采取的未来方向。本综述的主要贡献如下:

• 本综述简要分类和比较了为图像和视频提出的现有传统水印技术。 • 我们基于网络架构和嵌入域提供了基于深度学习的水印技术分类。 • 我们讨论和比较了最流行的基于深度学习的图像和视频水印技术,为研究人员提供了对基于深度学习的水印实际挑战的清晰理解。 • 我们还为基于深度学习的视频水印提出了一些未来方向。

本文其余部分的组织如下。在第2节中,我们通过基于嵌入目标和使用域对传统图像和视频水印技术进行分类来介绍其回顾。第3节基于网络架构对利用深度学习方法的图像水印技术进行比较。下一节详细介绍了少数现有的基于深度学习的视频水印技术并展示了它们的优势。第5节讨论了基于深度学习的视频水印挑战,并为该领域的研究人员提供了一些建议。最终,在第7节中,我们得出一些结论并突出了未来工作的一些方向。

2. 传统图像和视频水印技术回顾

水印是数据隐藏技术的一个分支,它将信息隐藏在数字内容中以在网络中安全传输。信息隐藏技术主要包括隐写术、隐蔽通信和水印。这种技术保护数字内容免受多种安全问题的影响,如非法数据分发、使用、复制、操作和存储。实际上,它将签名嵌入到原始内容中,然后在对标记内容应用不同操作后尝试检测它。通常,鲁棒水印技术应该是不可见的。水印是一个重要的研究领域,这要归功于它在多种媒体应用中的使用,如版权保护和所有者识别、复制控制和指纹识别、内容认证和完整性验证、广播监控、索引和医疗应用。

2.1 水印术语

水印过程包括两个主要阶段:签名嵌入和签名检测。嵌入是将包含作者信息或版权信息的签名通过特定嵌入方法嵌入到托管多媒体内容中的阶段,如图2所示。首先,根据选择的嵌入目标(DWT、DCT、FFT等),托管内容(图像、视频或3D模型)最终被转换。然后,通过使用密钥随机置乱水印信息来生成签名,以增强嵌入方法的安全性。水印也可以通过应用多种加密算法来生成,如[14, 19, 53, 69]中提出的。获得的标记嵌入到选定的系数中,然后将这些系数带回原始域以获得标记内容。

[图2:嵌入阶段流程图]

签名检测阶段尝试提取嵌入的水印,通常分解为与嵌入阶段相同的步骤,如图3所示。给定标记媒体,将应用嵌入时使用的相同变换,检测算法将应用于获得的系数。签名检测阶段可能需要原始内容的知识。在这种情况下,我们说水印算法是非盲的。相反,如果在不依赖原始媒体和标记媒体之间比较的情况下恢复水印,则水印算法是盲的。

[图3:检测阶段流程图]

如果签名包含N位序列,则可以从标记媒体中读取。在这种情况下,水印算法称为多位水印。然而,在0位水印中,检测器尝试决定给定媒体中是否存在已知签名。在几个应用中,可能需要这两种类型,其中检测器必须首先验证签名的存在,如果是,则确定编码了哪条消息。

任何水印技术都必须满足三个主要要求:不可见性、容量和鲁棒性。基于应用,这些要求评估水印系统的性能。在不可见水印的情况下,市场和原始内容对人类来说应该在感知上无法区分。这种保真度可以通过要求一组人确认标记内容的视觉质量来定性评估,或者通过计算几个标准来定量评估。用于定量评估不可见性的标准标准是平均峰值信噪比(MPSNR)和平均结构相似性指数(MSSIM)。在标记内容是图像的情况下,PSNR按以下公式计算:$PSNR = 10 \log_{10} \frac{255^2}{MSE} \quad (dB)$$ $$MSE = \frac{1}{M \times N} \sum_{m=1}^{M} \sum_{n=1}^{N} [f(m,n) - f_w(m,n)]^2$

其中 $M \times N$ 是图像的大小,$f$$f_w$ 是原始图像和标记图像,MSE 是 $f$ 和 $f_w$ 之间的均方误差。在视频的情况下,如果标记帧的数量是K,我们计算平均PSNR如下:

$MPSNR = \frac{1}{K} \sum_{k=1}^{K} PSNR_k$

尽管简单,PSNR或MPSNR有时无法提供主观评估结果,因此引入SSIM或MSSIM来评估标记图像或视频质量的视觉质量。MSSIM定义如下:$MSSIM = \frac{1}{k} \sum_{k=1}^{K} SSIM(f_k, f_{kw})$$ $$SSIM(f_k, f_{wk}) = \frac{(2\mu_{f_k}\mu_{f_{kw}} + C_1)(2\sigma_{f_k f_{kw}} + C_2)}{(\mu_{f_k}^2 + \mu_{f_{kw}}^2 + C_1)(\sigma_{f_k}^2 + \sigma_{f_{kw}}^2 + C_2)}$

其中 $\mu_{f_k}$$\mu_{f_{kw}}$ 分别是原始图像和标记图像的均值;$\sigma_{f_k}$$\sigma_{f_{kw}}$ 分别是原始图像和标记图像的方差。$\sigma_{f_k f_{kw}}$ 表示原始图像和标记图像的协方差;$C_1$$C_2$ 是两个稳定性常数。我们注意到存在可见的水印技术,但它们的使用仅限于特定应用。

第二个要求是容量(也称为有效载荷),它表示在主机媒体中嵌入的信息量。对于几个应用,如果水印技术需要高不可见性,则有必要减少签名容量以避免在主机媒体中进行过多修改。

最后一个要求是鲁棒性,即即使标记媒体经历几种信号处理操作,也能提取嵌入签名的能力。这些操作包括非恶意攻击(无意处理,可能干扰嵌入签名,如几何操作(平移、旋转、缩放)、噪声添加和滤波,可应用于图像或视频内容)和恶意攻击(试图损坏或删除嵌入签名)。在这些攻击中,我们区分压缩攻击和共谋攻击,这些是视频内容特有的。注意,根据应用,并非所有水印技术都对相同的操作具有鲁棒性。

根据鲁棒性水平,技术可以分为鲁棒、脆弱和半脆弱水印。鲁棒水印要求水印抵抗噪声操作以及几何或非几何操作。这类水印用于不同的应用,如版权保护、广播监控、复制控制和指纹识别。如果在应用主机内容后嵌入签名丢失或更改,则水印是脆弱的。这类水印通常用于完整性验证和内容认证应用。最后一种水印类型是半脆弱类,它对某些攻击具有鲁棒性,但在恶意操作后失败。这个类可以用于图像认证应用。

位错误率(BER)和归一化相关(NC)用于评估给定水印的鲁棒性。这两个指标计算在对标记内容应用不同攻击后嵌入签名和提取签名之间的不相似性。实际上,BER提供传输期间错误位的百分比,由以下公式给出,其中S是原始签名,S'是提取的签名,$\sum_i Ber_i$ 是错误位数,$\sum_i Btrans_i$ 是传输位总数:

$BER(S, S') = \frac{\sum_i Ber_i}{\sum_i Btrans_i}$

NC计算两个媒体之间的相似性。它是范围[0,1]中的值,其中较高的值证明媒体之间的相似性更好。给定原始和提取的签名S和S',NC度量计算如下:

$NC(S, S') = \frac{1}{WH} \sum_{i=0}^{W-1} \sum_{j=0}^{H-1} \delta(S_{i,j}, S'_{i,j})$

其中:

签名容量、不可见性和鲁棒性是相互限制的。实际上,图像和视频水印领域研究中最困难的挑战是如何选择嵌入目标,以最小化视觉影响并在同一技术中具有高鲁棒性和可接受的容量。

2.2 传统图像和视频水印技术分类

用于图像和视频水印技术分类的主要标准是嵌入域,可以是空间域、频率域或混合域。

空间水印通过直接修改原始图像或视频帧像素的亮度或色度来嵌入签名。空间技术的特点是复杂度低,不可见性高。然而,它们缺乏对多种攻击的鲁棒性。为图像和视频水印提出的主要空间域技术包括最低有效位(LSB)修改、扩频调制等。

关于图像内容,LSB是空间域最常用的方法,其中修改几个选定像素的最低有效位来嵌入签名[58]。LSB非常简单,但它无法抵抗多种攻击。因此,已经开发了替代方法,如MIDSB(中间有效位)[12]和ISB(中间有效位)[62],其中最低有效位分别被中间有效位和中间与范围边缘之间的最佳像素值替换,以提高鲁棒性。提出了其他空间技术[74]以在保持视觉质量水平的同时提高鲁棒性。

对于视频,LSB也是最经典的技术,使用与图像水印相同的方法,同时为组成原始视频的所有或某些选定帧应用LSB[42]。尽管LSB技术简单,但其鲁棒性很差。扩频技术被提出作为有效的空间水印,其中扫描原始视频帧以获得一维信号,签名由扩频技术调制并插入视频[60]。在[8, 48, 82]中也提出了其他空间视频水印技术以提高对攻击的鲁棒性。然而,这些技术的应用受到限制,因为它们的鲁棒性较差,特别是随着视频编码技术的发展。

频域水印使用选择的变换转换原始内容(图像或视频帧),然后修改获得的系数以嵌入签名。之后,系数被转换回空间域以获得标记内容。用于图像水印的最常用频率域变换是离散余弦变换(DCT)[38, 54, 75, 80, 83]、离散傅里叶变换(DFT)[23, 37, 64, 70]、离散小波变换(DWT)[5, 32, 46, 85]和奇异值分解(SVD)[4, 81]。每种频率变换都有其自身的优缺点,其中一些变换对多种攻击具有鲁棒性,而对其他攻击则失败。例如,空间域通常确保对平移和噪声的鲁棒性,但不抵抗压缩和滤波,与DCT相反,DCT对旋转、滤波和JPEG压缩具有鲁棒性,但无法抵抗噪声。为了解决这个问题,几种图像水印算法基于混合域,将不同的变换与空间域结合起来,以从这些变换的优势中受益[2, 13, 76]。注意,这些算法确保鲁棒性、容量和不可见性之间的最佳权衡。

关于视频内容,与图像一样,常见的频率域变换包括DCT [18, 34, 49, 89]、DWT [15, 30, 72, 79]和SVD,通常与另一种变换结合,如DWT [33, 77]和DCT [61]。正如图像所得出的结论,视频水印技术的鲁棒性取决于所选变换的特性。然而,为了更好地提高性能,许多水印算法使用混合域,结合不同变换的优势。因此,提出了结合DCT和DWT [39, 73]或将不同变换与空间域结合的不同技术,如[44]中建议的。

由于视频内容可以被视为一组帧,任何图像水印技术都可以通过将签名嵌入到所有或某些选定帧的空间冗余中来用于视频水印。然而,基于图像的技术无法抵抗视频特定攻击。实际上,视频也由时间信息定义,这使得其处理更加敏感,视频中的时间冗余为黑客提供了更多机会,通过使用恶意攻击(如共谋)来估计签名。这种最后的攻击和基于帧的攻击(如压缩帧丢弃和交换)应该在开发视频水印技术时由研究人员考虑。为了抵抗这些攻击,提出了基于时间信息的不同技术,如马赛克[45]、多精灵[11]和Krawtchouk矩[10],它们证明了对恶意攻击,特别是对共谋攻击的良好鲁棒性。

由于视频数据现在经常在互联网上使用和传输,通常应用压缩过程来减少视频大小。然而,基于原始视频的水印技术在签名嵌入和检测阶段解码视频,可能会破坏签名并恶化视觉质量。为了解决这个问题,出现了一类新的视频水印算法,其中使用压缩域。这些算法将签名嵌入到压缩视频中,并将嵌入阶段与相应的视频编码标准结合,包括MPEG [21, 22, 90]、H.264 [27, 98]和H.265 [24, 55, 71]。基于压缩域的水印对多种攻击具有鲁棒性,如滤波、噪声和压缩。

总之,传统鲁棒图像和视频水印技术的分类如图4所示。

[图4:传统鲁棒图像和视频水印技术分类图]

3. 基于深度学习的水印基本概念

随着深度学习在计算机视觉和图像处理领域的成功,它已被采用用于各种任务。最近,深度学习模型吸引了数据隐藏技术(包括隐写术[9, 25]和水印)研究人员的注意。

3.1 基于深度学习的水印方案的一般框架

基于深度学习的水印通常使用基于卷积神经网络(CNNs)结构的编码器-解码器来训练模型,并以鲁棒和不可见的方式嵌入签名。由于其重新训练以抵抗多种攻击的优势,它比传统水印更有效。此外,它不需要专家开发嵌入方法。最后,深度学习模型的黑盒性质允许提高安全性。

基于深度学习的水印方案分解为三个主要阶段,如图5所示。第一阶段是将签名嵌入原始内容的编码器。第二阶段是攻击模拟,最后使用解码器网络阶段提取签名。由于迭代学习过程,嵌入对第二阶段期间应用的攻击更具鲁棒性,提取网络提高了提取签名的完整性。基于深度学习的水印相对于传统水印的主要优势是它可以轻松地为各种应用和不同攻击重新训练,而不是从头开始设计。

[图5:数字水印的编码器-解码器架构阶段图]

基于深度学习的图像或视频水印方案的工作流程如下:

  1. 训练编码器网络将输入消息嵌入到原始内容中,其主要目标是最小化目标函数。该函数计算原始内容和标记内容之间以及嵌入和提取签名之间的差异。

  2. 通过失真层对标记内容应用不同攻击。这些攻击可能包括不同形式的操作,如裁剪和压缩。

  3. 使用解码器网络从失真内容中提取嵌入消息。

3.2 水印中使用的神经网络架构

深度学习框架利用自动学习直接从训练数据中捕获分层信息,消除了对手动特征表示的需要。具体来说,深度网络接受原始输入数据(如图像或音频信号)并执行映射操作。由于其模仿人脑学习能力和参与更自然交互的令人印象深刻的能力,深度学习技术在数据隐藏和图像处理应用中获得了广泛使用。

水印技术中广泛使用两种深度学习模型:卷积神经网络(CNN)和生成对抗网络(GAN)。

CNNs非常适合不同的应用,如分类和识别,这要归功于其在有限参数数量下的数据表示效率[50]。CNN算法是专门为提取和识别二维图像细节而开发的专用多层感知器。CNN架构通常由多个层组成,包括输入层、卷积层、池化层和输出层,如图6所示。CNN通过获取输入图像并对其进行一系列卷积和子采样操作来启动。每个卷积层包括一个滤波器矩阵集合,这些矩阵与前面的图像矩阵相乘以提取称为输出通道图的重要特征。随后,池化层用于减少输入图的维度,同时保留关键信息。最大池化是一种子采样技术,选择每个块内的最大值。通过激活函数(如修正线性单元(ReLU),将负值设为零)将非线性引入网络。为了减轻过拟合并加速学习,可以在网络训练期间使用批归一化。

[图6:CNN架构图]

关于GAN,它是一种广泛用于无监督学习的神经网络类型。GAN由两个参与竞争过程的神经网络模型组成,使它们能够检查、掌握和复制给定数据集中存在的各种模式。实际上,GAN由两个模型组成:生成模型和判别模型。它具有与图5中描述的编码器-解码器相同的原理,与判别器网络的差异在于它对给定的编码和未改变图像的混合进行分类(图7)。使用这些判别网络可以大大提高数据不可感知性。

[图7:GAN架构图]

3.3 水印数据集示例

为了评估基于深度学习的水印方案的性能,文献中使用了不同的数据集。在这些数据集中,我们提到:

ImageNet:ImageNet是计算机视觉研究中广泛使用的数据集,包含数千个类别的数百万标记图像。虽然不是专门为水印设计的,但它可以用来评估水印技术在各种类型图像上的有效性。

MS COCO(Microsoft Common Objects in Context):MS COCO是另一个用于目标检测和图像分割任务的流行数据集。它包含具有多样化内容的大量图像集合,使其适合水印研究。

BOSSbase(BOWS-2):BOSSbase是数字图像水印的基准数据集。它包含10,000张分辨率为512x512像素的灰度图像。数据集包括原始图像和相应的水印版本,使其适合评估水印算法的鲁棒性和不可感知性。

UCF101:UCF101是视频中动作识别常用的数据集。它由13,320个视频组成,涵盖101个动作类别。虽然主要用于动作识别,但它可以用于评估基于动作内容的视频水印技术。

Kinetics数据集:Kinetics数据集是用于动作识别任务的大规模视频数据集。它由大约650,000个视频片段组成,涵盖700个动作类别。该数据集多样化,包括从YouTube视频中捕获的广泛的人类动作。虽然Kinetics数据集不是专门为水印研究设计的,但它仍然可以用于评估基于动作的视频内容水印技术的某些方面。

4. 基于深度学习的图像水印综述

虽然当前基于深度学习的水印研究主要围绕图像水印,但其他形式的媒体仍处于早期发展阶段。仅有有限数量的工作被提出用于文本[1]和3D图像[92]。这些方法通过利用其学习复杂插入模式(对各种攻击具有弹性)的能力,与传统技术相比提供了改进的效率。这种鲁棒性是获得的,因为深度学习网络可以轻松重新训练以对不同类型的攻击变得鲁棒。此外,它们可以针对容量有效载荷或不可感知性优化,而无需为每个不同应用开发新算法。深度学习模型的特点是其高非线性,这使得对手不可能检索嵌入签名。

4.1 基于深度学习的图像水印方案分类

当前基于深度学习的图像水印技术可以根据选择的网络架构分为两类。第一类使用编码器-解码器框架,包括CNNs,其中我们区分基于CNN编码器-解码器(图5)的技术和基于卷积自编码器的技术,这是在无监督学习场景中使用的编码器-解码器的特殊情况。

在[41]中提出了两个用于水印嵌入和提取的传统卷积自编码器。这些自编码器CNN模型允许获得嵌入签名的高不可见性。此外,[41]中提出的水印在鲁棒性方面证明了其效率,并优于传统水印技术。在[63]中提出了另一种基于卷积自编码器的鲁棒盲水印技术。该方法分解为三个步骤:嵌入、攻击模拟和更新。在第二步中,CNN模拟各种攻击,而在更新中,通过更新模型权重来最小化损失函数。

在[78]中,作者提出了一种使用CNNs进行数字图像水印的方法。首先,编码器网络用于从封面和秘密图像中提取潜在特征。然后连接这些特征以创建标记图像。在接收端,CNN用于在使用去噪自编码器网络从接收图像中去除噪声变化后检索秘密标记图像。

Ahmadi等人[3]提出了一种称为ReDMark的新方法,它使用两个完全卷积神经网络(FCNNs)进行嵌入和提取。它包含一个可微分攻击层来模拟不同的失真。该技术提高了对攻击的鲁棒性并最大化了鲁棒性和不可感知性之间的权衡。Zhong等人[99]提出了一种基于CNN的水印技术,它是鲁棒和盲的,可用于多种应用。该技术通过训练深度神经网络学习水印嵌入和提取的一般规则来概括水印过程。该技术优于[41, 63]中提出的两种自编码器CNN方法,并允许获得更大的鲁棒性。

在[47]中开发的另一种水印模型使用简单的CNN进行嵌入和提取。它包含一个图像预处理网络,可以适应任何分辨率的图像用于水印过程,以及水印预处理和强度缩放因子来控制鲁棒性和不可感知性之间的权衡。

Luo等人[57]通过采用训练的CNNs进行攻击模拟而不是使用可微分攻击层来改进基于CNN的编码器-解码器框架。向模型训练添加对抗组件可以提高嵌入标记的鲁棒性。实际上,在[57]中,失真通过训练的CNN通过对抗训练生成。

在[68]中,为版权保护提出了一种基于优化深度融合卷积神经网络(FCNN)的数字彩色图像水印方案。它建议采用基于优化方法的深度融合CNN。嵌入网络添加的八度卷积模块减少了空间冗余并增加了感受野。ECO方法可以帮助选择具有强大探索能力的合适强度因子。

基于深度学习的图像水印的第二类基于生成对抗网络(GAN)[28]。存在GAN的几种变体,它们包括Wasserstein GANs(WGANs)和CycleGANs,用于图像水印并在不可见性和鲁棒性方面提供良好结果。HiDDeN [100]是第一个使用对抗判别器来改善水印过程性能的方案。它由编码器网络(训练以嵌入编码位串)、解码器网络(尝试从编码图像中提取信息)和对抗网络(预测图像是否被编码)组成。

ROMark [87]和[31]改进了HiDDeN技术,其中[87]的目标是最小化跨攻击范围的解码损失,而不是训练模型以抵抗专门攻击。该技术在某些专门攻击类别中比[100]更鲁棒。关于[31],它使用旋转层和加性噪声层,允许模型学习对几何旋转攻击的鲁棒性。它还使用噪声强度因子来最大化鲁棒性/不可见性权衡。Zhang等人[96]提出了一种新的基于GAN的水印技术,它使用逆梯度注意(IGA)来嵌入签名。该技术基于注意掩码识别鲁棒像素,该掩码提供原始图像梯度的值。这允许与其他技术相比提高标记图像的容量和鲁棒性。在[52]中提出了另一种基于GAN的水印,其中引入了TSDL(两阶段可分离深度学习)框架。该框架可以在训练期间使用真正的不可微分噪声攻击,如JPEG压缩。Liu等人[52]与以前的技术相比实现了良好的鲁棒性。

Annadurai等人[6]提出了一种基于离散小波变换(DWT)量化模型与卷积生成对抗神经网络的数字水印方法,该网络用于处理图像的分割和分类。在该技术中,基于SVD的离散小波变换量化模型用于水印。

提出了使用GAN变体的其他水印技术。使用的第一个变体是Wasserstein GAN(WGAN),它改善了训练期间的稳定性和GAN模型训练的敏感性[7]。WGANs包含评论家组件而不是判别器组件,该组件返回指示输入图像是否真实的分数。

Plata等人[66]提出了一种基于WGAN的新水印,其中签名分布在图像的空间域上。建议的技术使用一种新的可微分噪声近似方法来处理不可微分失真,允许模拟子采样攻击。在[67]中,作者通过使用双重判别器/检测器架构改进了以前的工作。判别器放置在噪声层之后,学习区分已应用攻击的水印和非水印图像。Wang等人[86]提出了一种基于纹理分析增强编码图像质量的技术。使用灰度共生矩阵分析原始图像的纹理,将区域分类为复杂和平坦类型。

用于图像水印的GAN的第二个变体是CycleGAN [101],它包括两个生成模型和两个判别模型。[94]是唯一使用该框架的水印技术。该技术使用注意模型来嵌入数据,该数据是注意掩码,代表封面图像中每个像素的注意敏感度。这增强了编码器网络的嵌入过程。

4.2 基于深度学习的图像水印方案比较

图8展示了使用深度学习的图像水印分类,描述了根据所采用架构的论文数量波动。表1总结了文献中提出的各种基于深度学习的图像水印技术之间的差异。实际上,基于艺术研究,我们可以观察到GAN更有效,在鲁棒性方面更有前景,这要归功于包含对抗网络,该网络大大提高了水印的不可见性。然而,为了提高基于GAN的水印的鲁棒性,应该将其与其他方法结合,如[94]和[96]中提出的,其中使用了注意机制和IGA方法。注意,鲁棒性取决于训练期间使用的攻击类型。最后,我们注意到每个类别都对一组攻击呈现鲁棒性,除[41]外所有技术都是盲的。

[图8:每种架构的深度学习图像水印文章数量饼图]

表1:现有基于深度学习的图像水印技术比较

参考文献架构技术容量鲁棒性
[41]自编码器CNN使用两个卷积自编码器进行水印嵌入和提取频率域128×128JPEG、滤波、几何攻击、裁剪、噪声(非盲)
[63]自编码器CNN使用浅层网络和视觉掩码空间域512×512
[78]自编码器CNN使用基于自编码器的嵌入器网络和去噪自编码器网络空间域128×128
[3]CNN使用循环卷积嵌入网络和DCT层进行嵌入和提取网络频率域128×128JPEG、滤波、噪声、裁剪、旋转
[68]CNN使用八度卷积模块(OCM)增强黑猩猩优化算法空间域512×512
[99]CNN使用不变层,包括冗余参数以容忍训练期间未见过的失真空间域128×128
[47]CNN使用简单的CNN作为嵌入和提取网络、图像预处理网络、水印预处理和强度缩放因子空间域-
[57]CNN使用对抗训练生成失真空间域-
[31]GAN使用神经网络进行攻击模拟空间域64×64dropout、cropout、滤波、JPEG、掩码、JPEG丢弃、噪声、旋转、重编码攻击
[100]GAN使用对抗判别器空间域128×128
[87]GAN使用最小-最大公式进行鲁棒优化空间域-
[52]GAN两阶段可分离深度学习(TSDL)水印框架空间域-
[96]GAN使用逆梯度注意(IGA)掩码识别鲁棒像素频率域-
[6]GAN基于SVD的离散小波变换量化模型,使用卷积生成对抗神经网络对处理图像进行分割和分类频率域--
[66]WGAN使用空间扩散嵌入技术空间域256×256
[67]WGAN使用双重判别器/检测器架构空间域-
[86]WGAN使用基于灰度共生矩阵的纹理分析空间域128×128
[94]CycleGAN使用表示每个像素注意敏感度的注意掩码空间域512×512

关于不可见性标准,图9展示了应用各种现有基于深度学习的水印技术后获得的PSNR值比较。在探索该图时,我们可以观察到大多数基于深度学习的图像水印技术为水印图像提供了高视觉质量。然而,我们注意到基于CNN的技术提供了最佳的PSNR值,这是通过其直接对齐低分辨率和高分辨率图像之间复杂映射的能力实现的。这种对齐增强了丢失高频信息的恢复,超越了众多传统方法的性能。

[图9:基于深度学习的图像水印现有技术PSNR比较图]

5. 基于深度学习的视频水印综述

尽管为图像提出了大量现有的基于深度学习的水印技术,但基于深度学习的视频水印只是最近才开始被探索,仍然是一个开放问题。实际上,据我们所知,文献中只有很少数量的基于深度学习的视频水印技术 [16, 26, 35, 40, 43, 56, 59, 65, 91, 97],这些技术自2019年以来出现。

5.1 基于深度学习的视频水印技术分类

基于深度学习的视频水印技术可以根据原始视频域进行分类,原始视频域可以是原始帧或压缩域。实际上,[16, 26, 35, 40, 43, 56, 59, 65, 91, 97]已经为视频帧提出,其中[16, 35, 43, 56, 65, 91, 97]用于鲁棒多位嵌入。[26]是鲁棒零水印,[40]是最近为压缩视频提出的。最后,Mansour等人[59]基于从原始视频生成的马赛克图像(图9)。

Zhang等人[97]引入了一种称为RIVAGAN的新架构,用于鲁棒视频水印,由两个对手组成:评论家和对抗网络。第一个评估标记视频的质量,第二个试图去除水印。这两个组件与编码器和解码器网络一起工作,分别嵌入和提取视频的水印。提出的架构基于基于注意的机制,该机制识别对嵌入鲁棒的区域并生成具有高视觉质量的标记区域。注意模块由编码器和解码器之间共享的两个卷积层组成。它通过应用两个卷积块从原始帧生成注意掩码。该掩码包含数据、时间和大小维度。这种机制使训练变得容易,并增强了对不同攻击(如缩放和压缩)的鲁棒性。

Luo等人[56]是另一种使用深度学习的多位鲁棒视频水印,称为DVMark。它由四个阶段组成:编码器、解码器、失真层和GAN判别器。实际上,编码器是一个多尺度网络,在两个不同的空间-时间尺度上将在空间和时间维度上重复的签名嵌入到原始视频中。标量因子用于在推理时改变签名强度。关于解码器,网络由变换层和两个检测器头组成,可以检测标记帧和未标记帧。在失真层中,不同的失真(如帧丢弃、裁剪和压缩)应用于标记视频,解码器网络从失真视频生成预测消息。最后,具有3D ResBlock的多尺度视频判别器架构允许网络检测封面和水印视频之间的空间和时间差异。该方法与3D-DWT传统视频水印和HiDDeN方法进行了比较,发现在对攻击的鲁棒性方面更有效。

Bistron和Piotrowski在[16]中介绍了一种视频水印算法,该算法将CNNs与熵驱动信息映射器合并。他们的方法涉及将水印纳入YUV颜色空间的亮度通道。通过利用信息映射器,复杂的多位二进制签名可以嵌入到信号帧的水印中。尽管文章承认利用CNNs和基于熵的信息映射器来增强弹性,但它忽略了面对高级水印攻击(如几何变换、压缩、裁剪和共谋)时算法的有效性。

在[43]中,作者旨在使用课程学习方法和深度神经网络创建视频水印系统。注意模块是RivaGAN的编码器和解码器组件的一部分。总体而言,从解码器网络隐藏的编码器网络中断分段视频的第一帧。

[65]中建议的方法使用改进的入侵蜜獾优化(IIHBO)算法将隐藏的音频组件嵌入视频中。该过程包括两个主要阶段:提取和嵌入。使用由IIHBO训练的Shepard卷积神经网络(ShCNN),在嵌入阶段将秘密音频纳入预测对象位置。使用相同方法的反向,提取步骤从嵌入视频中提取隐藏音频。为了有效的ShCNN训练,使用IIHBO——改进入侵杂草优化(IIWO)和蜜獾优化(HBO)的混合体。

在[35]中讨论了基于SCBSA的深度CNN的可逆医学视频水印。为了集成视频,该方法结合了正弦余弦和鸟群算法(SCBSA),包括关键帧提取、区域识别和嵌入。从网格化视频帧中检索CNN、LOOP、基于邻域和直方图特征等特征。适当的嵌入隐藏消息区域由已使用SCBSA训练的深度CNN分类器确定。使用基于小波变换的两级分解,SCBSA——SCA和BSA的混合技术使消息嵌入和提取更简单。

ItoV [91]提出了一种将基于深度学习的图像水印技术适应视频水印的方法。主要目标是解决视频数据中存在的计算复杂性和时间相互依赖等问题。作者专注于结合视频的通道和时间维度,以便深度神经网络可以像处理图像一样处理视频。他们研究了不同卷积块如何影响视频水印,发现虽然深度卷积大大降低了计算成本而不影响性能,但空间卷积是必不可少的。在水印嵌入中,神经网络的任务是理解封面视频的像素分布,以便以最少的失真添加消息。

Gao等人[26]提出了一种用于视频内容版权保护的鲁棒零水印技术。该技术基于在极坐标复指数变换(PCET)空间中具有自组织映射(SOM)的CNN架构。首先,该方案使用CNN提取组成原始视频的帧的特征。然后,它通过应用SOM聚类和最大熵选择一些重要帧。给定选定的帧,使用PCET检测不变矩,并通过奇异值分解(SVD)减少维度。获得的矩将用于生成二进制矩阵。最后,通过对二进制矩阵和水印应用按位异或操作生成零水印信号,并通过混沌映射加密。实验表明,该技术对多种攻击具有鲁棒性,如几何、压缩和帧间攻击,与现有视频零水印和传统视频水印方法相比证明了优越效率。

[40]中提出的基于深度学习的视频水印技术是一种在压缩域中工作的最新方法,用于保护使用H.265/HEVC编解码器压缩编码的视频。首先,编码器子系统通过应用可调子方块属性生成水印。该水印将被引入到预备网络中。编码器DNN将隐藏图像与原始图像作为输入,并将秘密图像从预备网络分解为特征集,以便编码水印。然后,将获得的秘密图像特征集与载体图像进行反卷积。在学习过程中,神经网络自动选择可以进行图像修改的最优滤波器。编码使用可调子方块属性算法完成,以获得位编码图像。在图像通过HEVC编解码器的压缩通道后,将使用解码器网络解码,该网络返回恢复的水印,该水印由解码器子系统处理,通过识别恢复图像中编码的信息来识别水印。该技术呈现标记视频的高视觉质量。

最近,在[59]中提出了一种利用深度学习并采用马赛克图像的视频水印新方法。该方法将图像水印的概念扩展到视频水印。它涉及四个关键步骤:用于从原始视频生成马赛克图像和处理签名的预处理网络、嵌入网络、攻击模拟和提取网络。生成马赛克图像的主要目标是从原始视频构建图像,同时确保对恶意攻击,特别是共谋攻击的弹性。提出的技术调整马赛克图像的分辨率并纳入签名信息,结合各种CNN训练方法,如平均、批归一化和修正线性单元(ReLU)。在攻击模拟阶段,除共谋和MPEG压缩外的所有攻击都包含在每个小批次中。

5.2 基于深度学习的视频水印技术比较

图10展示了基于所使用架构类型的现有工作分布。它表明CNN架构是视频水印最常用的架构。视频水印广泛采用CNN架构可归因于几个原因。首先,CNN旨在自动从输入数据中提取相关特征,这对于需要识别特定模式并不可感知地纳入的视频水印至关重要。然后,视频包含复杂和动态信息。具有深度架构的CNN可以捕获连续帧之间的复杂关系,这对于视频水印至关重要。最后,CNN被设计为对平移和变形不变,使它们对图像中的微小修改具有鲁棒性,这是视频水印的重要属性,其中视频可能经历更改。

[图10:基于架构的深度学习视频水印文章分布饼图]

表2总结了现有基于深度学习的视频水印技术之间的优势和差异。这些技术使用不同的网络架构和不同的嵌入域。它们的鲁棒性取决于使用的域和选择的架构。毫无疑问,基于深度学习的视频水印模式的具体程序可能因采用的技术而异,但总体而言,它需要训练深度神经网络以理解视频的特征以及水印。随后,该训练网络用于通过以人眼不可感知的方式修改视频帧将水印插入视频。同样,相同的神经网络可以从水印视频中提取水印。基于深度学习的视频水印方法的一个显著优势是它们在有效解决视频水印挑战(如运动和压缩伪影)方面的卓越能力,超越了传统方法的能力。

表2:现有基于深度学习的视频水印技术比较

参考文献容量网络架构技术鲁棒性
[97]视频帧多位 32×32RIVAGAN使用评论家和对抗网络,基于注意力模块缩放、裁剪、压缩
[56]视频帧多位 128×1283D CNN使用多尺度编码器和解码器网络,使用GAN判别器和失真层压缩、帧丢弃、帧平均、帧交换、帧模糊、裁剪
[16]视频帧多位 256×256CNN使用YUV颜色空间的亮度通道,基于熵驱动信息映射器几何变换、裁剪、共谋、压缩
[26]视频帧零位CNN使用卷积神经网络(CNN)和自组织映射(SOM)在极坐标复指数变换(PCET)空间中的组合,使用SVD分解旋转、高斯噪声、椒盐噪声、中值滤波、帧丢弃、帧交换、帧平均
[40]压缩域多位 128×128DNN自编码器使用可调子方块属性编码数据算法压缩
[59]马赛克图像多位 128×128CNN使用从原始视频生成的马赛克图像作为嵌入目标,使用攻击模拟包括各种操作几何变换、裁剪、共谋、压缩
[43]视频帧多位 256×256GAN使用架构中具有注意模块的编码器-解码器模型,使用课程学习策略裁剪、缩放、H.264压缩
[65]视频帧多位ShCNN使用基于IIHBO的ShCNN进行视频对象水印噪声攻击
[35]视频帧多位CNN使用开发的SCBSA训练深度CNN进行区域选择脉冲噪声、高斯噪声、椒盐噪声
[91]视频帧多位 128×128CNN将时间维度集成到通道维度中,供深度神经网络使用H.264帧丢弃、帧交换、随机裁剪、高斯模糊、随机色调

尽管本研究中引用的许多论文采用各种嵌入技术,但不可能明确确定视频水印过程的最优解决方案。值得注意的是,某些研究表明,将视频帧视为图像并采用传统数字图像水印方法进行嵌入可能是一种选择。然而,这种方法阻碍了神经网络获取有价值的视频特定特征的能力,从而在有效对抗专门针对视频的失真方面带来挑战。

图11比较了基于深度学习的现有视频水印技术的视觉质量,依赖PSNR值。我们可以观察到这些值接近,范围大约在34到44 dB之间。这些值证明了这些水印技术保证的不可见性。

[图11:基于深度学习的视频水印现有技术不可见性比较图]

总之,基于深度学习的视频水印方法在多个方面超越了传统方法。这些好处包括水印的实质容量和不可感知性、对不同攻击的弹性、跨不同视频格式和分辨率的多功能性,以及在解决与视频水印相关的挑战(如运动和压缩伪影)方面的熟练程度。

尽管本研究中引用的许多论文采用各种嵌入技术,但不可能明确确定视频水印过程的最优解决方案。值得注意的是,某些研究表明,将视频帧视为图像并采用传统数字图像水印方法进行嵌入可能是一种选择。然而,这种方法阻碍了神经网络获取有价值的视频特定特征的能力,从而在有效对抗专门针对视频的失真方面带来挑战。

6. 讨论和未来研究建议

基于深度学习的水印是一个最新且不断发展的研究领域。如本综述所示,现有工作都集中在图像水印上,但使用深度学习进行视频水印还有许多其他重要应用。据我们所知,尽管为视频提出了大量传统水印技术,但本综述中描述的基于深度学习的视频水印技术是仅有的几种。实际上,视频内容继续呈现额外的挑战,如时间连贯性,这是固定图像无法解决的空间位置。此外,视频压缩是不可微分的,很难将其集成到深度神经网络训练框架中。此外,在保持时间连贯性和感知质量的同时,可视化使用视频中时间相关性的鲁棒模型并不容易。因此,对于视频,基于深度学习的水印仍处于早期阶段。然而,鉴于保护视频的迫切需求以及深度学习网络可以提供的不可见性和鲁棒性效率,我们期望上述挑战将成为广泛研究的焦点,这将占用未来几年大部分学者的时间。

基于本文中呈现的现状,我们注意到CNN和GAN是图像和视频水印最常用的架构。这两种架构呈现不同的挑战。实际上,CNN模型在水印系统中遇到的困难概述如下:

• 由于最大池化等操作,CNN模型经历了增加的延迟。 • 由于网络参数配置错误,有时可能产生更长的训练时间。 • CNN模型的训练和处理需要更大的数据集。 • CNN网络的复杂性有时可能导致过拟合或欠拟合等问题。 • 将CNN模型应用于涉及处理多个帧和时间依赖性的视频水印可能是耗时且资源密集的。

关于GAN模型,面临的挑战如下:

• 生成器和判别器网络之间的差异导致过拟合。 • 网络参数的振荡和不稳定阻止收敛。 • 在某些情况下,判别器变得过于熟练,导致生成器梯度消失和缺乏学习。 • 生成器网络有时会卡住,导致样本的有限变化。

然而,许多其他高效的深度学习架构已为其他应用(如分类和识别)开发,我们建议在水印方案中探索它们。例如,RNN(递归神经网络)已用于视频内容的许多任务,可以为视频水印提供良好结果。

此外,研究结果表明,基于变换域的水印技术比基于空间域的方法表现出更大的弹性。因此,建议在同一图像水印方案中结合多个频率域以实现增强安全性。此外,为了降低模型训练的复杂性,广泛采用预训练模型,引起了模型覆盖和代理模型攻击等挑战。实际上,预训练模型是已在大型数据集上训练的深度学习模型,可以用作各种任务的起点,而无需从头开始训练,如YOLO模型。

此外,由于文献中已经提出了许多鲁棒且不可见的基于深度学习的图像水印技术,我们可以通过将它们适应视频水印来从其优势中受益。实际上,可以通过允许返回原始视频的可逆方案(如马赛克生成和Krawtchouk矩阵生成)轻松从视频生成图像。通过使用可逆算法将视频转换为图像,我们可以将图像水印应用于获得的图像以将签名嵌入视频。

注意,一些提出的基于深度学习的视频水印技术的问题是它们没有专注于测试方法对恶意攻击(如共谋(类型I和II))的鲁棒性,这些是非常危险的攻击,在开发视频水印技术时应该考虑。

7. 结论

本综述论文概述了水印中使用的深度学习技术,并应用于图像和视频。首先介绍了水印术语,并根据嵌入域对传统图像和视频水印技术进行了分类。然后,根据网络架构对基于深度学习的图像水印进行了分类和比较。该综述还比较了最近提出的四种现有基于深度学习的视频水印。最后,本文为基于深度学习的视频水印领域的未来研究提供了可能的建议。这是一个有前景的近期研究领域,有可能彻底改变视频通信的保护和安全性。总之,我们可以确认,基于深度学习的水印方法将大大超越所有媒体中任何传统水印技术的能力,并大大增强数字信息安全性。


参考文献:

Ben Jabra S, Ben Farah M. Deep learning-based watermarking techniques challenges: a review of current and future trends[J]. Circuits, Systems, and Signal Processing, 2024, 43(7): 4339-4368.

文中的引用同这篇文献中一致,下载下来即可

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

智算菩萨

欢迎阅读最新融合AI编程内容

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值