【Unconditional Latent Diffusion Models Memorize Patient Imaging Data】论文解读(扩散模型用来生成医学图像的效果)

论文链接:Unconditional Latent Diffusion Models Memorize Patient Imaging Data: Implications for Openly Sharing Synthetic Data

结论

先说这篇论文的结论,一共在三个数据集上(MRNet,PCCTA,X 射线数据),使用两个模型(MedDiff ,MONAI)进行实验:
首先看一张论文中的结果图,表明候选副本与相应的真实样本具有很高的相似性,说明了使用扩散模型生成医学图像还有很大的问题。

  • 问题一:生成图像和原图相似性很高
  • 问题二:生成图像会模糊
  • 问题三:生成的图像细节部分会过度平滑
  • 问题四:大量训练会过拟合
  • 问题五:需要大量训练数据

论文讨论了3中方法来解决这些问题,但效果并不理想。
在这里插入图片描述
图6:x射线数据集中检测到的真实(real)和副本(MONAI-2D)的代表性横截面。候选副本与相应的真实样本具有很高的相似性。在部分视场覆盖的情况下,网络甚至倾向于复制图像的确切位置。

摘要

AI 模型在医学领域有广泛的应用。然而,要实现最佳性能,需要访问大量医疗保健数据,而这些数据通常并不容易获得。此外,保护患者隐私的必要性限制了患者数据与第三方甚至机构内部的共享。最近,生成式 AI 模型通过提出合成数据作为真实患者数据的替代品,在促进开放数据共享方面获得了越来越多的关注。尽管前景光明,但这些模型容易受到患者数据记忆的影响,即模型生成患者数据副本而不是新的合成样本。这破坏了保护患者数据隐私的整个目的,甚至可能导致患者重新识别。考虑到这个问题的重要性,令人惊讶的是,它在医学成像界受到的关注相对较少。为此,我们评估了无条件潜伏扩散模型中的记忆,这是一些最先进的生成式 AI 模型的基石。我们在 CT、MR 和 X 射线数据集上训练 2D 和 3D 潜伏扩散模型以生成合成数据。之后,我们利用自监督方法检测记忆的训练数据量,并进一步研究在不同环境下训练模型时可能影响记忆的各种因素。我们的研究结果显示,所有数据集中患者数据的记忆程度都出奇地高,在我们的实验中,平均约有 40.9% 的患者数据被记忆,78.5% 的合成样本被识别为患者数据副本。进一步的分析表明,在训练期间使用增强策略可以减少记忆,而过度训练模型可以增强记忆。虽然增加数据集大小不会减少记忆,甚至可能增强记忆,但它确实降低了合成样本成为患者数据副本的概率。总的来说,我们的结果强调了在私人医学成像数据集上仔细训练生成模型的重要性,并在将合成数据共享用于医学研究和应用之前检查合成数据以确保患者隐私。

介绍

人工智能 (AI) 的最新发展有可能改变当前的医疗保健系统。AI 模型通常需要大量数据,因此医疗保健数据必须与当代 AI 模型一起扩展。
虽然可以通过在多个成像站点和研究中心之间共享患者数据来缓解这一问题,但对患者隐私的担忧使其变得不可行。生成深度扩散概率模型的现代发展已导致各种医学成像应用的性能水平显着提高 [1、2、3、4],其中一个值得注意的应用是开放数据共享 [5、6、7、8、9]。在开放数据共享中,生成模型首先接受训练以从私人医学成像数据集中学习数据分布。之后,这些生成模型用于生成合成样本,由于这些合成样本不属于任何特定患者,因此可以在不损害患者隐私的情况下公开共享它们(图 1)。事实上,最近有几项研究已经在私有/受限访问/受限数据集上训练了生成模型,并公开了合成数据 [5] 或训练过的生成模型 [10, 11]

尽管生成模型具有开放数据共享的潜力,但一个基本假设是生成的样本是新颖的,而不仅仅是患者数据的副本。这一点至关重要,因为使用合成数据替代真实患者数据的主要动机是保护患者隐私,而合成患者数据副本则违背了这一目标。合成副本甚至可以追溯到原始患者,从而导致患者重新识别 [12]。鉴于患者医疗数据的敏感性,令人惊讶的是,很少有人关注此类模型对记忆训练数据和有效检测这些记忆训练样本的威胁。

在训练数据中检测记忆样本可能具有挑战性。确定样本是否被记忆需要将其与所有合成样本进行比较,这在计算复杂度和检测性能方面都不是最优的。例如,如果合成样本是训练样本的略微旋转的副本,它们的像素差异仍然可能很大,并且患者数据副本可能无法检测到。为此,可以通过基于对比学习训练的自监督模型执行复制检测。在这样的模型中,复制检测是在低维嵌入空间中执行的,这使得整个过程在计算上是高效的,并且进一步能够在合成样本中检测出变体的副本,例如训练样本的旋转版本。这种模型已被证明可用于 2D X 射线图像中的患者重新识别和复制检测 [12, 13]。然而,这种在 3D 医学图像中的应用尚未得到证实。

在训练生成模型时,重点通常放在改进验证错误或量化图像质量 [14] 或多样性 [15] 的指标上,而不考虑此类模型的记忆能力。尽管它们被广泛使用,但常用的指标具有固有的局限性 [16],并且没有提供有关患者数据记忆的直接信息。同样,验证损失本身仅提供有关模型训练的辅助信息,甚至可以与数据记忆呈负相关 [17]。这也使得确定适当的训练步骤数量变得具有挑战性。事实上,过度训练是可能影响记忆的几个因素之一,训练数据大小和数据增强等其他因素也会对记忆产生影响 [18, 19]。因此,探索记忆知情的模型训练和指标至关重要 [16]。
在这里,我们彻底研究了用于医学成像的无条件潜伏扩散模型 (LDM) 中的记忆。

LDM 在自动编码器的低维潜在空间中学习数据生成,这使得它们在保持高图像质量的同时具有计算效率。[20]。了解无条件 LDM 中的记忆非常重要,因为它们构成了高级多模态和条件生成 AI 工具的基础,例如稳定扩散,这些工具通常采用预先训练的无条件 LDM 或与无条件 LDM 进行混合训练 [20, 21]。我们在医学图像上训练无条件 LDM 以学习数据分布并使用自监督模型在合成样本中执行患者数据复制检测。作为理解无条件扩散模型中记忆的一种手段,我们提出了以下关于医学图像合成 LDM 中记忆的问题:

普遍性:记忆在 2D 和 3D LDM 中是否同样普遍,以及在具有不同属性(例如器官、尺寸、分辨率、视野、对比度和模态)的医学图像中是否同样普遍? (第 2.2 节)
高效检测:如何高效检测患者数据记忆?(第 2.3 节)
训练数据大小的影响:记忆如何受到训练数据大小的影响?(第 2.4.1 节)
记忆作为指标:记忆是否可以用作训练期间评估生成模型的指标?
(第 2.4.2 节)
与传统指标的比较:是否可以建立记忆与评估生成模型的传统指标之间的联系?(第 2.4.2 节)
通过数据增强缓解:在模型训练期间,可以通过数据增强缓解数据记忆?(第 2.4.3 节)

实验设置

数据集: 我们通过对三个医学成像数据集进行分析,对无条件潜伏扩散模型 (LDM) 中的记忆进行了全面评估,这些数据集涵盖了一系列模态、器官、图像分辨率、视野和空间维度。我们对来自公开的膝关节 MRI 数据集 (MRNet) [22] 的 3D 体积、来自内部光子计数冠状动脉计算机断层扫描血管造影数据集 (PCCTA) 的斑块周围 3D 子体积以及来自公开的 X 射线数据集 [23] 的 2D 图像进行了实验。在 MRNet 数据集中,904 个体积用于训练,226 个用于验证。在 PCCTA 数据集中,242 个体积用于训练,58 个用于验证。在 X 射线数据集中,保留 10k 张图像用于训练,10k 张用于验证。

生成模型 对于 3D 数据集,采用基于医学传播 (MedDiff) [24] 和人工智能医学开放网络 (MONAI) [25] 的 LDM。对于 X 射线数据集,采用基于人工智能医学开放网络 (MONAI-2D) 的 LDM。在所有数据集上分别训练 LDM。之后,使用每个模型合成新样本。然后使用自监督模型将这些合成样本分类为新样本或副本(详情请参阅第 4.2 节)。我们选择 MedDiff 和 MONAI,因为它们基于一些最广泛使用的基于 LDM 的医学图像合成存储库。记忆 我们考虑了记忆的两个方面。首先,我们评估记忆的训练样本的数量。这构成了在合成样本 (Nmem) 中合成为患者数据副本的训练样本数量。其次,我们查看作为患者数据副本的合成样本的数量 (Ncopies)。Ncopies 始终大于或等于 Nmem,因为患者数据副本可以在合成数据中重复多次。

在这里插入图片描述
图 2:直方图显示了 a) PCCTA、b) MRNet 和 c) X 射线数据集中最近的训练-验证对和训练-合成对之间的 Pearson 相关值分布。所有训练、验证和合成样本都使用自监督模型投影到嵌入空间。对于每个训练嵌入,从表示为“验证”的验证数据、表示为“MONAI”的 MONAI 合成数据、表示为“MedDiff”的 MedDiff 合成数据和表示为“MONAI-2D”的 2D MONAI 合成数据中选择最近的嵌入。之后,根据每个数据集中“验证”中相关值的第 95 个百分位数选择 τ,并将相关值大于 τ 的合成样本归类为副本。

理论上,完美学习数据分布的模型生成患者数据副本的概率始终不为零。因此,具有无限数量生成样本的合成数据集最终将包含所有训练样本。因此,关键问题是确定模型生成患者数据副本的频率。为了回答这个问题,我们合成了有限数量的样本(Nsyn),将其设置为等于训练数据大小(Ntrain)。在每个数据集上训练的 LDM 用于合成新图像。之后,使用自监督模型在合成样本中检测训练样本的潜在副本。这些自监督模型首先将训练、验证和合成数据投影到较低维嵌入空间上。这种投影使复制检测过程在计算上高效,并进一步使我们能够检测不仅与训练样本相同而且是真实样本的变体(例如翻转、旋转和对比度的轻微变化)的副本。接下来,计算所有训练-验证和训练-合成嵌入对之间反映相似度的 Pearson 相关系数。之后,为每个训练嵌入选择最接近的验证和合成嵌入。图 2 显示了 MedDiff 和 MONAI 中训练和最近验证嵌入(ρNN-val)之间以及训练和最近合成嵌入(ρNN-syn)之间的相关值分布。在所有数据集和模型中,与 ρNN-val 值相比,ρNN-syn 值向右移动更多,这意味着合成样本与训练数据的相似度更高。

接下来,我们根据相关阈值 τ 量化了模型记忆的训练样本数量 (Nmem) 和合成样本的副本数量 (Ncopies)(有关详细信息,请参阅第 4.2.2 节)。

图 3 报告了这些数字。在 PCCTA 数据集中,(43.8, 40.5) % 的训练数据被记忆在 (MedDiff,MONAI) 中,(91.7, 83.1) % 的合成生成样本被识别为 (MedDiff,MONAI) 中的患者数据副本。

图 4 显示了在 MedDiff 和 MONAI 中检测到的副本以及最接近的训练样本。在包含低维 3D 补丁的 PCCTA 数据集中,大多数细节都保留在记忆的样本中,就质量而言,MedDiff 和 MONAI 都生成了质量相似的图像。在 MRNet 数据集中,(40.2, 47.6) % 的训练数据被记忆在 (MedDiff, MONAI) 中,(76.1, 87.2) % 的合成生成样本被识别为 (MedDiff, MONAI) 中的患者数据副本。

图 5 显示了在 MedDiff 和 MONAI 中检测到的副本以及最接近的训练样本。在包含完整 3D 体积的 MRNet 数据集中,大部分全局结构都得到了保留,尽管 MedDiff 和 MONAI 之间的精细结构细节存在显着差异。MedDiff 合成的图像噪声很大,无法捕捉低级结构细节(补充图 S1)。

另一方面,MONAI 合成的图像噪声水平较低,但略显模糊(补充图 S1)。在 MRNet 中,虽然两个网络都生成了患者数据副本,但两个模型都无法生成细小的结构细节。在 2D X 射线数据集中,32.6% 的训练数据被记忆,54.5% 的合成样本是 MONAI-2D 中的患者数据副本。

图 6 显示了最接近的训练样本旁边的副本。合成样本与训练样本非常相似。总体而言,我们观察到 2D 和 3D 模型中患者数据都被记忆了很高的水平。此外,很大一部分合成样本是患者数据副本,尤其是在 3D 模型中。

影响记忆的因素

接下来,我们调查了可能影响记忆的因素。为此,我们考虑了三个不同的方面,包括训练数据大小、训练迭代和数据扩充。

训练数据大小的影响

在这里插入图片描述

深度神经网络在小数据集上训练时容易过度拟合。虽然过度拟合和记忆是不同的概念,但过度拟合会导致记忆。LDM 通过逐步去噪来学习数据生成,这是一个具有无限多解决方案的固有不适定问题。在小数据集上训练 LDM 会使模型过度拟合解决方案,从而产生去噪的训练图像。这反过来可以增加随机生成更多训练样本的可能性。为了探索这种现象,我们研究了训练数据大小 (Ntrain) 对 X 射线数据集中记忆的影响,主要原因是它是一个大型数据集,为我们提供了选择不同数量训练样本的自由。我们比较了针对 Ntrain = (5k, 10k, 20k) 图像训练的 LDM,分别表示为 (Gθ,5k, Gθ,10k, Gθ,20k)。我们将这三个模型的 epoch 数保持在 3k,以确保每个模型遇到每个训练样本的次数相同。自监督模型在 20k 张训练图像上进行训练。图 7 显示了被记忆的训练样本百分比和作为患者数据副本的合成样本百分比。(54.7, 33.2, 17.7)% 的训练样本被记忆在 (Gθ,5k, Gθ,10k, Gθ,20k) 中,(68.6, 51.4, 39.9)% 的合成样本是 (Gθ,5k, Gθ,10k, Gθ,20k) 中的副本。补充图 S2 还显示了训练样本和最近的合成样本的相关值之间的分布以及相应的平均值。增加训练集大小会降低记忆的训练数据样本的百分比。然而,令人惊讶的是,随着训练样本数量 (Ntrain) 的增加,记忆的训练样本数量 (Nmem) 略有增加,在 (Gθ,5k, Gθ,10k, Gθ,20k) 中,Nmem 等于 (2.7k, 3.3k, 3.5k)。

更有趣的是,作为患者数据副本的合成样本数量 (Ncopies) 与 Ntrain 呈负相关。这表明,尽管对于在较大数据量上训练的模型,记忆样本的数量不会减少,甚至可能会增加,但随着训练数据量的增加,在合成样本中观察到患者数据副本的概率会降低。

记忆作为衡量标准

LDM 的一个很少受到关注的方面是用于训练的迭代次数或时期数,大多数研究只是报告一个数字而没有进行彻底的评估。过度训练网络会使网络在去噪时过度拟合训练数据,并可能导致在渐进去噪过程中更频繁地生成训练样本。这可以增强记忆 [13]。为了研究训练时期/迭代对 LDM 记忆的影响,我们计算了记忆的训练样本数量 (Nmem) 与训练迭代的关系。图 8c 显示了检测到的 Nmem 与训练迭代 (Niterations) 的关系。在所有数据集中,Nmem 都随着训练迭代而增加,这表明过度训练模型可以增强记忆。
在这里插入图片描述

除了 Nmem 和 Niterations 之间的关系之外,我们还对评估它们与传统用于评估或训练生成模型的指标之间的关系感兴趣。为此,我们还计算了 Fréchet 初始距离 (FID) [14],它测量合成样本的质量,以及多尺度结构相似性指数测量 (MS-SSIM) [15],它量化合成样本之间的多样性作为 Niterations 的函数。较低的 FID 表示高质量,较低的 MS-SSIM 表示高多样性。理想情况下,我们预计 FID 会降低然后收敛到某一点。然而,在 3D 数据集中,FID 对这两个模型都没有遵循固定的模式(图 8a),并且在 Niterations 之间显示出很大的差异。这令人担忧,因为 FID 可能是评估图像质量和将数据生成能力与其他模型进行比较的最广泛使用的指标之一。在 2D X 射线数据集中,
FID 下降到 33k 次迭代,然后开始振荡。这表明图像质量在特定次数的迭代后达到饱和。在所有数据集中,MS-SSIM 没有显示出一致的趋势(图 8b)。理想情况下,MS-SSIM 应该很低,表示多样性高。然而,有一点需要考虑,MS-SSIM 只量化多样性,不提供任何有关图像质量的信息。事实上,产生随机噪声的模型可以具有非常高的多样性。总之,我们的结果表明,用于量化合成样本质量和多样性的传统措施可能会产生误导,记忆是训练生成模型时应该考虑的一个方面,也许可以使用混合度量来训练开放数据共享的模型 [16]。

通过数据增强进行缓解

数据增强是一种广泛使用的技术,它通过补充训练样本的变化来人为地扩展训练数据集的大小。这通常会增强深度神经网络的通用性,从而可能减少 LDM 中的记忆 [18]。在这里,我们还通过在通过增强技术(MedDiffAug、MONAIAug)获得的扩展数据集上训练模型来评估 LDM 中的记忆。在每个时期,所有训练样本都以 50% 的概率进行翻转和旋转(沿所有轴在 -5° 到 5° 之间)。图 3 比较了使用和不使用数据增强训练的模型中的百分比 Nmem 和 Ncopies。

在 PCCTA 数据集中,(40.1, 36.0) % 的训练数据被记忆在 (MedDiffAug, MONAIAug) 中,(72.7,76.3) % 的合成生成样本被识别为 (MedDiffAug, MONAIAug) 中的患者数据副本。这表明两种模型的记忆量都有所下降。图 S3 显示了在 MedDiffAug 和MONAIAug 中检测到的副本以及最接近的训练样本。复制检测方法能够捕获同样是训练样本变体的副本。在卷 1 中,合成样本是训练样本的翻转版本,在卷 3 中,MedDiffAug 合成样本被翻转,MONAIAug 合成样本是训练样本的旋转版本。

在 MRNet 数据集中,(27.7, 27.1) % 的训练数据被记忆在 (MedDiffAug, MONAIAug) 中,(36.0,61.5) % 的合成生成样本被识别为 (MedDiffAug, MONAIAug) 中的患者数据副本。我们还观察到 MRNet 数据集中的记忆减少。图 S4 显示了在 MedDiffAug 和 MONAIAug 中检测到的副本以及最接近的训练样本。复制检测管道能够检测到副本。在 MRNet 中,通过 MedDiffAug 生成的样本非常差(补充图 S1)。虽然它们在整体上与相应的训练图像相似,但它们无法生成高质量的图像。MONAIAug 能够保留图像质量,但是,与未进行增强训练的模型类似,我们观察到合成图像中出现了轻微的模糊

在 2D X 射线数据集中,5.6% 的训练样本被记忆,7.3% 的合成样本是副本。与训练集明显较小的 3D 模型相比,这表明记忆量大幅减少。图 S5 显示了一些选定的副本。仔细检查副本后发现,患者数据副本不仅仅是原始患者图像的增强版本。这些副本还包含一些显着的微小结构变化。一种可能的解释是,此类模型在遇到训练样本的不同变化时具有很好的泛化能力,这种人工扩展使它们能够生成与训练样本不完全相同的样本,而是同一样本不同变化的插值。
另一种解释可能与此类模型的训练方式有关。LDM 经过训练可以执行去噪。在增强的情况下,模型会多次遇到每个训练样本的变体,并且模型不会找到产生去噪训练图像的解决方案,而是会收敛到基于最小化所有变体的训练误差的解决方案。这反过来会生成与训练样本或其变体不相同的图像,而是一个作为所有变体平均值的解决方案。

这可能会导致小结构被移除或模糊。例如,如果我们仔细观察样本 2、3、8 和 9(图 S5 绿色标记),我们可以看到训练样本中存在类似于电线的结构,但在副本中缺失。此外,在样本 1、2、4、5、6、8 和 10(图 S5 红色标记)中,右上角的字符“L”在副本中被模糊了。

讨论

我们在涵盖各种器官、分辨率、视野、对比度和模态的不同数据集上获得的结果表明,此类模型容易出现患者数据记忆。此外,我们的自监督模型能够以合理的性能水平识别合成图像中的副本。额外的补充分析指出了几个可能对记忆产生影响的因素。添加数据增强操作会减少记忆,而过度训练会增强记忆。增加训练数据大小会略微增加记忆样本的数量,但是,它降低了合成样本是患者数据副本的概率。这些结果表明,通过仔细训练可以在一定程度上减轻记忆。

迄今为止,只有少数研究调查了医学成像中的患者数据记忆 [13, 18, 26]。Akbar 等人 [26] 评估了 2D 扩散模型中的记忆,并观察到合成和真实训练样本之间的像素相关性高于真实测试和训练样本。在我们之前的工作 [18] 中,我们对 3D 成像数据集进行了实验,并利用对比学习在低维潜在空间中的合成样本中检测患者数据副本。在另一项先前的调查中,我们发现过度训练可以增强记忆 [13]。与以前的研究相比,我们对不同数据集中的记忆进行了更彻底的评估,进一步提出了一种检测记忆训练样本的方法,并调查了不同数据集中的根本原因,这有助于减轻记忆。

有人认为,只需跟踪验证误差并避免过度拟合,就可以减轻记忆的影响。
然而,这假设了过度拟合和记忆之间的等价性。虽然这两个术语有时可能相关,但这种分类是不准确的[17]。过度拟合是一种全球现象,其中模型在训练数据上获得非常高的准确度,通常以牺牲测试数据准确度为代价。另一方面,记忆对应于为训练数据点分配非常高的可能性。事实上,即使验证损失减少,模型的记忆也可以得到增强,特别是在训练的早期阶段,记忆可能会增加,但测试损失可能会减少[17]。

我们的结果表明了记忆的关键因素。另一种研究途径可能是设计有效的隐私保护生成模型。对于隐私保护的开放数据共享,

Fernandez等人[27]提出了一种两步方法。第一步,在真实数据上训练一个扩散模型,并将合成样本细化为仅包含新样本。然后利用这些精炼样本训练新模型,以合成全新的数据。虽然这种方法减少了记忆,但第二个模型在精炼合成数据上训练的合成样本的质量可能会受到影响。减轻记忆的其他潜在方法可以是使用差分隐私扩散模型 [28, 29] 或优化模型容量 [30]。

扩散模型中的患者数据记忆对生成式 AI 在医学中的应用具有广泛的意义。在开放数据共享中,患者可能不愿意公开他们的数据,这也是生成模型首先用于开放数据共享的核心原因之一。顺便说一句,共享患者数据副本违背了整个目的。此外,合成图像中的患者数据副本也可能被追溯到原始患者,从而导致患者重新识别。Packhäuser 等人 [12] 能够识别出同一患者在不同时间获得的两张 X 射线图像,即使患者的病情发生了变化。使用这种方法,攻击者可以使用部分可用的患者信息在假定的新合成数据中恢复患者数据副本并恢复敏感的临床信息。生成模型的另一个突出应用是数据扩展多样化 [1]。在数据扩展和多样化方面,生成模型经过训练可以合成新数据,并使用合成数据补充训练数据,以供数据饥渴的 AI 模型使用。我们观察到,合成数据中很大一部分是患者数据副本,尤其是在 3D 数据集中。这也使生成模型的数据多样化和扩展应用受到质疑。

方法

Latent Diffusion Models

在这里插入图片描述

记忆评估

尽管潜在扩散模型能够生成高质量且逼真的样本,但此类模型对记忆患者数据并合成数据的亲和力却很少受到关注 [13, 18, 26]。Akbar 等人 [26] 将记忆定义为生成模型合成患者数据副本的现象,并将副本定义为与训练样本相同的合成样本。Dar 等人 [18] 进一步扩展了副本的定义,进一步包括旋转、翻转和对比度细微变化等变化。在这里,我们坚持这个扩展的定义,并从 Fernandez 等人那里汲取灵感。
[27] 我们正式定义记忆如下:
如果 l(x, υ(ˆx)) ≥ τ ,则训练数据样本 x 被视为由生成模型 Gθ 记忆的 (l, ρ) − ,其中 xˆ是使用采样算法 A 从 Gθ 中提取的样本,υ 对应于微小的变化,例如旋转、翻转和对比度的轻微变化,l 是样本之间的相似性,τ 是阈值水平。在这种情况下,ˆx 被定义为 x 的副本。

在这里插入图片描述

对比学习

检测患者数据副本的一种简单方法是将每个合成样本与所有训练样本进行比较,并选择相似度大于阈值 τ 的样本作为副本。然而,这种方法计算效率低,不适合检测患者图像变体的副本。因此,我们利用自监督模型 (SSθ) 将图像投影到低维嵌入空间,并使用对比学习方法 [32] 使每个训练样本更接近其变体并远离其他样本(图 10)。这种方法背后的原理是副本会更接近训练样本,而新样本会更远。该模型的细节在 S1.1 节中提到。

复制检测

对于患者数据副本的检测,首先利用 SSθ 获得所有训练、验证和合成样本的嵌入。接下来,计算所有训练-验证嵌入 (ρtr-val) 和训练-合成嵌入 (ρtr-syn) 对之间的 Pearson 相关系数。之后,对于每个训练嵌入,选择最接近的验证嵌入以形成其相关值分布 (ρNN-val)。然后将阈值 (τ) 定义为 ρNN-val 的第 95 个百分位数。最后,对于每个训练嵌入,选择最接近的合成嵌入 (ρNN-syn),并将 ρNN-syn 大于 τ 的训练样本归类为记忆样本。算法 S1 通过伪代码演示了复制检测过程。

Training and Evaluation Procedures

对于 3D 数据集,我们考虑了两种模型(MedDiff [24] 和 MONAI[25])。我们之所以选择这些模型,是因为它们是使用潜在扩散模型进行医学图像合成的最广泛使用的存储库。MedDiff 的训练程序、网络架构和超参数取自 Khader 等人的 [24](https://github.com/FirasGit/medicaldiffusion),而 MONAI 的训练程序、网络架构和超参数取自 Pinaya 等人的在线存储库 [25](https://github.com/ProjectMONAI/tutorials/blob/main/generative/3d_ldm/config/config_train_32g.json)。唯一的例外是模型的批量大小,自动编码器的批量大小修改为 8,扩散模型的批量大小修改为 20。 MedDiff 由一个矢量量化生成对抗网络 (VQ-GAN) 组成,其中 3D 卷积作为自动编码器;MONAI 由一个变分自动编码器 (VAE) 组成,其中 3D 卷积作为自动编码器。所有 3D-LDM 都经过 150k 次迭代训练,MedDiff 中的采样时间步数设置为 300,MONAI 中的采样时间步数设置为 1000。对于 2D X 射线数据集,训练程序、网络架构和超参数均采用基于 MONAI 框架 [25] 构建的在线存储库 (https://github.com/Warvito/generative_chestxray),称为 MONAI-2D。MONAI-2D 由 VAE 组成,其中 2D 卷积作为自动编码器。除非另有说明,所有 2D-LDM 都经过 20 万次迭代训练,采样时间步数设置为 1000

在 3D 自监督模型中,编码器的架构是从 MedDiff 中的 VQ-VAE 编码器修改而来的。该网络用于将输入维度减少到 4^3和 8 通道,然后进行平坦化并使用密集层将维度减少到 32 × 1 向量。训练程序采用 Dar 等人的 [18] 在 2D 自监督模型中,该模型采用 Packhäuser 等人的 [12],在架构上进行了微小修改。最后一个分类层被替换为具有 128 × 1 维度的密集层作为输出。训练程序采用 Dar 等人的 [13]。

在所有合成数据集中,FID 和 MS-SSIM 均采用 MONAI 存储库(https://github.com/
Project-MONAI/GenerativeModels/tree/main/generative/metrics)。在 3D 数据集中,FID 是在从整个数据集中提取的特征之间计算的。使用 Chen 等人 [33] 改编的预训练模型提取 FID 计算的特征。在 2D 数据集中,FID 以批次大小为 256 的批次计算,然后取平均值。使用 Cohen 等人 [34] 改编的预训练模型提取 FID 计算的特征。报告的平均 MS-SSIM 值是通过计算每个合成样本和随机选择的合成样本之间的 MS-SSIM 值并取平均值来计算的。

PCCTA 数据是在曼海姆大学医院的西门子 Naeotom Alpha 扫描仪上采集的。海德堡大学伦理委员会 II (ID 2021-659) 批准了伦理。在 PCCTA 数据集中,裁剪了冠状动脉斑块周围大小为 643 的子体积。在 MRNet 数据集中,所有体积均被裁剪或补零,大小为 2562x32。在 X 射线数据集中,所有图像均被采样为 5122的大小。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值