【论文阅读】MOHGCN: A trustworthy multi-omics data integration framework based on specificity-aware hetero

代码地址:https: //github.com/ubuntu1024/MOHGCN


摘要

随着前沿测序方法的不断进步,多组学数据的整合为研究者从分子层面研究复杂疾病提供了宝贵机遇,但同时也面临着在计算机辅助诊断等安全关键型应用部署上的挑战。然而,现有的多组学数据整合方法主要集中在组学之间或样本之间的交互,忽视了特定疾病相关的生物分子之间的高阶交互信息。

在本研究中,我们提出了一种基于“特异性感知异质图卷积神经网络”的可信多组学数据整合框架 MOHGCN,旨在最大化利用特定疾病患者中的生物分子交互关系,实现精准诊断并提升模型的可信度。

在方法设计上,我们构建了样本与基因的异质图,并针对样本—基因异质图设计了专门的 HGCN 图卷积模型。同时,引入了可信注意力权重和自注意力机制,以揭示不同组学之间的关系,从而促进多组学数据的高效整合。

通过在四个公开可用的多组学医学数据集上进行全面实验,我们提出的框架在多种分类任务中始终表现出更优的性能。同时,实验结果也验证了该模型在多组学数据特征提取以及揭示不同组学间潜在关联方面的有效性。

引言

多组学数据在复杂疾病研究中具有重要价值,为研究者在分子层面深入理解这些疾病提供了宝贵见解 (Boehm, Khosravi, Vanguri, Gao, & Shah, 2022; Rhodes, Sweatt, & Maron, 2022)。跨不同组学类型的数据整合对于阐释致病机制、推动精准诊断与治疗至关重要 (He, Liu, Zuo, Shi, & Jing, 2023; Jiang et al., 2022; Pérez-Villa et al., 2023)。计算技术在计算机辅助诊断等领域的成功应用进一步凸显了其在处理与分析复杂数据集中的优势 (Borlea, Precup, & Borlea, 2022; Ciecholewski, 2011),也强调了其在多组学数据整合以实现精准疾病诊断中的潜力,这已成为当前研究的重点方向之一 (Ma et al., 2020; Yang & Wu, 2021)。然而,尽管生物医学不断进步,现有的多组学数据分类方法依然受到高维度、噪声及有限样本量的挑战。这些局限性对安全关键型应用(如计算机辅助诊断)的部署造成了重大阻碍。因此,构建一个可靠的多组学数据整合框架对于实际应用具有极其重要的意义。

在多组学数据整合框架方面,传统方法多采用简单拼接不同组学数据的方式 (Chang et al., 2018; Joshi, Rienks, Theofilatos, & Mayr, 2021; Lanckriet, De Bie, Cristianini, Jordan, & Noble, 2004; Ronen, Hayat, & Akalin, 2019; Tarazona, Arzalluz-Luque),然而此类方法仅注重数据的前向嵌入,忽略了不同组学数据间的相关性与冗余性,未能全面有效地捕获生物学过程。近年来,图神经网络 (GNNs) 的发展 (Gilmer, Schoenholz, Riley, Vinyals, & Dahl, 2017; Liu et al., 2021; Wu et al., 2020; Zhang, Tong, Xu, & Maciejewski, 2019),通过挖掘不同组学数据下样本之间的复杂交互关系,为多组学数据整合提供了新的视角 (Wang et al., 2021; Zheng, Tang, Wan, Hu, & Zhang, 2023)。虽然这些方法取得了一定成果,但现有方法未能充分考虑特定疾病中真实存在的生物分子高阶交互信息。这一缺陷限制了模型在稳定性与可解释性上的表现。事实上,特定疾病下生物分子间的交互往往能够更好地反映患者的分子机制,从而增强模型的可信度 (Wu, Zhou, Mu, & Hu, 2022)。因此,有必要对特定疾病下的生物分子交互关系进行重构,并将其引入多组学数据学习过程中。

在本研究中,我们提出了一个基于 特异性感知异质图卷积神经网络 的可信多组学数据整合框架 MOHGCN,用于疾病诊断。该框架不仅建模了特定疾病下跨组学的生物分子交互关系,还探索了不同组学间的潜在联系,以促进多组学数据的高效整合。具体而言,我们构建了描述样本与不同组学生物分子交互的异质图,并针对不同组学设计了 特异性感知异质图卷积网络 (HGCNs),用于提取样本特征。随后,引入了一种 可信注意力权重机制,通过将各组学的决策过程与真实标签对齐,提升特征提取的可信度。最后,利用 多头自注意力机制 深入挖掘来自不同组学特征之间的潜在关系,实现多组学数据的高效整合。

本研究的主要贡献总结如下:

  1. 提出了一种可信的多组学数据整合框架 MOHGCN,充分考虑了特定疾病中的样本—生物分子交互关系,并设计了新的 HGCN 卷积模块以提升模型的可解释性;

  2. 设计了一种基于自注意力机制与真实类别概率 (TCP) (Corbière, Thome, Bar-Hen, Cord, & Pérez, 2019) 的可信跨模态特征融合方法,充分挖掘不同组学间的相关性,提高模型的分类能力;

  3. 在四个真实世界的多组学医学数据集上进行了广泛实验,验证了所提出 MOHGCN 框架的有效性。

方法

3.1 MOHGCN 概述

在本研究中,我们提出了一个可信的多组学数据整合框架 MOHGCN,其核心基于 特异性感知异质图卷积神经网络,并专为疾病诊断设计,如图1所示。

为了有效利用样本与生物分子之间的关联关系,并深入挖掘不同组学类型中的特异性,MOHGCN 融合了多项关键技术,包括异质图特征提取、自适应分类置信度评估以及跨模态特征融合。该框架主要由以下四个步骤构成:

  1. 样本–基因交互的异质图构建
    针对样本及其生物学特征(如 mRNA/DNA 甲基化/miRNA),构建异质图。该图结构既包含样本自身的连接关系,也包括与相关基因的交互关系,从而促进特征的有效传播。

  2. 基于异质图卷积网络 (HGCN) 的组学特征提取
    利用异质图及对应组学特征,为每一种组学数据构建并训练异质图卷积网络 (HGCN)。在真实标签的监督下,每个 HGCN 能够更好地聚合该组学内部的样本信息,从而增强特征表征能力。

  3. 组学特征的置信度学习模块
    针对多组学数据异质性导致的特征不均衡问题,引入 自适应置信注意力加权技术。该方法基于 真实类别概率 (TCP) (Corbière et al., 2019),使每个组学的决策过程与真实标签对齐,从而提升模型分类结果的可信度。

  4. 跨模态注意力的多组学数据融合
    在第四步中,通过 多头自注意力机制 深入挖掘不同组学类型之间的潜在相关性。由此获得的注意力得分用于更新各组学的特征表示。最终,将不同组学的特征拼接,并输入至全连接神经网络,得到最终的类别预测结果。

3.2 异质图构建

在 MOHGCN 框架中,为每一种组学类型构建样本–基因异质图。已有研究表明,生物分子的功能性交互与疾病密切相关 (Lu et al., 2020)。异质图擅长捕捉组学数据的内在拓扑特征,能够提升对生物体系内分子交互的整体理解,从而为样本分类提供多角度的补充信息 (Nazem-Bokaee, Hom, Warden, Mathews, & Gueidan, 2021)。因此,我们针对样本及其相关基因(mRNA/DNA 甲基化/miRNA)构建了异质图,该图包含:样本之间的相似性网络、基因之间的共表达网络以及样本–基因的关联网络。该图结构设计保证了相似样本节点的邻近性,有助于样本类别区分。同时,它还允许样本不仅通过与相邻特征节点的自关联传播特征,还能通过相关基因进行特征传播。

形式化地,整个异质图记为:

G=(U,V,E)

其中,节点集包括两类:

  • 样本节点 U={u1,u2,…,un},其中 n表示样本数;

  • 基因节点 V={v1,v2,…,vk},其中 k表示某一特定基因类型(如 mRNA/DNA 甲基化/miRNA)的基因数。

边的集合为:

E={Eu−u,Eu−v,Ev−v},

分别表示样本–样本、样本–基因、基因–基因三类边。

在特征表示方面:

  • Xsam∈Rn×k表示样本节点的特征矩阵,其中 nnn 为样本数,kkk 为基因数;

  • Xfea∈Rk×n表示基因节点的特征矩阵。

三类边的构建过程如下:


(1) 样本–样本相似性网络构建

通过余弦相似度计算样本 i 与样本 j 的相似性:

其中,xi,xj∈Xsam 为样本 i与 j的特征向量,xi⋅xj表示向量内积,∥⋅∥2表示向量的二范数。得到相似度矩阵 A∈Rn×n 后,样本相似性网络的边矩阵 Mij定义为:

其中,ϵ为阈值参数,用于控制相似网络的边数量。其值主要由每个节点的平均边数 z 决定:

其中 I(⋅)为指示函数,n为样本总数。值得注意的是,样本相似性网络包含自环,当 z=1 时,不存在任意节点间的边。


(2) 基因共表达网络构建

采用 加权基因共表达网络分析 (WGCNA) (Langfelder & Horvath, 2008) 识别高度相关的基因模块。利用 R 语言的 “WGCNA” 包,以基因矩阵 Xfea为输入,计算基因间相关性:

其中,gi,gj∈Xfea 为基因 i,j的特征向量,giˉ,gjˉ为均值。

进一步利用邻接函数将基因相似矩阵转化为邻接矩阵:

其中,β 为幂指数超参数。为减少噪声与伪相关,将邻接矩阵转化为拓扑重叠矩阵 (TOM):

其中,u 为节点 i/j的所有邻居节点(不含自身)。最后,基因共表达网络的边矩阵 Tij定义为:

其中 λ 为控制边数量的阈值。


(3) 样本–基因关联网络构建

基于样本的基因表达值构建样本–基因网络。以样本表达矩阵 Xsam为输入,设定阈值控制边的存在:

其中 η为样本–基因边的阈值参数。


(4) 异质图的邻接矩阵表示

综合上述三类子网络,异质图的邻接矩阵 E 定义为:

其中,M 为样本相似性网络的边矩阵,T为基因共表达网络的边矩阵,G为样本–基因关联网络的边矩阵。

3.3 基于 HGCNs 的组学特征提取

在构建了样本–基因交互的异质图之后,接下来的挑战在于如何从图结构中提取高阶结构信息。在本研究中,我们基于 GCN 的消息传递机制,在异质图上设计了 异质图卷积模块 (HGCN),以有效学习样本或基因的嵌入表示。

由于图中存在两类不同节点,因此必须采用不同的处理方法。为了便于说明,我们首先以单一节点类型(如样本节点 U)为例展开,随后将方法扩展到整个图。在遵循消息传递范式 (Gilmer et al., 2017) 时,每一层 GCN 都会基于邻居传递的信息更新节点的嵌入表示。

记样本节点 ui∈U在第 l 层的输入嵌入为 huil,则其在第 l+1层的输出嵌入表示为:

其中,Ni表示节点 ui的一阶邻居集合,Agg(⋅)表示邻居节点嵌入的聚合函数,Update(⋅)表示更新函数,用于将先前节点嵌入与邻居聚合结果融合生成新的嵌入。

对于样本节点 ui,其聚合不仅包含来自相邻样本节点的信息,还包含来自相关基因节点的信息。为了更好地区分不同节点类型的信息聚合,引入了 关系特定的权重矩阵。于是,节点 ui的输出嵌入可进一步表示为:

其中,Niu与 Niv分别表示节点 ui的相邻样本节点集合与相邻基因节点集合;huil、hjl、hgl 分别表示样本节点 ui​、样本邻居节点 j、基因邻居节点 g 在第 l 层的嵌入;W0l、Wu→ul、Wv→ul分别为三类可学习的变换矩阵,对应于前一层权重融合、样本节点聚合、基因节点聚合。σ(⋅)\表示激活函数。

类似地,对于基因节点 vi,其更新公式为:

其中,hvil表示第 l 层的基因节点嵌入;Niv​、Niu​ 分别为基因邻居集合与样本邻居集合。

为保证样本节点与基因节点能够更高效地融合,在进行 HGCN 信息聚合之前,我们对节点特征进行了一次线性变换:

f=(WX+b)

以将两类节点映射到相同维度空间。


以上即为 HGCN 的特征更新过程。为了扩展至有监督学习,我们首先基于不同组学的训练数据 Xtr(i) 构建样本–基因异质网络 Etr(i)∈R(n+k)×(n+k)(公式见 Eq. (9))。随后,以 Xtr(i)与 Etr(i)作为输入,得到训练预测:

其中,Y^tr(i)∈Rn×c,其第 m 行表示第 m 个训练样本在 c 个类别上的预测概率分布;HGCN(⋅) 表示 HGCN 特征聚合操作。

在测试阶段,每次输入一个测试样本,形成特征矩阵 Xtrte(i)∈R(n+1)×d,并据此构建测试用异质图的边矩阵 Etrte(i)∈R(n+1+k)×(n+1+k)。需要注意的是,测试集中的基因共表达网络部分保持与训练集一致。最终,通过:

Y^trte(i)=HGCN(Xtrte(i),Etrte(i)),

实现特征聚合,提取跨不同组学的样本特征。


HGCN 的损失函数定义为交叉熵:

其中,yj∈Rc 为第 j 个训练样本的 one-hot 标签,y^j,c(i)表示样本 j 被预测为类别 c 的概率。上标 i 表示对应的组学类型。

此外,我们为不同疾病类别引入了 损失权重,以应对训练样本分布不平衡。具体而言,某类的损失权重设为该类训练样本数量的倒数。通过这种方式,HGCN 能够在不同组学空间中实现特征聚合,并捕捉到样本的独特特征。

3.4 组学特征的置信度学习模块

在多组学数据分类任务中,不同样本在不同组学类型中对分类所提供的信息量往往并不固定。若能够捕捉样本在不同组学类型中信息含量的差异,将有助于提升模型的泛化能力。同时,这也契合了生物学规律,从而增强模型的生物学可解释性。因此,我们引入了一种基于 真实类别概率 (TCP, True-Class-Probability) (Corbière et al., 2019) 的 自适应置信加权技术,用于评估样本在不同组学类型下的分类置信度分数,并将这些置信度分数用于更新样本特征。

具体而言,为了获得样本在不同组学类型上的分类置信度,我们为每一种组学类型建立一个独立分类器:

其中,针对第 m 种组学类型,分类器 fm被视为一个概率模型,它将输入 xm转换为预测分布:

并通过 Softmax 运算输出。该分类器通过交叉熵损失进行训练,其目标是最小化预测分布与真实标签之间的差异:

其中,C 表示类别数,yic 表示样本 i 的类别标签 yi在第 c 个位置的取值。

一种常用的置信度度量方式是 最大类别概率 (MCP, Maximum Class Probability),其定义为:

MCP 在分类务中表现良好,但容易在误分类情况下导致过度自信 (Moon et al., 2020; Van Amersfoort et al., 2020)。这是因为 Softmax 会拉大预测概率与其他类别概率之间的差距,当模型错误分类时,真实类别对应的概率往往会接近较低值。

为缓解这种过度自信的问题,我们引入 TCP。与 MCP 取最大 Softmax 概率不同,TCP 将 真实标签对应的 Softmax 概率 作为置信度分数。设某样本在组学 m 下的预测分布为:

pm(y∣xm)=[p1m,…,pCm],

真实标签为 y,则 TCP 定义为:

其中 (⋅)表示向量内积。当模型正确分类时,TCP 与 MCP 一致;但在误分类时,TCP 通常更接近一个较低的值,从而更客观地反映了模型的分类不确定性。

然而,TCP 存在一个关键限制:它依赖于真实标签。在测试集上,真实标签无法作为输入使用。为解决该问题,我们引入 置信度神经网络

其中 θ为网络参数。该网络通过输入特征 xm 持续训练来近似 TCPm​。由于TCPm​∈(0,1),因此在置信度网络的最后一层使用 Sigmoid 激活函数。训练目标函数为 L2 损失与分类损失的组合:

在得到置信度分数 TCP^m后,将其作为注意力权重更新对应的组学数据:

xm=TCP^m⋅xm

以用于后续的特征融合与分类。

3.5 基于跨模态注意力的多组学数据融合

挖掘多组学数据的潜在关系能够更好地利用不同组学之间的互补信息 (Eddy, Mariani, & Kretzler, 2020)。自注意力机制是一种将单个序列中不同位置进行映射的方法,使模型能够探索输入向量之间的潜在关系,并尽可能整合来自其他向量的信息 (Niu, Zhong, & Yu, 2021)。基于这一思想,MOHGCN 设计了一个基于 多头自注意力的跨模态注意力机制,实现了不同组学特征的全面融合。该方法充分考虑了不同组学数据之间的相互依赖性,计算各组学的注意力得分,并通过拼接实现多组学特征的组合。最终,将融合后的多组学数据输入全连接神经网络,完成样本分类。

具体操作如下:

首先,设样本 a 在不同组学下的特征向量集合为:

Xa=[xa1,…,xam],

其中 m表示组学类型数,xam表示样本 a 在第 m 个组学域中的特征。对于每个样本的多组学特征集合,引入三个权重矩阵 Wq,Wk,Wv​,用于计算自注意力机制中的 Q,K,V:

在自注意力机制中,利用 缩放点积注意力 计算不同组学间的注意力得分:

其中 dk为输入特征的维度。得到注意力得分矩阵 A 后,与 V 相结合以获得输出特征:

在单头注意力计算完成后,进一步引入 多头自注意力机制。为每个注意力头设置不同的权重矩阵 Wq,h,Wk,h,Wv,h​,以从不同角度探索输入特征之间的潜在关系。最后,通过多个注意力头的输出结果平均,得到样本 a的融合特征 X~am​。

最终,将所有组学的注意力融合特征拼接为:

并输入全连接神经网络,得到样本 a 的预测标签 ya。该网络通过交叉熵损失进行训练:

因此,本节的总体损失函数可表示为:

结合所有模块,在包含 mmm 个不同组学数据的实验中,MOHGCN 的总损失函数为:


MOHGCN 的训练流程 中,采用两步策略:

  1. 首先为每个组学单独预训练 HGCNs,以获得良好的初始化;

  2. 在正式训练的每个 epoch 中,先更新各组学特定的 HGCN 参数,然后冻结它们,再更新后续模块的参数(包括 TCP 模块、跨模态注意力模块和全连接神经网络),以最小化整体损失。

MOHGCN 框架的执行步骤如下:

  • (1) 对每个组学数据集,基于异质图构建方法生成组学特定的样本–基因异质图;

  • (2) 将构建的异质图和样本–基因特征输入 HGCNs,提取组学特征;

  • (3) 将提取的样本特征输入 置信学习模块 (TCP),进一步增强分类能力;

  • (4) 将不同组学的特征输入 基于自注意力的跨模态特征融合模块,实现信息融合;

  • (5) 将融合后的特征输入全连接层,完成样本分类与预测。

MOHGCN 的算法流程伪代码见 Algorithm 1

实验


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值