cite:Tianxiang Liu, Cangzhi Jia, Yue Bi, Xudong Guo, Quan Zou, Fuyi Li, scDFN: enhancing single-cell RNA-seq clustering with deep fusion networks, Briefings in Bioinformatics, Volume 25, Issue 6, November 2024, bbae486, https://doi.org/10.1093/bib/bbae486
代码地址:https://github.com/11051911/scDFN
摘要
单细胞核糖核酸测序 (scRNA-seq) 技术可以对单个细胞的转录组进行高分辨率分析。因此,这项技术在准确分析日益复杂的异质性单细胞数据集方面得到了广泛应用。scRNA-seq 数据解析的核心是通过聚类方法揭示转录组的多样性并推测细胞行为模式。然而,由于其复杂性,处理单细胞数据固有的异质性及有限的基因表达特征需要采用先进的方法论。在此,我们提出了一种基于深度学习的单细胞聚类新算法,称为 scDFN,通过融合网络策略显著增强了 scRNA-seq 数据的聚类效果。
scDFN 算法采用双重机制:首先通过自动编码器提取属性信息,其次通过改进的图自动编码器捕获拓扑细节,并通过跨网络的信息融合机制结合,同时辅以三重自监督策略。该融合过程通过对四种不同损失函数的整体优化实现最佳效果。与五种领先的 scRNA-seq 聚类方法在多个数据集上的对比分析表明,scDFN 在标准化互信息 (NMI) 和调整兰德指数 (ARI) 评价指标上具有明显优势。此外,scDFN 展现了在多聚类数据集上的强大性能,以及对批次效应的卓越抗干扰能力。
消融实验进一步突出了自动编码器和改进的图自动编码器组件的关键作用,同时验证了四种联合损失函数对算法整体效果的重要贡献。通过这些创新,scDFN 在单细胞聚类领域树立了新标杆,并可作为单细胞转录组学分析的有效工具,为更精细的研究提供支持。
引言
单细胞RNA测序(scRNA-seq)技术是高通量技术的一项重要进步,可以在最精细的层面分析单个细胞的转录组[1]。这种技术不同于传统的群体RNA测序方法,后者无法捕捉细胞之间的复杂异质性[2]。随着单细胞数据中异质性内容的不断增加,开发专门用于单细胞转录组分析的高效工具变得尤为重要[3]。细胞聚类是一种重要的技术,可用于确定细胞的异质性、分析细胞的发育轨迹[4],以及执行KEGG通路分析和基因本体(GO)分析。通过根据表达矩阵对细胞进行分组,聚类有助于揭示内部结构信息和分子特征,从而影响单细胞转录组学下游分析的质量。然而,由于单细胞转录组数据的高异质性和低基因表达率,单细胞聚类面临诸多挑战。
传统的聚类方法,如k-means聚类[5]、层次聚类[6]、主成分分析(PCA)和K近邻算法(KNN),已经被用于开发细胞聚类方法。例如,SC3[7]结合基因筛选与PCA和拉普拉斯变换,通过在k-means聚类中加入层次聚类来增强聚类效果,并通过整合初值和条件变化改进了聚类结果。该方法通过确保一致性克服了贪心算法的局限性。此外,像加速细化社区表型分析(PARC)[8]和Seurat[9]等方法利用KNN根据计算距离和邻居数量将细胞分配到最近的聚类中,但这些距离和邻居数量的定义可能存在显著变化。Tools for single cell analysis(TSCAN)是一种无监督方法,将基因表达与细胞的时间或空间定位联系起来,支持通过轨迹推断分析进行细胞聚类[10]。然而,面对大数据集时,传统的聚类技术在可扩展性上存在困难,而方法如KNN的效果很大程度上依赖于计算距离和最近邻居数量的选择。