空间转录组 STAGATE

最新推荐文章于 2025-06-30 16:45:36 发布

原创

最新推荐文章于 2025-06-30 16:45:36 发布 · 4.5k 阅读

41 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #python #深度学习

最近在阅读和复现各个大佬的空转论文，记录、交流学习下，如有错误，欢迎指出。

前言

首先是STAGATE，是中科院提出来的方法，具体发表在NC上，主要思路与空转普遍的思路类似，提取基因表达、空间信息和图像特征，然后进行聚类，以识别每个spot的类型。当然，STAGATE，没有用图像信息，就已经是是目前已发表论文中最好的结果了。

总体架构

总体架构如下。

总体来说模型就是一个四层的AutoEncode，两层编码器两层解码器，只是每一层都换成了GAT。将基因表达数据X输入进去再重构出来X’，损失函数自然而然的就是X和X’的MSE。值得注意的是第二层和第三层，第一层和第四层分别共用一组权重W，为转置关系，这点在图上已经表明。如果是spot级别的数据，模型就已经全部讲完了，如果是细胞级别的数据，还会构建SNN，即重新构建一个新的GAT的邻接矩阵，然后每一层的结果是新的邻接矩阵和旧邻接矩阵构成的GAT加权求和为下一层的输入。

代码

作者最初发布的是tensorflow1的代码，今年三月份又公布了torch的代码，但是torch版本没有构建SNN，在细节上与tensorflow也略有不同，比如损失函数，tensorflow中除了MSE，又加入了权重损失防止过拟合，具体的在代码中我发现的都会提到。下面我试着根据torch版本的代码来说下我对这篇论文的理解。（最好在linux系统上运行，在windows上总是会出现各种奇怪错误）

首先是数据预处理。包括数据读取，在根据论文下载数据就好。然后是Normalization，选择高表达基因，正则化，取对数。再然后是读取真实标签用于最后测评并做了可视化。

    input_dir = os.path.join('Data', section_id)
    adata = sc.read_visium(path=input_dir, count_file=section_id+'_filtered_feature_bc_matrix.h5')
    adata.var_names_make_unique()

    #Normalization
    sc.pp.highly_variable_genes(adata, flavor="seurat_v3", n_top_genes=3000)
    sc.pp.normalize_total(adata, target_sum=1e4)
    sc.pp.log1p(adata)

    Ann_df = pd.read_csv(os.path.join('Data',
                                      section_id, "cluster_labels_"+section_id+'.csv'), sep=',', header=0, index_col=0)
    adata.obs['ground_truth'] = Ann_df.loc[adata.obs_names, 'ground_truth']

    plt.rcParams["figure.figsize"] = (3, 3)
    sc.pl.spatial(adata, img_key="hires", color=["ground_truth"])

然后是spot和spot之间的距离。距离大于0小于150的spot构建邻接矩阵，在这个范围内认为有连接，邻接矩阵为1，否则是0。以下是计算符合距离范围的spot的距离，并保存adata.uns['Spatial_Net']中。

def Cal_Spatial_Net(adata, rad_cutoff=None, k_cutoff=None, model='Radius', verbose=True):
    """\
    Construct the spatial neighbor networks.

    Parameters
    ----------
    adata
        AnnData object of scanpy package.
    rad_cutoff
        radius cutoff when model='Radius'
    k_cutoff
        The number of nearest neighbors when model='KNN'
    model
        The network constructio