踩坑实录一：GEO单细胞样本读取和增加样本metadata信息

18kkk

已于 2023-03-16 00:33:33 修改

阅读量1w

点赞数 16

CC 4.0 BY-SA版权

分类专栏：踩坑实录基础函数文章标签： r语言

于 2022-11-27 20:31:15 首次发布

本文链接：https://blog.csdn.net/m0_58549466/article/details/128069189

基础函数同时被 2 个专栏收录

12 篇文章

订阅专栏

踩坑实录

7 篇文章

订阅专栏

本文介绍了如何使用Read10X函数读取单细胞测序样本，包括文件格式要求，然后展示了如何导入并合并病人的meta信息，最终实现临床数据与基因表达数据的整合。重点讲解了将病人代号对应到meta信息和外部患者信息的步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

单细胞样本读取

将病人的meta信息导入

单细胞样本读取

文件夹下所有的样本必须为gz格式

比如这里面那些非gz格式的样本是不能用Read10X的函数去读取的

实际上只需要有以下三个文件即可

读取代码

# 数据储存本地 "E:/GEO/scRNAseq/HNSCC/GSE164690/data"
data_path <- "E:/GEO/scRNAseq/HNSCC/GSE164690/data"
files <- list.files(data_path,full.names = T)
files

system.time({
  sceList = lapply(files,function(patient){ 
    # patient=files[[1]] 
    print(patient)
    ct <- Read10X(patient)
    sce=CreateSeuratObject(counts =  ct ,
                           project =  str_split_fixed(patient,"_",n=2)[,2],
                           min.cells = 3, #Include features detected in at least this many cells.
                           min.features = 200 #	Include cells where at least this many features are detected.
    )
    return(sce)
  }) #返回一个List
})#记录一下运行时间

names(sceList)  
samples = str_split_fixed(files,"_",n=2)[,2]
names(sceList) = samples

sce.all=merge(x=sceList[[1]],
              y=sceList[ -1 ],add.cell.ids = samples)

head(sce.all@meta.data, 10)
table(sce.all@meta.data$orig.ident)

将病人的meta信息导入

# 增加病人的和来源的分组 
phe=str_split(rownames(sce.all@meta.data),'_',simplify = T)
head(phe) 
sce.all@meta.data$patients=phe[,1] 
sce.all@meta.data$cell.orig=phe[,2] 

table(sce.all@meta.data$patients)
table(sce.all@meta.data$cell.orig)

简单给病人分组后，meta信息如下

希望把临床信息导入meta信息中

其实按照病人的代号merge即可不要想得太复杂！！！

# 增加病人的meta信息
patient_info <- read.csv("E:/GEO/scRNAseq/HNSCC/GSE164690/Patients_info_use.csv")
head(patient_info$Patients)

data <- sce.all@meta.data
colnames(patient_info)
# [1] "Patients"      "Gender"        "Age_group"     "Smoking"       "Alcohol"      
# [6] "Disease_site"  "T_Stage"       "N_Stage"       "M_Stage"       "HPV"          
# [11] "Inflam_status"
data <- rownames_to_column(data,var = "barcodes")

metadata <- merge(data,
      patient_info,
      by.x='patients',
      by.y='Patients',
      all=T)
metadata <- column_to_rownames(metadata,var = "barcodes")
sce.all <- AddMetaData(sce.all,metadata)
colnames(sce.all@meta.data)