单细胞测序流程分析

 

一.读入10x数据并创建seurat对象

#pbmc为外周血单个核细胞
library(Seurat)
pbmc.data <- Read10X(data.dir="E:/GSE152982_RAW/hg19")
pbmc <- CreateSeuratObject(counts=pbmc.data,project = "pbmc5k",min.cells = 3,min.features =200)

        创建Seurat对象,counts为读取的源文件,project为Seurat对象想保存的文件名

        min.features为筛细胞,一个细胞中测出的最少的基因数量

        min.cells为筛选基因,该feature至少在n个细胞内被覆盖


这个原始数据来自CellRanger的处理,Cellranger返回一个UMI的count矩阵。矩阵里的列是细胞,行是基因。接下来我们用count矩阵创建Seurat对象。这个对象就好比一个容器,里面装着单细胞数据集,比如count矩阵,PCA,聚类结果等等。举个栗子:count matrix 储存在pbmc[["RNA"]]@counts里。

 

 二.质控

library(magrittr)
pbmc[["percent.mt"]] <- PercentageFeatureSet(pbmc, pattern = "^MT-")
#%>%为管道函数,就是把左件的值发送给右件的表达式(暂存在内存当中,没有保存为对象在硬盘中)
pbmc@meta.data %>% head()

^MT- 表示线粒体,进行质量控制,看一下线粒体里面的数据有多少。太多了说明就是有污染
创建一列名为percent.mt的新数据,添加到pbmc中,使用PercentageFeatureSet函数(此函数可以计算每个细胞中每一细胞器的QC指标)计算线粒体基因占比。

PercentageFeatureSet 函数是根据counts总数相除算的打分:该基因集的counts总和/所有基因的counts总和。
#%>%为管道函数,就是把左件的值发送给右件的表达式(暂存在内存当中,没有保存为对象在硬盘中) 

 画小提琴图加散点图去除极值点

VlnPlot(pbmc, features = c("nFeature_RNA", "nCount_RNA", "percent.mt"), ncol = 3)
plot1 <- FeatureScatter(pbmc, feature1 = "nCount_RNA", feature2 = "percent.mt")
plot2 <- FeatureScatter(pbmc, feature1 = "nCount_RNA", feature2 = "nFeature_RNA")
pbmc <- subset(pbmc, subset = nFeature_RNA > 200 & nFeature_RNA < 4000 & percent.mt < 25)

三.标准化

#通常情况下采用全局缩放的归一化方法"LogNormalize",
 pbmc <- NormalizeData(pbmc, normalization.method = "LogNormalize", scale.factor = 10000)
#“SCTransform” 方法是一种三合一的方法,可以将质控,归一化和去识别高变基因合为一体
 pbmc <- SCTransform(pbmc, vars.to.regress = "percent.mt", verbose = FALSE)

(67条消息) 单细胞测序学习笔记(一)——细胞聚类和鉴定_咸316的博客-CSDN博客

(67条消息) 单细胞测序分析(4)——Seurat(3.0)包学习笔记_leo12354的博客-CSDN博客_单细胞测序分析

### 单细胞测序分析工作流图表 单细胞RNA测序(scRNA-seq)技术使得研究者能够解析复杂组织中的异质性并揭示罕见细胞类型及其状态。生物信息学管道对于处理和解释这些数据至关重要。 #### 数据预处理阶段 此阶段涉及质量控制(QC),过滤低质量读取以及去除污染序列[^1]。具体操作包括评估每个细胞的总UMI计数、基因检测数目等指标来决定保留哪些细胞用于后续分析。 #### 序列比对与量化 经过初步清理后的reads会被映射到参考基因组上,之后通过特征条形码分配给各个单独的细胞核/细胞,并统计每种转录本的数量以形成表达矩阵。 #### 质量控制后处理 进一步的质量控制措施应用于整个样本集合层面,比如移除死细胞或双倍体事件造成的异常值;同时也会执行批次效应校正以便于多批样品间比较一致性。 #### 细胞聚类及标注 利用降维算法(如t-SNE, UMAP)可视化高维度空间内的细胞群体分布情况,并采用无监督学习方法自动识别不同簇群。随后借助已知标记物的信息来进行功能性的分类命名。 ```python import scanpy as sc adata = sc.read('filtered.h5ad') sc.pp.neighbors(adata) sc.tl.umap(adata) sc.pl.umap(adata, color='cell_type', title="Cell Clustering", frameon=False) ``` #### 差异表达分析 针对特定条件下的两组或多组细胞之间开展差异表达测试,找出显著上调或下调的mRNAs/lncRNAs/circRNAs等分子标志物。 #### 基因调控网络构建 基于共表达模式推断潜在相互作用关系,预测新的信号通路成员或是验证已有假说关于某些蛋白质复合物的工作机制。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值