我们的教程主要是以一个具体的例子作为线索,通过对公共数据库数据bulk-RNA-seq的挖掘,利用生物信息学分析来探索目标基因集作为某种疾病数据预后基因的潜能及其潜在分子机制,同时在单细胞水平分析(对scRNA-seq进行挖掘)预后基因的表达,了解细胞之间的通讯网络,以期为该疾病临床治疗提供新的参考,同时我们还可以经过分子对接实现药物靶点的初步筛选。
1.目录
转录组分析流程(一):数据下载与预处理
转录组分析流程(二):差异分析
转录组分析流程(三):功能富集分析
转录组分析流程(四):Cox+Lasso筛选预后基因
转录组分析流程(五):生存分析
转录组分析流程(六):列线图
转录组分析流程(七):GSEA分析
转录组分析流程(八):免疫浸润分析
转录组分析流程(九):药物敏感性分析
转录组分析流程(十):基因组突变分析
2.背景
首先简单介绍一下转录组的基础知识。转录组是在特定时空条件下细胞中基因转录表达产物,广义的转录组包括信使RNA,核糖体RNA,转运RNA及非编码RNA,狭义上是指所有mRNA的集合,转录组分析能够获得不同基因的表达情况。
(1) 转录组分析的核心目标
- 基因表达定量:比较不同样本(如疾病vs正常)中基因的表达水平(如FPKM、TPM)。
- 差异表达分析(DEGs):识别显著上调或下调的基因,用于功能富集分析。
- 可变剪切分析:研究同一基因的不同转录本(isoform)及其调控机制。
- 新转录本预测:发现未被注释的新基因或非编码RNA。
- 融合基因检测(如癌症研究):识别染色体易位导致的异常融合转录本。
- 功能注释与通路分析:如GO(Gene Ontology)、KEGG 通路分析,揭示生物学过程。
(2) 转录组分析的主要技术
RNA-seq(主流技术)
- 基于高通量测序(NGS),如Illumina短读长测序(~150bp)。
- 优点:高灵敏度、可检测低丰度转录本、覆盖全转录组。
- 缺点:短读长拼接困难(需借助参考基因组)。
单细胞RNA-seq(scRNA-seq)
- 解析细胞异质性,如肿瘤微环境中的不同细胞亚群。
- 常用平台:10x Genomics、Smart-seq2。
长读长测序(PacBio/Nanopore)
- 直接测序全长转录本,无需拼接,适合研究可变剪切和融合基因。
微阵列(芯片,逐渐淘汰)
- 基于探针杂交,只能检测已知基因,动态范围较窄。
(3)转录组分析的基本流程
数据预处理
- 原始数据质控:FastQC、MultiQC 检查测序质量(Q30、GC含量、接头污染)。
- 去接头和低质量序列:Trimmomatic、Cutadapt。
比对(Alignment)
- 有参考基因组:
- 比对工具:STAR、HISAT2、TopHat2(旧)。
- 输出:BAM/SAM 文件(存储比对结果)。
- 无参考基因组(denovo组装):
- 工具:Trinity、SOAPdenovo-Trans(适用于非模式生物)。
基因表达定量
- 计数(Count Matrix):
- 工具:HTSeq、featureCounts(统计每个基因的reads数)。
- 标准化方法:
- RPKM/FPKM(已淘汰,样本间不可比)。
- TPM(推荐,可比性更好)。
- DESeq2的归一化方法(适用于差异分析)。
差异表达分析(DEGs)
- 工具:DESeq2(基于负二项分布)、edgeR、limma-voom。
- 筛选标准:
- |log2FC| > 1(或 0.5),FDR/p-value < 0.05。
功能富集分析
- GO(Gene Ontology):分子功能(MF)、生物过程(BP)、细胞组分(CC)。
- KEGG Pathway:寻找关键代谢或信号通路。
- 工具:clusterProfiler、DAVID、Metascape。
高级分析(可选)
- WGCNA(共表达网络):挖掘基因模块与表型的关联。
- 可变剪切分析:rMATS、SUPPA2。
- 单细胞数据分析:Seurat、Scanpy。
NA(共表达网络)**:挖掘基因模块与表型的关联。
- 可变剪切分析:rMATS、SUPPA2。
- 单细胞数据分析:Seurat、Scanpy。