读取没有Meta.data的单细胞表达矩阵构建Seurat分析对象
前情介绍
单个表达矩阵的单细胞测序数据下载读取和构建Seurat分析对象
注意事项
单细胞表格矩阵的文件格式可以允许有哪些格式?
如果是读取的单个表达矩阵文件来构建seurat分析对象的话, 这个表达矩阵文件可以是CSV,TXT, TSV或者csv.gz,txt.gz, tsv.gz 等格式的表格文件
什么情况需要提供meta.data文件,什么情况下不需要提供meta.data文件?
如果这单个表达矩阵文件里面含有多个样本,比如说多个GSM编号的样本,那么就必须要提供一个meta.data文件 ,这个meta data文件里面至少要有barcode细胞标签id列和样本id编号这两列信息,在meta.data中每一行对应了一个细胞的细胞barcode编号和该细胞所属的样本编号, 每个样本编号对应了几千个细胞的细胞标签ID,这样的话就能够知道每个样本大概对应了哪些细胞的单细胞数据。
如果是该项目只有一个样本的话,那么就可以不用提供meta data文件。
meta.data文件的基本格式是什么样的?
meta.data文件里面可以有很多列信息,但是一个正常的meta.data文件,至少要有barcode细胞标签id列和样本id编号这两列信息,像下面的这个meta.data文件这样:
这个meta.data文件就含有了这两列,其中在这个文件中barcode列就是单细胞的细胞标签id列,patient ID列就是样本编号id列,在meta.data中每一行对应了一个细胞的细胞barcode编号和该细胞所属的样本编号,在GEO中数据集中,样本编号列可能是GSM开头的GSM样本编号,如果没有细胞标签barcode列和样本编号这两列的对应信息,如果这个单细胞数据包含了多个样本,就不知道每个样本包含的细胞是哪些
对于表达矩阵有多个样本,但没有meta.data文件的时候该怎么办?
如果这单个表达矩阵文件里面含有多个样本,比如说多个GSM编号的样本,那么就必须要提供一个meta.data文件 ,如果没有meta.data文件,可能要考虑更换一个数据集,或者自己手动构造一个meta.data表格文件,我上面讲过,一个正常的meta.data文件,至少要有barcode细胞标签id列和样本id编号这两列信息,在构建meta.data文件的时候,至少要有这两列,在meta.data中每一行对应了一个细胞的细胞barcode编号和该细胞所属的样本编号,如果一个单细胞有几万个细胞的话,是需要手动构建一个几万行的这样的meta.data表格文件的。
软件运行窗口
部分没有meta.data文件的数据尝试从表达矩阵文件中提取meta.data信息来构建meta.data文件,以GSE197266数据集为例
0. 数据集情况介绍
单细胞数据集GSE197266,文件在两个压缩包里
这个里面只有表达矩阵文件,没有meta.data文件,同时GSE19