单细胞分类与中药治疗牙周炎研究
立即解锁
发布时间: 2025-08-21 00:32:18 阅读量: 2 订阅数: 13 

### 单细胞分类与中药治疗牙周炎研究
#### 一、SCDF:新型单细胞分类方法
1. **ARI指标**
- ARI(Adjusted Rand Index)是RI(Rand Index)的校正版本。RI的值只能在0到1之间,而ARI如果小于预期指数则可能产生负值。ARI的最优得分是1,表示两个聚类结果相同,ARI越大,X和Y之间的一致性越高。其计算公式涉及列联表中的值nij、列联表第i行的和ai、第j列的和bj以及二项式系数。
2. **数据拼接**
- 拼接方法先融合数据,然后对融合后的数据进行分类算法。对测试集分别使用七种降维方法后,将降维后的矩阵首尾相连,可表示为\(S = (T_1^{p_1},T_2^{p_2}, \cdots,T_7^{p_7})\),其中\(T_j^{p_i}\)表示第j种降维方法将测试集嵌入到\(p_i\)维空间,\(p_i\)通过公式(3)计算。使用不同的数据表示进行分类可能比仅使用一种数据表示捕获更完整的数据关系。
3. **融合数据分类**
- 对拼接后的降维矩阵使用三种分类方法,为简单比较,使用逻辑回归、全连接神经网络(FCNN)和随机森林算法。
- **逻辑回归**:是一种广义线性回归分析模型,输出是样本属于某一类别的概率,便于调整阈值,在加快训练过程和减少内存消耗方面有优势。
- **FCNN**:是一种连接方法相对简单的人工神经网络结构,属于前馈神经网络,由输入层、输出层和若干隐藏层组成,各层有多个神经元,层间相连,层内不相连,下一层神经元与上一层所有神经元相连,非线性拟合能力强。
- **随机森林**:是一种强大的机器学习技术,以决策树集成的形式生成分类器。该算法在各种数据集上表现稳健,泛化误差低,对调优参数的选择不太敏感,其成功依赖于两个前提:决策树是弱学习器,决策树的预测结果相关性低。
- 为验证SCDF的性能,还对数据融合前的七个矩阵进行分类算法,通过比较不同方法的结果,发现SCDF在提高分类准确性和鲁棒性方面取得了成功。
4. **低维组件最优数量**
- 对于每种降维方法和每个scRNA - seq数据集,提取最优数量的低维组件。聚类准确性通常随包含组件数量的增加而提高,但当ARI达到“肘部”后会隐式上升,数据维度超过一定值后甚至会下降。这表明将高维数据压缩到不合适的维度时,大部分局部结构会丢失,ARI也会在某个值附近小范围波动,在UMAP中更常见。
- 以Chu - cell - type数据集为例,当低维组件数量从1增加到60时,不同降维方法的ARI趋势不同。如k - means聚类中,低维组件数量为2时,t - SNE的ARI达到最大值0.6229;PCA在聚类得分达到平稳点时对应的值为10;FA在低维组件数量达到33时ARI隐式增加;UMAP的k - means聚类性能相对稳定,低维组件数量设为2;LLE与t - SNE类似,数据维度超过6后ARI下降;MDS和Isomap的ARI先随低维组件数量增加而上升,分别在数据维度超过9和8时开始下降,小幅下降后波动不明显。
- 四种数据集应用七种降维方法的低维组件数量如下表:
|数据集|t - SNE|PCA|FA|UMAP|LLE|MDS|Isomap|
| ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- |
|Chu_cell_type|2|10|33|2|6|9|8|
|Klein|2|3|33|2|10|9|4|
|PBMC|2|8|6|5|7|2|2|
|Kolodz|2|3|6|7|5|2|6|
5. **SCDF分类准确性**
- 为验证SCDF,对数据融合前的七个矩阵和拼接矩阵分别使用三种分类方法进行比较。结果表明,SCDF算法取得了最佳结果。
- 在不同数据集上的表现如下表:
|数据集|分类算法|t - SNE|PCA|FA|UMAP|LLE|MDS|Isomap|SCDF|
| ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- |
|Chu - cell - type|逻辑回归|88%|88%|79%|63%|63%|93%|86%|96%|
| |FCNN|90%|86%|79%|91%|85%|88%|88%|95%|
| |随机森林|96%|92%|94%|92%|94%|94%|92%|97%|
|Klein|逻辑回归
0
0
复制全文
相关推荐










