数据处理与聚类算法研究:从图像去噪到文档聚类
1. 自组织映射网络(SOM)参数与性能分析
在构建自组织映射网络(SOM)时,为提高性能和准确性,需考虑一些重要参数。使用的参数如下:
- 地图大小(Map size):200
- 半径(Radius):5
- 训练长度(Traininglength):6000
- 采样率(sampling rate):每秒 1/100
- 邻域函数(Neighbourfunction):高斯函数
通过神经网络和 R 编程的 popsom 包对 SOM 技术进行分析。在构建 SOM 时,测试了多种距离度量,包括欧几里得距离、曼哈顿距离和切比雪夫距离,并评估了不同距离度量下 SOM 性能的变化。不同网络参数集下这些距离度量所达到的准确率值已绘制成图。
1.1 SOM 预测结果
为识别聚类性能,计算了以下指标:
- 特异性(Specificity):$Q_{over} = [m / (m + h)]×100$
- 灵敏度指数(Sensitivity Index):$Q_{under} = [m / (m + g)]×100$
- 总体预测准确率(Overall Prediction accuracy):$Q_{total} = (m + n) / (m + n + g + h)×100$
其中,m 和 n 分别代表真阳性和真阴性的数量,g 和 h 分别代表假阳性和假阴性的数量。以下是 Ras 家族和蛋白激酶家族的 SOM 预测结果:
| 训练数据 | Ras 家族 | 蛋白激酶家族 |
| — | — | —