模式识别中的异类性表示:单类与多类分类的探索
发布时间: 2025-08-16 01:26:03 阅读量: 2 订阅数: 8 


模式识别中的差异性表示:理论与应用
### 模式识别中的异类性表示:单类与多类分类的探索
在模式识别领域,分类问题一直是核心研究方向之一。无论是单类分类还是多类分类,找到合适的数学表示和决策规则至关重要。本文将深入探讨基于异类性表示的分类方法,通过具体实验分析不同分类器的性能,并比较它们在不同场景下的优劣。
#### 单类分类实验
单类分类旨在识别和描述一个目标类,接受与目标类相似的对象,拒绝异类对象。这种分类在实际应用中非常重要,如健康诊断、机器状态监测或工业检查等。
##### 口腔疾病黏膜实验
- **数据采集与预处理**:采集口腔健康和患病黏膜的自发荧光光谱,在11个不同解剖位置使用6种不同激发波长进行测量。预处理后,每个光谱由199个区间组成,每个激发波长共获得988个光谱,其中856个代表健康组织,132个代表患病组织。光谱进行归一化处理,使其面积为1。本实验聚焦于365nm的激发波长。
- **数据集划分**:将所有光谱随机50次划分为训练集T和测试集Tte,比例为60:40。训练集包含目标和异类示例,而表示集R⊂T仅包含目标对象。最终,|R| = 514,|T| = 594,|Tte| = 394(337名健康人和57名患病患者)。
- **异类性表示**:考虑8种异类性表示,包括基于高斯平滑光谱及其一阶和二阶导数的D1距离、非度量距离、球面测地距离DSAM和Bhattacharyya距离等。这些表示强调了光谱数据的不同方面。
- **分类器训练与测试**:使用LPDD、LPDD - II、GMDD、k - CDD和k - NNDD等单类分类器,在6种异类性表示上进行训练。LPDD、LPDD - II和GMDD还依赖于表示的幂和S形变换,而k - NNDD和k - CDD基于原始异类性。实验结果通过AUC(曲线下面积)度量进行评估。
| 分类器 | 异类性表示 | AUC(平均值) | 支持对象数量(平均) |
| --- | --- | --- | --- |
| LPDD(v = 0.05,训练于D(R, R)) | 多种 | 如72.3 - 86.4等 | 如2.4 - 21.7等 |
| LPDD - II(v = 0.05,训练于D(T, R)) | 多种 | 如74.4 - 86.2等 | 如2.1 - 12.0等 |
| GMDD(rthr = 0.05,训练于D(R, R)) | 多种 | 如73.4 - 81.0等 | 如10等 |
| k - CDD(rthr = 0.05,训练于D(R, R)) | 多种 | 如52.0 - 83.2等 | 如10.1 - 41.0等 |
| k - NNDD(rthr = 0.05,训练于D(R, R)) | 多种 | 如72.5 - 88.2等 | 如1.0 - 51.0等 |
- **实验结论**:
- 最具判别性的异类性度量是光谱二阶导数的Dif: '距离,概率Bhattacharyya距离也表现良好,而测地球面距离Dgeo的判别性较差。
- LPDD的结果优于LPDD - II。
- 使用异类信息对LP分类器有益,但需要更多支持对象。
- 基于10个对象的GMDD与基于完整集R(514个对象)的GMDD性能相近,表明目标类较为紧凑。
- 训练于目标类的单类分类器中,1 - NNDD在Didge'上取得最佳结果(AUC为88.2);使用异类信息时,LPDD表现良好,且能显著减少计算量。
```mermaid
graph LR
A[数据采集] --> B[数据预处理]
B --> C[数据集划分]
C --> D[异类性表示计算]
D --> E[分类器训练]
E --> F[分类器测试]
F --> G[结果评估(AUC)]
```
##### 心脏病数据实验
- **数据特点**:共有303个实例,其中139个对应健康患者。数据包含连续、二分和分类变量,因此计算Gower异类性。
- **数据集划分*
0
0
相关推荐









