模式识别中的分类方法与零误差分类器探索
立即解锁
发布时间: 2025-08-16 01:26:04 订阅数: 8 


模式识别中的差异性表示:理论与应用
### 模式识别中的分类方法与零误差分类器探索
#### 1. 分类性能与欧几里得行为
在模式识别中,某些分类方法在特定情况下能取得比原始相异空间更好的性能。研究发现,强制的欧几里得行为所带来的潜在优势并不确定,不能总是得到保证。相比严格的欧几里得或度量属性,度量本身能否描述紧凑的类别更为重要。可以通过凹变换来实现这一点,其目的是减小大相异度的相对影响,而不是使它们真正符合欧几里得性质。
#### 2. 模拟缺失值问题研究
为了研究相异度表示在处理缺失值问题上的适用性,对NET数字3和8的识别进行了缺失值问题模拟。具体步骤如下:
- **数据准备**:将图像重采样为16x16的光栅,通过随机破坏数字3和8的图像,以概率P控制像素未知的程度,设置了P = {0.0, 0.2, 0.4, 0.6}四个不同的退化级别。
- **相异度计算**:对于二进制数据,通常先构建相似度度量,再将其转换为相应的距离。选择了三种相异度度量进行分析,具体如下表所示:
| 相异度度量 | 公式 | 性质 |
| --- | --- | --- |
| Jaccard | \(d_{ij}=\frac{b + c}{a + b + c}\) | 欧几里得 |
| 简单匹配 | \(d_{ij}=1 - \frac{a + d}{a + b + c + d}\) | 非欧几里得度量 |
| Yule | \(d_{ij}=1 - \frac{ad + bc}{(a + b)(c + d)}\) | 非度量 |
- **实验设置**:
- 为每个退化级别计算完整的距离表示,假设训练集和测试集以相似的方式退化。
- 随机选择每个类固定大小为100个样本的训练集,所有分类器在每个类独立的500个样本的测试集上进行测试。
- 测试过程重复20次并取平均值,训练集和测试集大小固定,变化的是图像退化级别。
- **分类器选择**:
- **嵌入式空间**:Fisher线性判别(FLD)在由完整伪欧几里得嵌入的限制创建的欧几里得空间、伪欧几里得嵌入空间和校正欧几里得空间中进行训练,所有空间都以对应于保留99.9%方差的大维度进行检索。
- **相异度空间**:使用正则化参数\(\lambda = 0.01\)的RNLC,以及基于整个相异度表示\(D(T, T)\)构建的稀疏和非稀疏线性规划分类器(LPC),NLC基于由T中25%随机选择的对象组成的表示\(D(T, R)\)构建。
- **实验结果分析**:
- 所有考虑的决策规则的性能随着数据损坏(缺失信息)水平的增加而下降,但最佳决策规则在P = 0.6时仍能达到8% - 10%的误差,而1 - NN规则在相同退化级别下误差约为18%。
- 大多数线性分类器,无论是在嵌入式还是相异度空间中,都优于1 - NN规则,并且对缺失值更具鲁棒性,1 - NN规则的性能下降最为明显。
- 在相异度空间中,基于25%随机选择的训练示例定义的NLC通常比其他分类器产生更差的结果。
- 平均而言,Jaccard距离比Yule和简单匹配距离更能实现类的良好分离,RNLC和LPC(均\(R = T\))在相异度空间中给出相同的误差,并且在非退化图像上实现了最小的总体误差,为1.7%。
#### 3. 零误差相异度分类器的存在性
在统计模式识别方法中,数值特征用于将对象描述为向量空间中的向量,但这种特征表示会丢失一些重要信息,导致不同类的对象可能在特征空间中重叠,从而使基于此类特征表示的识别方案存在非零分类误差。而基于相异度的模式识别方法是基于对象对之间的相异度计算,利用训练集中对象的生物变异性。如果相异度直接从原始测量中获得,就可以避免因特征降维而导致的信息丢失。在某些情况下,相异度表示可以实现零误差分类(即无类重叠),下面将详细讨论这种假设成立的条件。
- **假设条件**:
- 真实的物理对象类是可分离的,即没有物理对象属于多个类。
- 对象的原始测量能够保持这种可分离性。
0
0
复制全文
相关推荐









