模式识别中的分类方法与零误差分类器探索

立即解锁

发布时间: 2025-08-16 01:26:04 订阅数: 8

模式识别中的差异性表示：理论与应用

### 模式识别中的分类方法与零误差分类器探索 #### 1. 分类性能与欧几里得行为在模式识别中，某些分类方法在特定情况下能取得比原始相异空间更好的性能。研究发现，强制的欧几里得行为所带来的潜在优势并不确定，不能总是得到保证。相比严格的欧几里得或度量属性，度量本身能否描述紧凑的类别更为重要。可以通过凹变换来实现这一点，其目的是减小大相异度的相对影响，而不是使它们真正符合欧几里得性质。 #### 2. 模拟缺失值问题研究为了研究相异度表示在处理缺失值问题上的适用性，对NET数字3和8的识别进行了缺失值问题模拟。具体步骤如下： - **数据准备**：将图像重采样为16x16的光栅，通过随机破坏数字3和8的图像，以概率P控制像素未知的程度，设置了P = {0.0, 0.2, 0.4, 0.6}四个不同的退化级别。 - **相异度计算**：对于二进制数据，通常先构建相似度度量，再将其转换为相应的距离。选择了三种相异度度量进行分析，具体如下表所示： | 相异度度量 | 公式 | 性质 | | --- | --- | --- | | Jaccard | \(d_{ij}=\frac{b + c}{a + b + c}\) | 欧几里得 | | 简单匹配 | \(d_{ij}=1 - \frac{a + d}{a + b + c + d}\) | 非欧几里得度量 | | Yule | \(d_{ij}=1 - \frac{ad + bc}{(a + b)(c + d)}\) | 非度量 | - **实验设置**： - 为每个退化级别计算完整的距离表示，假设训练集和测试集以相似的方式退化。 - 随机选择每个类固定大小为100个样本的训练集，所有分类器在每个类独立的500个样本的测试集上进行测试。 - 测试过程重复20次并取平均值，训练集和测试集大小固定，变化的是图像退化级别。 - **分类器选择**： - **嵌入式空间**：Fisher线性判别（FLD）在由完整伪欧几里得嵌入的限制创建的欧几里得空间、伪欧几里得嵌入空间和校正欧几里得空间中进行训练，所有空间都以对应于保留99.9%方差的大维度进行检索。 - **相异度空间**：使用正则化参数\(\lambda = 0.01\)的RNLC，以及基于整个相异度表示\(D(T, T)\)构建的稀疏和非稀疏线性规划分类器（LPC），NLC基于由T中25%随机选择的对象组成的表示\(D(T, R)\)构建。 - **实验结果分析**： - 所有考虑的决策规则的性能随着数据损坏（缺失信息）水平的增加而下降，但最佳决策规则在P = 0.6时仍能达到8% - 10%的误差，而1 - NN规则在相同退化级别下误差约为18%。 - 大多数线性分类器，无论是在嵌入式还是相异度空间中，都优于1 - NN规则，并且对缺失值更具鲁棒性，1 - NN规则的性能下降最为明显。 - 在相异度空间中，基于25%随机选择的训练示例定义的NLC通常比其他分类器产生更差的结果。 - 平均而言，Jaccard距离比Yule和简单匹配距离更能实现类的良好分离，RNLC和LPC（均\(R = T\)）在相异度空间中给出相同的误差，并且在非退化图像上实现了最小的总体误差，为1.7%。 #### 3. 零误差相异度分类器的存在性在统计模式识别方法中，数值特征用于将对象描述为向量空间中的向量，但这种特征表示会丢失一些重要信息，导致不同类的对象可能在特征空间中重叠，从而使基于此类特征表示的识别方案存在非零分类误差。而基于相异度的模式识别方法是基于对象对之间的相异度计算，利用训练集中对象的生物变异性。如果相异度直接从原始测量中获得，就可以避免因特征降维而导致的信息丢失。在某些情况下，相异度表示可以实现零误差分类（即无类重叠），下面将详细讨论这种假设成立的条件。 - **假设条件**： - 真实的物理对象类是可分离的，即没有物理对象属于多个类。 - 对象的原始测量能够保持这种可分离性。