分类器组合与投影空间的深入解析
发布时间: 2025-08-16 01:26:04 阅读量: 5 订阅数: 8 


模式识别中的差异性表示:理论与应用
### 分类器组合与投影空间的深入解析
#### 1. 不同训练集下组合规则的性能
在分类器集成由三个基于不同数据集(DB、DMH 和 DH)训练的 NLC(Normal Density Based Linear Classifier,基于正态密度的线性分类器)和三个 1 - NN(1 - Nearest Neighbor,最近邻)规则组成的情况下,对于较小的训练集,乘积组合器的性能仍略优于均值组合器。不过,当训练集规模增大时,二者的表现趋于相似。总体而言,均值和乘积组合规则的性能明显优于基于相异度表示构建的单个 1 - NN 和 NLC。通常,相异度表示往往相互独立,因此基于 NLC 的乘积规则预计会比均值规则产生更好的结果,所以乘积组合器更受青睐。对于 1 - NN 规则,后验概率是根据到最近邻的距离进行的粗略估计,且与问题的维度无关,所以两种组合器的表现大致相同。
#### 2. 相异度表示的组合方式
当没有明确偏好某一特定相异度表示时,组合多个相异度表示可能会有帮助。若相异度表示强调不同的数据特征,这种组合则更为有益。以 NIST 数字 3 和 8 的两类识别问题为例,采用三种相异度表示:汉明距离(Hamming,DH)、修改后的豪斯多夫距离(Modified Hausdorff,DMH)和模糊欧几里得距离(Blurred Euclidean,Dg)。
- **组合分类器**:为每个表示分别找到单独的分类器,然后将它们组合成一个规则。实验表明,乘积组合规则效果良好,尤其对于较大的表示集(相对于训练大小)。这可能是因为相异度空间之间的相关性不是很高(特别是对于较小的表示集),因此在这些空间中构建的 NLC 可能相互独立。将 1 - NN 规则添加到分类器集成中,会在一定程度上改善均值组合器的性能,但对乘积组合器的影响不大。
- **组合表示本身**:将相异度表示组合成一个新的表示,并在其上构建单个 NLC。首先对这些表示进行缩放,使其均值相等,然后取平均值,得到表示 Davr。基于 Davr 的 NLC 性能明显优于单个 NLC。作为参考,还考虑了扩展表示 Dext。基于 Dext 的 NLC 在较大训练集上的性能与基于 Davr 的 NLC 相似。一般来说,对于这个问题,对于小训练集,建议使用三个 NLC 的乘积组合器;对于大训练集,建议使用基于 Davr 训练的单个 NLC。
#### 3. 分类器投影空间(CPS)的概念与构建
当分类问题过于复杂,无法通过训练单个(高级)分类器解决时,可以将问题分解为子问题,分别训练简单的基分类器来解决这些子问题,然后将这些基分类器组合起来。基分类器应具有差异性,因为它们要处理不同的子问题或对原始问题进行不同的变换。多样性对于分类器集成非常重要,因为它能产生本质上不同的解决方案。
- **构建 CPS 的步骤**:
1. 假设在训练集上训练了 n 个分类器,基于评估(测试)集确定每对分类器的多样性值,得到一个 n×n 的对称多样性矩阵 D。
2. 选择合适的多样性度量来考虑基分类器输出的原始特征,以建立分类器之间的基本差异。
3. 将矩阵 D 以(非)线性方式嵌入到一个空间 Rm(m < n)中。如果 D 是欧几里得矩阵,则可以精确嵌入;否则,可能需要进行近似嵌入,确定一个固定的低维空间来最优逼近 D,这个空间就是分类器投影空间(CPS)。
4. 如果 CPS 是二维的,则可以进行可视化,将基分类器、各种组合器以及其他决策规则在一个二维图中展示。可以选择经典缩放和 Samnion 映射等方法来构建 CPS。
#### 4. CPS 的应用实例
- **固定组合器**:以十类 MFEAT 数字数据集为例,选择傅里叶(74D)和形态学(6D)特征集,每个类随机选择 50 个对象作为训练集。考虑多种分类器,如最近(缩放)均值分类器(NM(S)C)、NLC、NUC(Uncorrelated Quadratic Classifier,不相关二次分类器)、NQC(Quadratic Classifier,二次分类器)、1 - NN 和 k - NN 规则、Parzen 分类器、线性或二次支持向量分类器(SVM - 1 或 SVM - 2)、决策树(DT)以及具有 20 或 50 个隐藏单元的前馈神经网络(ANN20 或 ANN50)。对于每个特征集,根据测试集(每个类 150 个对象)计算所有分类器和两个组合器(均值组合器 MEANC 和乘积组合器 PRODC)之间的分歧矩阵,然后通过多维缩放(MDS)过程构建二维 CPS。结果显示,均值组合器的性能优于乘积组合器,乘积组合器在处理一些多样性较大但性能较差的分类器时表现不佳。此外,多样性并不总是与准确性相关。
- **Bagging、Boosting 和随机子空间方法**:以 34 维的两类电离层数据集为例,使用 NMC(Nearest Mean Classifier,最近均值分类器)构建 50 个分类器的集成。在两个训
0
0
相关推荐










