模式识别中相异度表示的研究进展与展望
发布时间: 2025-08-16 01:26:05 阅读量: 2 订阅数: 8 


模式识别中的差异性表示:理论与应用
# 模式识别中相异度表示的研究进展与展望
## 1. 接近性概念在学习中的重要性
接近性概念在从一组示例中学习的过程中具有根本性的地位。根据其作用,可将接近性分为相对接近性和概念接近性。相对接近性描述的是对象对之间的关系,而概念接近性则是将对象(或概念)与某个概念(如某一类别的高斯模型)相关联。对象常常通过相对接近性(量化它们的共性程度)绑定在一起形成一个类别,这也是紧凑性假设所依赖的必要条件,为学习算法的使用提供了依据。在学习阶段,会对类别的概念进行建模,而将对象分配到某个类别的任何决策都基于概念接近性,这是模式识别的基本原理。
## 2. 模式分析的两种方法
模式分析通常从描述一组对象的测量开始,这些测量会进一步预处理以得到合适的描述。构建这种描述可以基于两种不同的原则:统计方法和结构方法。
### 2.1 统计方法
在统计框架中,基本特征是对象属性编码为数值变量的特征。这些特征被假定对对象类别具有区分性,一组特征构成一个特征向量空间,每个对象在其中表示为一个点。通常会引入额外的结构,如内积、范数和欧几里得距离来丰富这个向量空间。学习过程与可以在这个空间中使用的数学方法内在相关。然而,这种方法最多只能发现从一组特征的统计信息中可以推断出的内容,对象所具有的结构组织(如形状元素的连通性)并未包含在表示中。
### 2.2 结构方法
在结构方法中,基本描述符是原语,即结构元素,如笔画、角或单词的词干,它们被编码为用于构建对象的句法单元。这种方法适用于包含固有、可识别结构或组织的对象问题,如图形、光谱、图像或文本。对象中存在一些潜在因素,如顺序、时间、层次结构或功能关系(如句子中单词之间的关系),描述了形态原语之间的相互关系。在结构方法中,假设存在足够且适当制定的问题知识,通常在专家的帮助下开发和编码,以便构建对象和类别的结构描述。学习依赖于定义句法语法或比较对象的方法,通常在匹配过程中进行。原则上,为此目的使用特定的标准,因此整个过程是特定领域的。
### 2.3 两种方法的比较与结合
结构方法的优势在于编码领域知识和对象内部的关系,捕捉其内部结构组织;统计方法的优势在于向量空间有完善的数学理论。由于这两种方法是互补的,它们的结合可以弥补各自的缺点,同时保留优点。已经有一些在这方面的尝试,例如将统计信息与结构元素关联以解决一些歧义。另一种可能性是在两个框架中构建分类器并结合它们的决策,但这些策略是混合的。从两种框架的特性来看,统一应该在表示层面实现。可以先基于结构信息得到描述,然后将其编码以获得数值表示,用于统计学习。接近性表示是一个自然的选择,它是一种相对表示,其中每个对象由与所谓表示对象的一组接近性来描述,也可以构建概念接近性表示来测量对象与类别或分类器诱导的决策边界的接近性。
## 3. 相异度表示的研究与应用
为了限制研究范围,将接近性建模为相异度,以关注类别和对象之间的差异。主要目标是为相异度表示提供基础并开发(统计)学习方法。统计学习框架自然是一个不错的选择,因为它为进一步开发具有结构感知的相异度度量提供了良好的泛化能力。
### 3.1 相异度表示的解释框架
相异度表示需要在适当的框架中进行解释。由于相异度表达了对象对之间的相对差异,而学习算法是为所选数值模型优化某种误差,因此需要处理问题的数值表示。具有不同特征的空间会导致对相异度数据的不同解释,从而产生不同的学习算法。
### 3.2 相异度的特征化与学习方法
- **相异度的特征化**:度量相异度具有有利的属性,因为许多数值方法在度量空间(更具体地说是欧几里得空间)中操作。对相异度进一步根据欧几里得和度量属性进行特征化,研究了线性伪欧几里得嵌入以及非线性多维缩放。
- **学习方法**:引入了三种主要的相异度表示学习框架,它们基于对相异度的不同解释:
1. 基于相异度球邻域的对象之间的关系。
2. 在嵌入空间中,原始相异度得以保留,通过线性伪欧几里得嵌入找到。
3. 在相异度空间中,每个维度是与特定对象的相异度。
### 3.3 实验分析
通过一系列实验对相异度表示进行了实际分析:
- **可视化技术**:研究了一些知名的可视化技术及其对相异度数据的有用性,结论是多维缩放技术和 Isomap 能为数据中的关系提供有用的见解。
- **数据探索方法**:进一步关注有助于数据探索的方法,研究了相异度表示中的结构和复杂性的三个主要问题:聚类技术、内在维度和采样。在三种解释框架中提出了多种聚类方法,相异度空间中的聚类初步结果很有前景。还推导了从超球形高斯样本的欧几里得距离表示中对内在维度的统计估计,并提出和检验了一些标准,用于量化表示集是否包含足够数量的对象来描述一个类别。
- **分类器构建**:构建了基于相异度表示的单类分类器(OCCs),提出了两种新的 OCCs,一种在嵌入空间中,一种在相异度空间中,并成功应用于一些实际问题。非度量相异度度量在处理噪声数据的领域描述问题中似乎效果良好。
- **分类问题分析**:分析了具有不同属性(欧几里得、非欧几里得度量和非度量)的相异度度量在分类问题中的应用。实验表明,在相异度或嵌入空间中构建的简单线性或二次分类器在较小的表示集情况下可能显著优于 k - NN 规则,而不管相异度是否为度量。还研究了将相异度度量转换为(更)欧几里得(因此更具度量性)的方法,但发现强加的欧几里得行为并不能保证更好的性能,更重要的是度量能够描述紧凑的类别。
- **原型选择标准**:为嵌入和相异度空间提出并研究了各种原型选择标准,表明系统的程序(利用标签信息)是有益的,特别是对于少量原型。对于非常小的表示集,基于分类器的交叉验证误差的监督选择或基于分类误差的前向特征选择方法是最好的。一般来说,对于所有表示集大小,k - 中心聚类能找到好的原型,特别是对于多模态数据。在相异度空间中,通过稀疏线性规划选择的表示集具有良好的区分能力,但缺点是无法控制所选原型的数量,因此 k - 中心选择后再进行稀疏线性规划可能会
0
0
相关推荐









