不同类型数据的相异性度量方法
立即解锁
发布时间: 2025-08-16 01:26:00 阅读量: 1 订阅数: 8 


模式识别中的差异性表示:理论与应用
# 不同类型数据的相异性度量方法
## 1 引言
在处理数据时,相异性度量是一项重要的技术,它可以帮助我们衡量不同对象之间的差异程度。相异性度量在许多领域都有广泛的应用,如模式识别、机器学习、数据挖掘等。本文将介绍不同类型数据的相异性度量方法,包括二元数据、分类数据、有序数据、定量数据和符号数据等。
## 2 特征类型
在统计方法中,数据对象通常由特征来描述。常见的特征类型包括:
- **二元特征**:取值只有两个符号或两个数字,例如用 0/1 编码性别。
- **分类特征**:取值为有限的离散数字集合,例如用 1 到 4 编码头发颜色,也包括可计数的离散特征,如孩子的数量。
- **定量特征**:在一个区间上进行测量,取值为实数的凸子集,例如身高、温度等。
- **有序特征**:取值为有限的有序符号集合,例如用 1 到 5 表示对某种食品的喜好程度。
- **符号特征**:取值为有限的离散符号集合,例如国籍。
## 3 不同特征类型的相异性度量
### 3.1 二元数据的度量
二元特征只有两种可能的值,分别表示某个特征的存在(1)或缺失(0)。对于第 i 个对象,用二元向量 $x_i \in \{0, 1\}^m$ 表示。通过定义以下计数器:
- $a_{ij} = x_i^T x_j$:两个对象共同拥有的属性数量。
- $b_{ij} = x_i^T (1 - x_j)$:对象 i 有而对象 j 缺失的属性数量。
- $c_{ij} = (1 - x_i)^T x_j$:对象 j 有而对象 i 缺失的属性数量。
- $d_{ij} = (1 - x_i)^T (1 - x_j)$:两个对象都缺失的属性数量。
基于这些计数器,可以提出许多相异性度量方法,部分示例如下表所示:
| 序号 | 相似性度量 S | 范围 | S psd | 相异性度量 D | D = (1 - S)t | M | E | D = 1 - S | M | E |
| --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- |
| 1 | $\frac{a}{a + b + c + d}$ | - | Yes | - | Yes | Yes | Yes | Yes | Yes | Yes |
| 2 | $\frac{a + d}{a + b + c + d}$ | - | Yes | - | Yes | Yes | Yes | Yes | Yes | Yes |
| 3 | $\frac{a}{a + b + c}$ | - | No | - | No | No | No | No | No | No |
| 4 | $\frac{a}{a + \frac{1}{2}(b + c)}$ | - | Yes | - | Yes | Yes | Yes | Yes | Yes | Yes |
| 5 | $\frac{a + d}{a + \frac{1}{2}(b + c) + d}$ | - | Yes | - | Yes | Yes | Yes | Yes | Yes | Yes |
| 6 | $\frac{a}{a + 2(b + c)}$ | - | No | - | No | No | No | No | No | No |
| 7 | $\frac{a + d}{a + 2(b + c) + d}$ | - | No | - | No | No | No | No | No | No |
| 8 | $\frac{a}{a + b + c + d} + \frac{d}{a + b + c + d}$ | - | Yes | - | Yes | Yes | Yes | Yes | Yes | Yes |
| 9 | $\frac{c + d}{b + d}$ | - | No | - | No | No | No | No | No | No |
| 10 | $\frac{(a + d) - (b + c)}{a + b + c + d}$ | - | Yes | - | Yes | Yes | Yes | Yes | Yes | Yes |
| 11 | $\frac{ad - bc}{ad + bc}$ | - | Yes | - | Yes | Yes | Yes | Yes | Yes | Yes |
Gower 还引入了两个依赖参数 $\theta$ 的二元相似系数家族:
$S_{\theta} = \frac{a}{a + \theta (b + c)}$ 和 $T_{\theta} = \frac{a + d}{a + d + \theta (b + c)}$
其相异性度量 $1 - S_{\theta}$ 和 $1 - T_{\theta}$ 的度量和欧几里得性质依赖于 $\theta$:
- 当 $\theta \geq 1$ 时,$(1 - S_{\theta})$ 和 $(1 - T_{\theta})$ 是度量的。
- 当 $\theta \geq \frac{1}{3}$ 时,$(1 - S_{\theta})$ 和 $(1 - T_{\theta})$ 是度量的。
- 当 $\theta \geq 1$ 时,$(1 - S_{\theta})^2$ 是欧几里得的;当 $\theta \geq \frac{1}{2}$ 时,$(1 - T_{\theta})^2$ 是欧几里得的。
### 3.2 分类数据的度量
对于分类数据,可以将其编码为二元向量,然后使用二元数据的相异性度量方法。具体来说,将一个 m 维的数据向量 $x_i$ 编码为一个 c 维的二元向量 $\tilde{x}_i$。
### 3.3 有序数据的度量
对于有序变量,相异性度量应考虑类别在顺序中的位置。一种方法是使用 Jaccard 相异性的推广,另一种方法是将有序向量编码为二元向量,然后使用二元相异性度量。
### 3.4 定量数据的度量
定量变量有许多相异性度量方法,大多数是在分别计算每个变量的差异后以加法方式构建的。常见的度量方法包括:
| 参考 | 相异性度量 $d(x, y)$ | M | E |
| --- | --- | --- | --- |
| 欧几里得 | $\sqrt{(x - y)^T (x - y)}$ | Yes | Yes |
| 加权欧几里得 | $\sqrt{(x - y)^T C^{-1} (x - y)}$($C$ 是半正定的) | Yes | Yes
0
0
复制全文
相关推荐









