向量距离与相似度（Distance and Similarity）

不负韶华ღ

已于 2022-10-18 07:08:47 修改

阅读量976

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习（基础）文章标签：概率论机器学习算法

于 2022-10-16 08:29:44 首次发布

本文链接：https://blog.csdn.net/weixin_49346755/article/details/127343478

深度学习（基础）专栏收录该内容

21 篇文章

订阅专栏

本文介绍了几种常见的距离函数，包括闵可夫斯基距离、曼哈顿距离、欧式距离、切比雪夫距离、海明距离及KL散度，并讨论了余弦相似度、皮尔逊相关系数和Jaccard相似系数等相似度函数。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

假设当前有两个 $n$ 维向量 $x$ 和 $y$ ，可以通过两个向量之间的距离或者相似度来判定这两个向量的相近程度，显然两个向量之间距离越小，相似度越高；两个向量之间距离越大，相似度越低。

常见的距离函数

闵可夫斯基距离（Minkowski Distance）

$MinkowskiDistance=(∑i=1n∣xi−yi∣p)1pMinkowskiDistance=\displaystyle (\sum^n_{i=1}|x_i-y_i|^p)^{\frac 1 p}$ Minkowski Distane 是对多个距离度量公式概括性的表述，当 $p = 1$ 时，Minkowski Distane 便是曼哈顿距离；当 $p = 2$ 时，Minkowski Distane 便是欧式距离；Minkowski Distane 取极限的形式便是切比雪夫距离。

曼哈顿距离（Manhattan Distance）

$ManhattanDistance=∑i=1n∣xi−yi∣ManhattanDistance=\displaystyle \sum^n_{i=1}|x_i-y_i|$

欧式距离/欧几里得距离（Euclidean distance）

$\displaystyle \sqrt {\sum^n_{i=1}(x_i-y_i)^2}$

切比雪夫距离（Chebyshev Distance）

$\displaystyle \lim_{p \rightarrow \infin} (\sum^n_{i=1}|x_i-y_i|^p)^{\frac 1 p}=\max(|x_i-y_i|)$

海明距离（Hamming Distance）

在信息论中，两个等长字符串之间的海明距离是两个字符串对应位置的不同字符的个数。假设有两个字符串分别是： $x=[x_1,x_2,...,x_n]$ 和 $y=[y_1,y_2,...,y_n]$ ，则两者的距离为： $HammingDistance=∑i=1nΠ(xi=yi)HammingDistance=\displaystyle \sum^n_{i=1} \Pi(x_i=y_i)$ 其中， $Π\Pi$ 表示指示函数，两者相同为1，否则为0。

KL散度（Kullback-Leibler Divergence）

给定随机变量X和两个概率分布P和Q，KL散度可以用来衡量两个分布之间的差异性，其公式如下： $KL(P∣∣Q)=∑x∈XP(x)log⁡P(x)Q(x)KL(P||Q)=\displaystyle \sum_{x \in X}P(x)\log \frac {P(x)} {Q(x)}$ 推导：

在信息理论中，相对熵（KL散度）是用来度量使用基于 $Q$ 的编码来编码来自 $P$ 的样本平均所需的额外的比特个数。典型情况下， $P$ 表示数据的真实分布， $Q$ 表示数据的理论分布，模型分布，或 $P$ 的近似分布。给定一个字符集的概率分布，我们可以设计一种编码，使得表示该字符集组成的字符串平均需要的比特数最少。假设这个字符集是 $X$ ，对 $\in X$ ，其出现概率为 $P (x)$ ，那么其最优编码平均需要的比特数等于这个字符集的熵： $H(x)=−∑x∈XP(x)log⁡1Q(x)H(x)=-\displaystyle \sum_{x \in X} P(x) \log \frac {1} {Q(x)}$ 在同样的字符集上，假设存在另一个概率分布 $Q (x)$ ，如果用概率分布 $P (x)$ 的最优编码(即字符 $x$ 的编码长度等于 $log⁡1P(x)\displaystyle \log \frac 1 {P(x)}$ )，来为符合分布 $P (x)$ 的字符编码，那么表示这些字符就会比理想情况多用一些比特数。相对熵就是用来衡量这种情况下平均每个字符多用的比特数，因此可以用来衡量两个分布的距离，即： $KL(P∣∣Q)=−∑x∈XP(x)log⁡1P(x)+∑x∈XP(x)log⁡1Q(x)=∑x∈XP(x)log⁡P(x)Q(x)KL(P||Q)=-\displaystyle \sum_{x \in X} P(x) \log \frac {1} {P(x)}+\displaystyle \sum_{x \in X} P(x) \log \frac {1} {Q(x)}=\sum_{x \in X}P(x)\log \frac {P(x)} {Q(x)}$

常见的相似度函数

余弦相似度（Cosine Similarity）

$\displaystyle \frac {x \cdot y} {|x| \cdot |y|}=\frac {\sum_{i=1}^nx_i \cdot y_i} {\sqrt {\sum^n_{i=1}x_i^2} \cdot \sqrt {\sum^n_{i=1}y_i^2}}$

皮尔逊相关系数（Pearson Correlation Coefficient）

给定两个随机变量X和Y，皮尔逊相关系数可以用来衡量两者的相关程度，公式如下: $Pearson(X,Y)=cov(X,Y)σXσY=E[(X−μX)(Y−μY)]σXσY=∑i=1n(Xi−X‾)(Yi−Y‾)∑i=1n(Xi−X‾)2∑i=1n(Yi−Y‾)2\begin{aligned} Pearson(X,Y)&= \frac {cov(X,Y)} {\sigma_X\sigma_Y}\\ &=\frac {E[(X-\mu_X)(Y-\mu_Y)]} {\sigma_X \sigma_Y}\\ &=\frac {\sum^n_{i=1}(X_i- \overline X)(Y_i-\overline Y)} {\sqrt {\sum^n_{i=1}(X_i-\overline X)^2} \sqrt {\sum^n_{i=1}(Y_i-\overline Y)^2}} \end{aligned}$ 其中 $μ_X$ 和 $μ_Y$ 分别表示向量 $X$ 和 $Y$ 的均值， $σ_X$ 和 $σ_Y$ 分别表示向量 $X$ 和 $Y$ 的标准差。