【机器学习】k-近邻算法（k-nearest neighbor, k-NN）

最新推荐文章于 2020-11-09 17:01:37 发布

Day-yong

最新推荐文章于 2020-11-09 17:01:37 发布

阅读量1.4k

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Daycym/article/details/81104623

机器学习专栏收录该内容

50 篇文章

订阅专栏

本文介绍了K近邻算法的基本原理，包括输入实例特征向量、输出实例类别等概念。详细阐述了K近邻法的工作机制，如基于距离度量找出训练集中与测试样本最邻近的K个训练样本，通过多数表决进行预测。此外，还讨论了K值选择、距离度量和分类决策规则等关键要素。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

$k$ 近邻学习是一种常用的监督学习方法。

$k$ 近邻法的输入为实例的特征向量，对应于特征空间的点；输出为实例的类别，可以取多类。

$k$ 近邻法的工作机制很简单：给定测试样本，基于某种距离度量（关于距离度量可以点击此处）找出训练集中与其最靠近的 $k$ 个训练样本，然后基于这 $k$ 个“邻居”的信息来进行预测。

分类时，对新的实例，根据其 $k$ 个最邻近的训练实例的类别（通过距离度量求得），通过多数表决等方式进行预测，也即“投票法”（选择着 $k$ 个样本中出现次数最多的类别标记作为预测结果）。因此， $k$ 近邻法不具有显示的学习过程，事实上，它是“懒惰学习”的著名代表。

$k$ 近邻法实际上利用训练数据集对特征空间进行划分，并作为其分类的“模型”； $k$ 值的选择、距离度量及分类决策规则是 $k$ 近邻法的三个基本要素。

$k$ 近邻算法
输入：训练数据集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ ，其中， $x_i \in \mathcal{X} = R^n$ 为实例的特征向量， $y_i \in \mathcal{Y} = \{c_1,c_2,...,c_K\}$ 为实例的类别， $i=1,2,...,N$ ；实例特征向量 $x$ ；

输出：实例 $x$ 所属的类的 $y$ 。

（1）根据给定的距离度量，在训练数据集 $T$ 中找出与 $x$ 最邻近的 $k$ 个点，涵盖这 $k$ 个点的 $x$ 的领域记作 $N_k(x)$ ;
（2）在 $N_k(x)$ 中根据分类决策规则（如多数表决）决定 $x$ 的类别 $y$ ：

$y = a r g max c j \sum x i \in N k (x) I (y i = c j), i = 1, 2, . . ., N; j = 1, 2, . . ., K$ $y=arg \max_{c_j} \sum_{x_i \in N_k(x)} I(y_i = c_j), i=1,2,...,N; j = 1, 2,...,K$

其中， $I$ 为指示函数，即当 $y_i = c_j$ 时 $I$ 为1，否则为0
k邻近法的特殊情况是 $k=1$ 的情形，称为最近邻算法；对于输入的实例点（特征向量 $x$ ），最近邻法将训练数据集中与 $x$ 最邻近的点的类作为 $x$ 的类。

$k$ 近邻模型
$k$ 近邻法中，当训练集、距离度量、 $k$ 值以及分类决策规则确定后，对于任何一个新的输入实例，它所属的类唯一地确定。这相当于根据上诉要素将特征空间划分为一些子空间，确定子空间里的每个点的属性的类。

下面我们来看看 $k$ 近邻分类器的一个示意图。

图中可以看出，当 $k=3$ 时，根据多数表决规则，则分类结果为红点；当 $k=5$ 时，则分类结果为绿色。显然， $k$ 是一个重要的参数，当 $k$ 的取不同值时，分类结果会有显著不同。另一方面，如采用不同的距离度量方式，则找出的“近邻”也可能会有显著差别，从而导致不同的分类结果。

注：对于距离度量、值选择以及分类决策规则，下篇博客中更新。
参考文献：李航《统计学习分析》、图灵书籍《机器学习实战》

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。