【Python】剪辑法欠采样 CNN压缩近邻法欠采样_condensednearestneighbour原理-CSDN博客

本文链接：https://blog.csdn.net/qq_44886213/article/details/136180918

本文介绍了如何通过剪辑法和压缩近邻法来解决K近邻算法中的样本不平衡问题，包括剪辑法通过随机划分训练集并剔除分类错误样本，以及压缩近邻法则利用CNN原理动态调整训练集和测试集样本。这两种方法旨在提高模型的泛化性能和减少过拟合。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

借鉴：关于K近邻（KNN），看这一篇就够了！算法原理，kd树，球树，KNN解决样本不平衡，剪辑法，压缩近邻法 - 知乎

但是不要看他里面的代码，因为作者把代码里的一些符号故意颠倒了，比如“==”改成“!=”，还有乱加“~”，看明白逻辑才能给他改过来

一、剪辑法

当训练集数据中存在一部分不同类别数据的重叠时（在一部分程度上说明这部分数据的类别比较模糊），这部分数据会对模型造成一定的过拟合，那么一个简单的想法就是将这部分数据直接剔除掉即可，也就是剪辑法。

剪辑法将训练集 D 随机分成两个部分，一部分作为新的训练集 Dtrain，一部分作为测试集 Dtest，然后基于 Dtrain，使用 KNN 的方法对 Dtest 进行分类，并将其中分类错误的样本从整体训练集 D 中剔除掉，得到 Dnew。

由于对训练集 D 的划分是随机划分，难以保证数据重叠部分的样本在第一次剪辑时就被剔除，因此在得到 Dnew 后，可以对 Dnew 继续进行上述操作数次，这样可以得到一个比较清爽的类别分界。

效果如下图：

附上可直接运行的代码：

from sklearn import datasets
import matplotlib.pyplot as pyplot
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier as KNN
import numpy as np
from collections import Counter
from numpy import where

# make_classification用于手动构造数据
# 1000个样本，分成4类
X, y = datasets.make_classification(n_samples=1000, n_features=2,
                                            n_informative=2, n_redundant=0, n_repeated=0,
                                            n_classes=4, n_clusters_per_class=1)

# # # 画出二维散点图
# for label, _ in counter.items():
# 	row_ix = where(y == label)[0]
# 	pyplot.scatter(X[row_ix, 0], X[row_ix, 1], label=str(label))
# pyplot.legend()
# pyplot.show()

# 剪辑10次
for i in range(10):
    x_train, x_test, y_train,