【免费】机器学习实战第一章-k-邻近算法.pdf资源-CSDN下载

需积分: 0 73 浏览量更新于2023-08-09 收藏 282KB PDF 举报

【机器学习实战】中的第一章主要介绍了机器学习的基本概念，并通过Python3实现了一个k-最近邻(k-Nearest Neighbors, k-NN)算法的案例。k-NN是一种监督学习算法，用于分类和回归问题，特别是在分类问题上应用广泛。在这个案例中，作者使用了一个简单的数据集来展示算法的工作原理。书中创建了一个名为`createDataSet`的函数，生成了一组二维数据点，并分配了相应的类别标签"A"和"B"。这个函数的主要目的是构造一个易于理解的数据集，其中包含四个样本，两个属于类别"A"，两个属于类别"B"。接着，书中定义了一个核心函数`classify0`，该函数用于执行k-NN算法。它接受一个新数据点`inX`、一个数据集`dataSet`、对应的标签`labels`以及一个整数`k`作为参数。`classify0`函数首先计算新数据点与数据集中所有样本之间的欧氏距离，然后对这些距离进行排序，找出最近的k个邻居。接下来，它统计这k个邻居中每个类别的出现次数，并返回出现次数最多的类别作为预测结果。在实际示例中，作者使用`classify0`函数对一个新数据点 `[0,1]` 进行分类，并打印出结果。这有助于读者理解如何使用该算法进行预测。此外，书中提到了一个更复杂的应用场景——约会网站效果判定。海伦收集了约会对象的数据，并将其存储在文本文件`datingTestSet.txt`中。数据包含了每年飞行常客里程、玩游戏视频所占时间比、每周消费冰淇淋公升数这三个特征，以及用户对约会对象的反馈（不喜欢、魅力一般、极具魅力）。这部分内容是为了展示如何处理实际的数据集，以及如何用Python的`pandas`库来读取和预处理数据。书中展示了如何使用`pd.read_table`读取数据，`head()`函数查看数据的前几行，以及`shape`属性获取数据的行数和列数。此外，还提供了分析数据的方法，如根据最后一列的反馈类别为数据点分配不同的颜色，这可能用于后续的数据可视化。这一章涵盖了k-NN算法的基本概念、实现细节以及在实际问题中的应用，同时也展示了如何使用Python的数据处理库进行数据预处理。通过这个例子，读者可以深入理解k-NN算法的工作流程，并掌握如何将其应用于实际数据。