机器学习实战第一章-k-邻近算法.pdf

preview
需积分: 0 1 下载量 73 浏览量 更新于2023-08-09 收藏 282KB PDF 举报
【机器学习实战】中的第一章主要介绍了机器学习的基本概念,并通过Python3实现了一个k-最近邻(k-Nearest Neighbors, k-NN)算法的案例。k-NN是一种监督学习算法,用于分类和回归问题,特别是在分类问题上应用广泛。在这个案例中,作者使用了一个简单的数据集来展示算法的工作原理。 书中创建了一个名为`createDataSet`的函数,生成了一组二维数据点,并分配了相应的类别标签"A"和"B"。这个函数的主要目的是构造一个易于理解的数据集,其中包含四个样本,两个属于类别"A",两个属于类别"B"。 接着,书中定义了一个核心函数`classify0`,该函数用于执行k-NN算法。它接受一个新数据点`inX`、一个数据集`dataSet`、对应的标签`labels`以及一个整数`k`作为参数。`classify0`函数首先计算新数据点与数据集中所有样本之间的欧氏距离,然后对这些距离进行排序,找出最近的k个邻居。接下来,它统计这k个邻居中每个类别的出现次数,并返回出现次数最多的类别作为预测结果。 在实际示例中,作者使用`classify0`函数对一个新数据点 `[0,1]` 进行分类,并打印出结果。这有助于读者理解如何使用该算法进行预测。 此外,书中提到了一个更复杂的应用场景——约会网站效果判定。海伦收集了约会对象的数据,并将其存储在文本文件`datingTestSet.txt`中。数据包含了每年飞行常客里程、玩游戏视频所占时间比、每周消费冰淇淋公升数这三个特征,以及用户对约会对象的反馈(不喜欢、魅力一般、极具魅力)。这部分内容是为了展示如何处理实际的数据集,以及如何用Python的`pandas`库来读取和预处理数据。书中展示了如何使用`pd.read_table`读取数据,`head()`函数查看数据的前几行,以及`shape`属性获取数据的行数和列数。此外,还提供了分析数据的方法,如根据最后一列的反馈类别为数据点分配不同的颜色,这可能用于后续的数据可视化。 这一章涵盖了k-NN算法的基本概念、实现细节以及在实际问题中的应用,同时也展示了如何使用Python的数据处理库进行数据预处理。通过这个例子,读者可以深入理解k-NN算法的工作流程,并掌握如何将其应用于实际数据。
身份认证 购VIP最低享 7 折!
30元优惠券