活动介绍

西瓜数据集的k-means聚类算法python代码实现

时间: 2023-10-01 22:03:40 浏览: 212
可以参考以下代码实现: ```python import pandas as pd from sklearn.cluster import KMeans from sklearn.preprocessing import StandardScaler # 读取数据 data = pd.read_csv('watermelon.csv') X = data.iloc[:, 1:3].values # 特征缩放 scaler = StandardScaler() X_scaled = scaler.fit_transform(X) # KMeans聚类 kmeans = KMeans(n_clusters=3, random_state=42) kmeans.fit(X_scaled) # 输出聚类结果 labels = kmeans.labels_ print(labels) ``` 其中,`watermelon.csv`是西瓜数据集的文件名,数据集中第一列是编号,第二列和第三列是特征。代码中使用`pandas`库读取数据,并使用`sklearn.preprocessing`库的`StandardScaler`进行特征缩放。然后使用`sklearn.cluster`库的`KMeans`进行聚类,其中`n_clusters`参数指定聚类簇数,`random_state`参数指定随机种子。最后输出聚类结果。
相关问题

一、 实验内容 西瓜数据集(watermelon.txt)各个特征的含义如下: 数据集的每一行由3个数值组成,前2个数字用\t分隔,后2个数字用空格分隔。 对于数据集文件watermelon.txt,请编写MapReduce程序,同时采用密度和含糖率数据作为特征,设类别数为2,利用 K-Means 聚类方法通过多次迭代对数据进行聚类。输出聚类结果,包括数据点信息与对应簇序号,并观察输出结果是否正确; 9. 使用Python将聚类结果表示在二维平面上。写出完整代码

由于题目中要求使用MapReduce编写K-Means算法,这里给出使用Hadoop Streaming实现的代码。 1. Mapper mapper读入每行数据,将密度和含糖率作为特征,输出键值对(簇序号,数据点信息)。 ```python #!/usr/bin/env python import sys # 读入聚类中心 centers = [] with open('centers.txt', 'r') as f: for line in f: center = line.strip().split('\t') centers.append((float(center[0]), float(center[1]))) # mapper for line in sys.stdin: data = line.strip().split('\t') x = float(data[0]) y = float(data[1]) min_dist = float('inf') cluster = -1 for i in range(len(centers)): center_x, center_y = centers[i] dist = (x - center_x) ** 2 + (y - center_y) ** 2 if dist < min_dist: min_dist = dist cluster = i print('{}\t{} {} {}'.format(cluster, x, y, data[2])) ``` 2. Reducer reducer读入每个簇的数据点信息,计算新的聚类中心,并输出键值对(新的簇序号,数据点信息)。 ```python #!/usr/bin/env python import sys # reducer cluster_dict = {} for line in sys.stdin: data = line.strip().split('\t') cluster = int(data[0]) x = float(data[1]) y = float(data[2]) info = data[3] if cluster not in cluster_dict: cluster_dict[cluster] = [(x, y)] else: cluster_dict[cluster].append((x, y)) for cluster in cluster_dict: center_x = sum([point[0] for point in cluster_dict[cluster]]) / len(cluster_dict[cluster]) center_y = sum([point[1] for point in cluster_dict[cluster]]) / len(cluster_dict[cluster]) print('{}\t{} {}\t{}'.format(cluster, center_x, center_y, len(cluster_dict[cluster]))) for point in cluster_dict[cluster]: print('{}\t{} {} {}'.format(cluster, point[0], point[1], info)) ``` 3. Driver driver程序用于多次迭代运行MapReduce程序,并将最终的聚类结果写入文件。 ```python #!/usr/bin/env python import os import shutil # 删除旧的输出目录 if os.path.exists('output'): shutil.rmtree('output') # 第一次迭代 os.system('hadoop jar /path/to/hadoop-streaming.jar \ -files mapper.py,reducer.py,centers.txt \ -input /path/to/watermelon.txt \ -output output/iter0 \ -mapper "python mapper.py" \ -reducer "python reducer.py"') # 迭代次数 iter_num = 10 # 迭代 for i in range(1, iter_num+1): # 更新聚类中心 os.system('hadoop fs -cat output/iter{}/part* > centers.txt'.format(i-1)) # 运行MapReduce程序 os.system('hadoop jar /path/to/hadoop-streaming.jar \ -D mapreduce.job.reduces=2 \ -files mapper.py,reducer.py,centers.txt \ -input /path/to/watermelon.txt \ -output output/iter{} \ -mapper "python mapper.py" \ -reducer "python reducer.py"'.format(i)) # 输出最终聚类结果 os.system('hadoop fs -cat output/iter{}/part* > result.txt'.format(iter_num)) ``` 4. 可视化 使用matplotlib库将聚类结果表示在二维平面上。 ```python import matplotlib.pyplot as plt x1, y1 = [], [] x2, y2 = [], [] with open('result.txt', 'r') as f: for line in f: data = line.strip().split('\t') x = float(data[1]) y = float(data[2]) cluster = int(data[0]) if cluster == 0: x1.append(x) y1.append(y) else: x2.append(x) y2.append(y) plt.scatter(x1, y1, s=50, c='r', marker='o', label='cluster1') plt.scatter(x2, y2, s=50, c='b', marker='o', label='cluster2') plt.legend() plt.show() ``` 完整代码:

西瓜数据集(watermelon.txt)各个特征的含义如下: 数据集的每一行由3个数值组成,前2个数字用\t分隔,后2个数字用空格分隔。 对于数据集文件watermelon.txt,请编写MapReduce程序,同时采用密度和含糖率数据作为特征,设类别数为2,利用 K-Means 聚类方法通过多次迭代对数据进行聚类。不使用第三方库,选取合适的Spark RDD转换算子和行动算子实现Kmeans算法,完成实验内容; 5. 基于Spark MLlib,实现Kmeans聚类计算,利用idea写出完整代码以及所需的pom文件

由于题目中要求使用MapReduce程序实现K-Means算法,因此我们需要先将数据转换为key-value对的形式,以便于MapReduce程序的处理。我们可以将每个数据点看作是一个二维坐标系中的点,将其坐标作为key,将其所属的聚类中心作为value。具体实现如下: 1. 数据预处理 首先读取数据集文件watermelon.txt,将其中的每一行解析为一个二维坐标和所属聚类中心的编号。对于每个聚类中心,我们可以随机指定一个初始坐标,将其作为第一次迭代的聚类中心。 ```python # 读取数据集文件 data = sc.textFile("watermelon.txt") # 解析每个数据点 parsed_data = data.map(lambda line: tuple(map(float, line.split()))) # 随机初始化聚类中心 k = 2 centers = parsed_data.takeSample(False, k, 1) ``` 2. K-Means算法迭代 接下来,我们可以使用MapReduce程序实现K-Means算法的迭代过程。在每次迭代中,我们需要对数据集中的每个点计算其与各个聚类中心的距离,并将其分配到距离最近的聚类中心所属的聚类中。然后,我们需要重新计算每个聚类中心的坐标,将其调整为该聚类中所有点的平均值。这样就完成了一次迭代,我们可以将新的聚类中心用于下一次迭代。 ```python # 迭代次数 iterations = 10 for i in range(iterations): # 计算每个点与各个聚类中心的距离,将其分配到距离最近的聚类中心所属的聚类中 cluster_assignment = parsed_data.map(lambda point: (closest_center(point, centers), point)) # 计算新的聚类中心 new_centers = cluster_assignment.groupByKey().mapValues(lambda points: average_points(points)).collect() # 更新聚类中心 for center in new_centers: centers[center[0]] = center[1] ``` 其中,closest_center函数用于计算每个点距离最近的聚类中心的编号,average_points函数用于计算一组点的平均值。 ```python def closest_center(point, centers): """返回距离最近的聚类中心的编号""" closest_center = 0 closest_distance = float('inf') for i in range(len(centers)): distance = euclidean_distance(point, centers[i]) if distance < closest_distance: closest_distance = distance closest_center = i return closest_center def average_points(points): """计算一组点的平均值""" num_points = len(points) if num_points == 0: return [0.0, 0.0] x = sum([point[0] for point in points]) / num_points y = sum([point[1] for point in points]) / num_points return [x, y] def euclidean_distance(p1, p2): """计算两个点之间的欧几里得距离""" return ((p1[0] - p2[0]) ** 2 + (p1[1] - p2[1]) ** 2) ** 0.5 ``` 3. 结果输出 最后,我们可以将聚类结果输出到文件中,以便于后续的分析和可视化。 ```python # 将聚类结果输出到文件中 cluster_assignment.map(lambda pair: f"{pair[1][0]}\t{pair[1][1]}\t{pair[0]}").saveAsTextFile("output") ``` 完整代码如下: ```python from pyspark import SparkContext # 初始化SparkContext sc = SparkContext() # 解析数据集文件 data = sc.textFile("watermelon.txt") parsed_data = data.map(lambda line: tuple(map(float, line.split()))) # 随机初始化聚类中心 k = 2 centers = parsed_data.takeSample(False, k, 1) # 迭代次数 iterations = 10 for i in range(iterations): # 计算每个点与各个聚类中心的距离,将其分配到距离最近的聚类中心所属的聚类中 cluster_assignment = parsed_data.map(lambda point: (closest_center(point, centers), point)) # 计算新的聚类中心 new_centers = cluster_assignment.groupByKey().mapValues(lambda points: average_points(points)).collect() # 更新聚类中心 for center in new_centers: centers[center[0]] = center[1] # 将聚类结果输出到文件中 cluster_assignment.map(lambda pair: f"{pair[1][0]}\t{pair[1][1]}\t{pair[0]}").saveAsTextFile("output") def closest_center(point, centers): """返回距离最近的聚类中心的编号""" closest_center = 0 closest_distance = float('inf') for i in range(len(centers)): distance = euclidean_distance(point, centers[i]) if distance < closest_distance: closest_distance = distance closest_center = i return closest_center def average_points(points): """计算一组点的平均值""" num_points = len(points) if num_points == 0: return [0.0, 0.0] x = sum([point[0] for point in points]) / num_points y = sum([point[1] for point in points]) / num_points return [x, y] def euclidean_distance(p1, p2): """计算两个点之间的欧几里得距离""" return ((p1[0] - p2[0]) ** 2 + (p1[1] - p2[1]) ** 2) ** 0.5 ``` 这里仅提供了使用MapReduce程序实现K-Means算法的实现方式,如果需要使用Spark MLlib进行K-Means聚类计算,可以参考以下代码: ```python from pyspark.ml.clustering import KMeans from pyspark.sql import SparkSession # 初始化SparkSession spark = SparkSession.builder.appName("KMeans").getOrCreate() # 读取数据集文件 data = spark.read.format("libsvm").load("watermelon.txt") # 训练K-Means模型 kmeans = KMeans(k=2, seed=1) model = kmeans.fit(data) # 输出聚类结果 print("Cluster Centers:") centers = model.clusterCenters() for center in centers: print(center) ``` 其中,libsvm格式的数据集文件是指每行数据的格式为"标签 特征1:值1 特征2:值2 ...",在这里我们可以将标签设为0,将密度和含糖率作为两个特征。在输出聚类结果时,我们可以通过model.clusterCenters()获取聚类中心的坐标,从而进行后续分析和可视化。
阅读全文

相关推荐

最新推荐

recommend-type

rust-std-static-1.54.0-3.module_el8.5.0+1023+0c63d3d6.tar.gz

# 适用操作系统:Centos8 #Step1、解压 tar -zxvf xxx.el8.tar.gz #Step2、进入解压后的目录,执行安装 sudo rpm -ivh *.rpm
recommend-type

获取本机公网IP发送到飞书群脚本

#获取本机公网IP发送到飞书群 #需要安装jq软件 #需要创建一个飞书群的机器人
recommend-type

SimulinkSF平台下纯电动+四档变速箱动力性与经济性仿真模型及其应用 · 电动汽车 完整版

内容概要:本文介绍了一个基于Simulink/SF平台开发的纯电动加四档变速箱的仿真模型。该模型旨在通过对电动汽车的驱动力和能耗进行精确数据分析,为设计和优化提供参考。文中详细描述了VCU控制模型和换档控制模型的功能,这两个模型分别负责车辆的动力性控制和换档操作,确保汽车在不同速度和负载下获得最佳性能。此外,还涵盖了动力性与经济性仿真的具体应用场景,如最高车速、最大爬坡度、加速时间和能耗续航等方面的模拟。最后,提供了详细的建模及使用说明文档,方便初学者理解和使用。 适合人群:从事新能源汽车研发的专业人士、研究人员及高校相关专业师生。 使用场景及目标:适用于电动汽车的设计与优化,帮助理解车辆性能并为后续改进提供依据。也可作为教学工具,帮助学生掌握电动汽车核心技术。 其他说明:未来将继续优化此模型,以更好地支持新能源汽车的发展。
recommend-type

【超表面】基于matlab生成超表面布局并模拟超透镜作为点源的叠加【含Matlab源码 13984期】.zip

Matlab领域上传的视频是由对应的完整代码运行得来的,完整代码皆可运行,亲测可用,适合小白; 1、从视频里可见完整代码的内容 主函数:main.m; 调用函数:其他m文件;无需运行 运行结果效果图; 2、代码运行版本 Matlab 2019b;若运行有误,根据提示修改;若不会,私信博主; 3、运行操作步骤 步骤一:将所有文件放到Matlab的当前文件夹中; 步骤二:双击打开main.m文件; 步骤三:点击运行,等程序运行完得到结果; 4、仿真咨询 如需其他服务,可私信博主; 4.1 博客或资源的完整代码提供 4.2 期刊或参考文献复现 4.3 Matlab程序定制 4.4 科研合作
recommend-type

西门子S1200与霍尼韦尔电动比例阀PID控制恒温恒压供冷却水系统方案及Eplan电气图纸详解 工业自动化 高效版

内容概要:本文介绍了基于西门子S1200P ID和霍尼韦尔电动比例阀的PID控制系统,旨在实现冷却水的恒温恒压供应。文中详细解释了系统的工作原理,包括PID控制算法的应用、霍尼韦尔电动比例阀对水温的调控机制、两台西门子V20变频器对水压的调控机制,以及整个系统的代码分析框架和Eplan电气图纸的作用。此外,还探讨了该系统在提高生产效率、质量和降低成本方面的好处。 适合人群:从事工业自动化领域的工程师和技术人员,尤其是那些负责冷却水系统的设计、安装和维护的专业人士。 使用场景及目标:适用于需要精确控制冷却水温度和压力的工业环境,如制造业工厂、化工厂等。目标是确保冷却水系统稳定运行,提升生产效率并节约能源。 其他说明:文中提到的具体代码未公开,但提供了详细的代码分析框架,帮助读者理解和实现类似系统。Eplan电气图纸则有助于更好地理解系统架构和维护方法。
recommend-type

GHCN气象站邻接矩阵的Python实现及地理距离应用

根据提供的文件信息,我们可以解析出以下知识点: **标题:“GHCN_邻接矩阵”** 全球历史气候网络(Global Historical Climatology Network,简称GHCN)是一个国际性项目,旨在收集和提供全球范围内的历史气候数据。邻接矩阵(Adjacency Matrix)是图论中的一个概念,用来表示图中各个顶点之间的相邻关系。 **知识点详细说明:** 1. **全球历史气候网络(GHCN):** - GHCN是一个汇集了全球范围内的历史气候数据资料的大型数据库。该数据库主要收集了全球各地的气象站提供的气温、降水、风速等气象数据。 - 这些数据的时间跨度很广,有些甚至可以追溯到19世纪中叶,为气候学家和相关研究人员提供了丰富的气候变迁数据。 - 通过分析这些数据,科学家可以研究气候变化的趋势、模式以及影响因素等。 2. **邻接矩阵:** - 在图论中,邻接矩阵是用来表示图中各个顶点之间相互连接关系的矩阵。 - 无向图的邻接矩阵是一个对称矩阵,如果顶点i与顶点j之间存在一条边,则矩阵中的元素A[i][j]和A[j][i]为1;否则为0。 - 邻接矩阵常用于计算机算法中,比如用于计算最短路径、网络的连通性、以及进行图的遍历等。 3. **地理距离:** - 在这个问题的上下文中,指的是气象站之间的空间距离。 - 计算气象站之间的地理距离通常使用地理信息系统(GIS)或球面几何学的方法,比如使用哈弗辛公式(Haversine formula)计算两个地点之间的大圆距离。 - 通过地理距离数据,可以推断出气候数据在空间分布上的相关性或依赖性。 4. **Python编程语言:** - 标签中提及的Python是一种广泛应用于数据科学、人工智能、网络开发等领域的高级编程语言。 - Python因其易学易用、语法简洁、库支持丰富等特点,在科研、教育、工业界等领域得到广泛应用。 5. **代码实现:** - 提到的代码应该会涉及获取GHCN数据集、计算气象站间的地理距离、以及根据这些距离构建无向图的邻接矩阵。 - 代码可能使用了Python中的科学计算库,如NumPy或SciPy,以及地理计算库,如geopy或Shapely。 - 通过构建邻接矩阵,此代码可以进一步用于分析气候数据的空间分布特征或执行图相关的数据分析任务。 **文件名称列表:“GHCN_Adjacency_Matrix-main”** 文件名“GHCN_Adjacency_Matrix-main”表明这是一个包含主要代码文件的文件夹。在Python中,“main”一词通常表示该文件夹中的某个脚本文件(如“main.py”)是程序的入口点,它是运行程序时最先被调用的文件。 总结以上内容,我们可知该文件描述了一个使用Python语言,通过处理全球历史气候网络(GHCN)中的数据来生成气象站之间地理距离的邻接矩阵的代码。这种邻接矩阵可以用于气候数据分析中的图论应用,如研究气象站点数据的空间分布模式和关系。代码的实现可能用到了多种Python库,旨在为气候研究提供一种新的数据处理和分析视角。
recommend-type

并发编程:多语言实践与策略选择

### 并发编程:多语言实践与策略选择 #### 1. 文件大小计算的并发实现 在并发计算文件大小的场景中,我们可以采用数据流式方法。具体操作如下: - 创建两个 `DataFlowQueue` 实例,一个用于记录活跃的文件访问,另一个用于接收文件和子目录的大小。 - 创建一个 `DefaultPGroup` 来在线程池中运行任务。 ```plaintext graph LR A[创建 DataFlowQueue 实例] --> B[创建 DefaultPGroup] B --> C[执行 findSize 方法] C --> D[执行 findTotalFileS
recommend-type

3utools使用教程

<think>我们注意到用户查询的是"3utools",但引用中提到的都是"uTools"(没有数字3)。这可能是一个拼写错误或版本差异。 根据引用内容,uTools是一个桌面效率工具,提供插件化的功能。因此,我们假设用户指的是uTools,并据此提供使用指南。 如果确实存在名为"3uTools"的软件(例如,苹果设备管理工具),那么我们需要澄清:引用中提到的uTools与3uTools不同。 但是,由于引用中只提到了uTools,且用户的问题中写的是“3utools”(可能是uTools的误写),我们将按照uTools来回答。 如果用户确实指的是另一个软件(3uTools),那么
recommend-type

探索更多视频功能的JavaScript实现

从给定的信息中我们可以提炼出关键词"更多视频"以及"JavaScript",以及一个与文件相关的命名"MoreVideo-master"。接下来,我会针对这些关键词展开详细的IT知识点阐述。 首先,关于“更多视频”,这个描述暗示了我们即将探讨的是与视频内容相关的技术或应用。在现代IT领域中,视频内容的处理、存储、传输和播放是一个非常重要的分支,涉及到的技术包括但不限于视频编码、流媒体技术、网络协议、前端展示技术等。视频内容的增多以及互联网带宽的不断提升,使得在线视频消费成为可能。从最早的ASCII动画到现代的高清视频,技术的演进一直不断推动着我们向更高质量和更多样化的视频内容靠近。 其次,“JavaScript”是IT行业中的一个关键知识点。它是一种广泛使用的脚本语言,特别适用于网页开发。JavaScript可以实现网页上的动态交互,比如表单验证、动画效果、异步数据加载(AJAX)、以及单页应用(SPA)等。作为一种客户端脚本语言,JavaScript可以对用户的输入做出即时反应,无需重新加载页面。此外,JavaScript还可以运行在服务器端(例如Node.js),这进一步拓宽了它的应用范围。 在探讨JavaScript时,不得不提的是Web前端开发。在现代的Web应用开发中,前端开发越来越成为项目的重要组成部分。前端开发人员需要掌握HTML、CSS和JavaScript这三大核心技术。其中,JavaScript负责赋予网页以动态效果,提升用户体验。JavaScript的库和框架也非常丰富,比如jQuery、React、Vue、Angular等,它们可以帮助开发者更加高效地编写和管理前端代码。 最后,关于文件名“MoreVideo-master”,这里的“Master”通常表示这是一个项目或者源代码的主版本。例如,在使用版本控制系统(如Git)时,“Master”分支通常被认为是项目的主分支,包含最新的稳定代码。文件名中的“MoreVideo”表明该项目与视频相关的内容处理功能正在增加或扩展。可能是对现有功能的增强,也可能是为视频播放、视频处理或视频管理增加了新的模块或特性。 综合上述内容,我们可以总结出以下几个IT知识点: 1. 视频技术:包括视频编解码技术、流媒体技术、网络协议、视频格式转换等。在客户端和服务器端,视频技术的应用场景广泛,如在线视频平台、视频会议系统、视频监控系统等。 2. JavaScript应用:JavaScript在Web前端开发中的应用十分广泛,用于实现网页的动态效果和交互性,以及在后端通过Node.js提供服务器端编程能力。 3. 前端开发技术:前端开发不仅仅是页面的静态显示,更重要的是通过JavaScript、CSS和HTML等技术实现用户界面与用户之间的交互。前端框架和库的使用大大提高了开发效率。 4. 版本控制:在IT项目开发过程中,版本控制是一个重要的环节。它帮助开发者管理代码的变更历史,支持多人协作开发,使得代码维护和升级变得更加容易。 通过以上知识点,我们可以看到,无论是“更多视频”的技术应用还是“JavaScript”编程语言的使用,以及文件命名所隐含的项目管理概念,都是IT领域内相互关联且密不可分的几个重要方面。
recommend-type

并发编程中的Clojure代理与相关技术解析

### 并发编程中的Clojure代理与相关技术解析 #### 1. Clojure代理概述 Clojure代理代表内存中的单个标识或位置。与软件事务内存(STM)的引用管理多个标识的协调同步更改不同,代理允许对其管理的单个标识进行独立的异步更改。这些更改以函数或操作的形式表达,并异步应用于该位置。多个独立的并发操作会按顺序依次运行。操作成功完成后,代理将更新为操作返回的新状态,该新状态用于后续对代理的读取或操作。 调用在代理上运行操作的方法会立即返回,操作随后会使用Clojure管理的线程池中的一个线程应用于代理。如果操作主要受CPU限制,可使用`send()`方法运行;如果函数中可能发