西瓜数据集的k-means聚类算法python代码实现

可以参考以下代码实现： ```python import pandas as pd from sklearn.cluster import KMeans from sklearn.preprocessing import StandardScaler # 读取数据 data = pd.read_csv('watermelon.csv') X = data.iloc[:, 1:3].values # 特征缩放 scaler = StandardScaler() X_scaled = scaler.fit_transform(X) # KMeans聚类 kmeans = KMeans(n_clusters=3, random_state=42) kmeans.fit(X_scaled) # 输出聚类结果 labels = kmeans.labels_ print(labels) ``` 其中，`watermelon.csv`是西瓜数据集的文件名，数据集中第一列是编号，第二列和第三列是特征。代码中使用`pandas`库读取数据，并使用`sklearn.preprocessing`库的`StandardScaler`进行特征缩放。然后使用`sklearn.cluster`库的`KMeans`进行聚类，其中`n_clusters`参数指定聚类簇数，`random_state`参数指定随机种子。最后输出聚类结果。

一、实验内容西瓜数据集（watermelon.txt）各个特征的含义如下：数据集的每一行由3个数值组成，前2个数字用\t分隔，后2个数字用空格分隔。对于数据集文件watermelon.txt，请编写MapReduce程序，同时采用密度和含糖率数据作为特征，设类别数为2，利用 K-Means 聚类方法通过多次迭代对数据进行聚类。输出聚类结果，包括数据点信息与对应簇序号，并观察输出结果是否正确； 9. 使用Python将聚类结果表示在二维平面上。写出完整代码

由于题目中要求使用MapReduce编写K-Means算法，这里给出使用Hadoop Streaming实现的代码。 1. Mapper mapper读入每行数据，将密度和含糖率作为特征，输出键值对（簇序号，数据点信息）。 ```python #!/usr/bin/env python import sys # 读入聚类中心 centers = [] with open('centers.txt', 'r') as f: for line in f: center = line.strip().split('\t') centers.append((float(center[0]), float(center[1]))) # mapper for line in sys.stdin: data = line.strip().split('\t') x = float(data[0]) y = float(data[1]) min_dist = float('inf') cluster = -1 for i in range(len(centers)): center_x, center_y = centers[i] dist = (x - center_x) ** 2 + (y - center_y) ** 2 if dist < min_dist: min_dist = dist cluster = i print('{}\t{} {} {}'.format(cluster, x, y, data[2])) ``` 2. Reducer reducer读入每个簇的数据点信息，计算新的聚类中心，并输出键值对（新的簇序号，数据点信息）。 ```python #!/usr/bin/env python import sys # reducer cluster_dict = {} for line in sys.stdin: data = line.strip().split('\t') cluster = int(data[0]) x = float(data[1]) y = float(data[2]) info = data[3] if cluster not in cluster_dict: cluster_dict[cluster] = [(x, y)] else: cluster_dict[cluster].append((x, y)) for cluster in cluster_dict: center_x = sum([point[0] for point in cluster_dict[cluster]]) / len(cluster_dict[cluster]) center_y = sum([point[1] for point in cluster_dict[cluster]]) / len(cluster_dict[cluster]) print('{}\t{} {}\t{}'.format(cluster, center_x, center_y, len(cluster_dict[cluster]))) for point in cluster_dict[cluster]: print('{}\t{} {} {}'.format(cluster, point[0], point[1], info)) ``` 3. Driver driver程序用于多次迭代运行MapReduce程序，并将最终的聚类结果写入文件。 ```python #!/usr/bin/env python import os import shutil # 删除旧的输出目录 if os.path.exists('output'): shutil.rmtree('output') # 第一次迭代 os.system('hadoop jar /path/to/hadoop-streaming.jar \ -files mapper.py,reducer.py,centers.txt \ -input /path/to/watermelon.txt \ -output output/iter0 \ -mapper "python mapper.py" \ -reducer "python reducer.py"') # 迭代次数 iter_num = 10 # 迭代 for i in range(1, iter_num+1): # 更新聚类中心 os.system('hadoop fs -cat output/iter{}/part* > centers.txt'.format(i-1)) # 运行MapReduce程序 os.system('hadoop jar /path/to/hadoop-streaming.jar \ -D mapreduce.job.reduces=2 \ -files mapper.py,reducer.py,centers.txt \ -input /path/to/watermelon.txt \ -output output/iter{} \ -mapper "python mapper.py" \ -reducer "python reducer.py"'.format(i)) # 输出最终聚类结果 os.system('hadoop fs -cat output/iter{}/part* > result.txt'.format(iter_num)) ``` 4. 可视化使用matplotlib库将聚类结果表示在二维平面上。 ```python import matplotlib.pyplot as plt x1, y1 = [], [] x2, y2 = [], [] with open('result.txt', 'r') as f: for line in f: data = line.strip().split('\t') x = float(data[1]) y = float(data[2]) cluster = int(data[0]) if cluster == 0: x1.append(x) y1.append(y) else: x2.append(x) y2.append(y) plt.scatter(x1, y1, s=50, c='r', marker='o', label='cluster1') plt.scatter(x2, y2, s=50, c='b', marker='o', label='cluster2') plt.legend() plt.show() ``` 完整代码：

西瓜数据集（watermelon.txt）各个特征的含义如下：数据集的每一行由3个数值组成，前2个数字用\t分隔，后2个数字用空格分隔。对于数据集文件watermelon.txt，请编写MapReduce程序，同时采用密度和含糖率数据作为特征，设类别数为2，利用 K-Means 聚类方法通过多次迭代对数据进行聚类。不使用第三方库，选取合适的Spark RDD转换算子和行动算子实现Kmeans算法，完成实验内容； 5. 基于Spark MLlib，实现Kmeans聚类计算，利用idea写出完整代码以及所需的pom文件

由于题目中要求使用MapReduce程序实现K-Means算法，因此我们需要先将数据转换为key-value对的形式，以便于MapReduce程序的处理。我们可以将每个数据点看作是一个二维坐标系中的点，将其坐标作为key，将其所属的聚类中心作为value。具体实现如下： 1. 数据预处理首先读取数据集文件watermelon.txt，将其中的每一行解析为一个二维坐标和所属聚类中心的编号。对于每个聚类中心，我们可以随机指定一个初始坐标，将其作为第一次迭代的聚类中心。 ```python # 读取数据集文件 data = sc.textFile("watermelon.txt") # 解析每个数据点 parsed_data = data.map(lambda line: tuple(map(float, line.split()))) # 随机初始化聚类中心 k = 2 centers = parsed_data.takeSample(False, k, 1) ``` 2. K-Means算法迭代接下来，我们可以使用MapReduce程序实现K-Means算法的迭代过程。在每次迭代中，我们需要对数据集中的每个点计算其与各个聚类中心的距离，并将其分配到距离最近的聚类中心所属的聚类中。然后，我们需要重新计算每个聚类中心的坐标，将其调整为该聚类中所有点的平均值。这样就完成了一次迭代，我们可以将新的聚类中心用于下一次迭代。 ```python # 迭代次数 iterations = 10 for i in range(iterations): # 计算每个点与各个聚类中心的距离，将其分配到距离最近的聚类中心所属的聚类中 cluster_assignment = parsed_data.map(lambda point: (closest_center(point, centers), point)) # 计算新的聚类中心 new_centers = cluster_assignment.groupByKey().mapValues(lambda points: average_points(points)).collect() # 更新聚类中心 for center in new_centers: centers[center[0]] = center[1] ``` 其中，closest_center函数用于计算每个点距离最近的聚类中心的编号，average_points函数用于计算一组点的平均值。 ```python def closest_center(point, centers): """返回距离最近的聚类中心的编号""" closest_center = 0 closest_distance = float('inf') for i in range(len(centers)): distance = euclidean_distance(point, centers[i]) if distance < closest_distance: closest_distance = distance closest_center = i return closest_center def average_points(points): """计算一组点的平均值""" num_points = len(points) if num_points == 0: return [0.0, 0.0] x = sum([point[0] for point in points]) / num_points y = sum([point[1] for point in points]) / num_points return [x, y] def euclidean_distance(p1, p2): """计算两个点之间的欧几里得距离""" return ((p1[0] - p2[0]) ** 2 + (p1[1] - p2[1]) ** 2) ** 0.5 ``` 3. 结果输出最后，我们可以将聚类结果输出到文件中，以便于后续的分析和可视化。 ```python # 将聚类结果输出到文件中 cluster_assignment.map(lambda pair: f"{pair[1][0]}\t{pair[1][1]}\t{pair[0]}").saveAsTextFile("output") ``` 完整代码如下： ```python from pyspark import SparkContext # 初始化SparkContext sc = SparkContext() # 解析数据集文件 data = sc.textFile("watermelon.txt") parsed_data = data.map(lambda line: tuple(map(float, line.split()))) # 随机初始化聚类中心 k = 2 centers = parsed_data.takeSample(False, k, 1) # 迭代次数 iterations = 10 for i in range(iterations): # 计算每个点与各个聚类中心的距离，将其分配到距离最近的聚类中心所属的聚类中 cluster_assignment = parsed_data.map(lambda point: (closest_center(point, centers), point)) # 计算新的聚类中心 new_centers = cluster_assignment.groupByKey().mapValues(lambda points: average_points(points)).collect() # 更新聚类中心 for center in new_centers: centers[center[0]] = center[1] # 将聚类结果输出到文件中 cluster_assignment.map(lambda pair: f"{pair[1][0]}\t{pair[1][1]}\t{pair[0]}").saveAsTextFile("output") def closest_center(point, centers): """返回距离最近的聚类中心的编号""" closest_center = 0 closest_distance = float('inf') for i in range(len(centers)): distance = euclidean_distance(point, centers[i]) if distance < closest_distance: closest_distance = distance closest_center = i return closest_center def average_points(points): """计算一组点的平均值""" num_points = len(points) if num_points == 0: return [0.0, 0.0] x = sum([point[0] for point in points]) / num_points y = sum([point[1] for point in points]) / num_points return [x, y] def euclidean_distance(p1, p2): """计算两个点之间的欧几里得距离""" return ((p1[0] - p2[0]) ** 2 + (p1[1] - p2[1]) ** 2) ** 0.5 ``` 这里仅提供了使用MapReduce程序实现K-Means算法的实现方式，如果需要使用Spark MLlib进行K-Means聚类计算，可以参考以下代码： ```python from pyspark.ml.clustering import KMeans from pyspark.sql import SparkSession # 初始化SparkSession spark = SparkSession.builder.appName("KMeans").getOrCreate() # 读取数据集文件 data = spark.read.format("libsvm").load("watermelon.txt") # 训练K-Means模型 kmeans = KMeans(k=2, seed=1) model = kmeans.fit(data) # 输出聚类结果 print("Cluster Centers:") centers = model.clusterCenters() for center in centers: print(center) ``` 其中，libsvm格式的数据集文件是指每行数据的格式为"标签特征1:值1 特征2:值2 ..."，在这里我们可以将标签设为0，将密度和含糖率作为两个特征。在输出聚类结果时，我们可以通过model.clusterCenters()获取聚类中心的坐标，从而进行后续分析和可视化。

阅读全文

西瓜数据集的k-means聚类算法python代码实现

相关推荐

K-means 聚类算法 python 代码实现

python实现k-means聚类算法

K-Means聚类算法及实现代码

Python机器学习之K-Means聚类实现详解

贝叶斯+决策树+KNN+K-means+推荐算法代码及数据集

Python实现k-means算法

Python实现K均值聚类算法详解

用Python从K-Means、LVQ、高斯混合聚类、密度聚类、层次聚类中，任意选用两种算法对西瓜数据集4.0进行聚类，其中初始化条件由自己拟定，使用“内部”指标进行评价，要求：对选用的两种聚类算法进行分析与比较。

在西瓜数据集上应用K均值聚类算法对西瓜进行聚类

利用我发的西瓜数据集4.0进行k均值聚类算法

kmeans聚类算法python,包括两种聚类评估

使用k-means算法进行西瓜品类分析案例代码

利用之前的西瓜数据集4.0来进行k均值聚类算法

k-means python

k均值聚类算法 西瓜

Python基于聚类算法实现密度聚类(DBSCAN)计算【测试可用】

K-means.zip

基于Python的西瓜数据K均值算法实践

006_Java 线程、线程池

MDword-PHP资源

大家在看

ScreenControl_717_M59_20191107_windows_program_

KGM转MP3或者FLAC_kgma_kgma格式_FLAC_kgma转换器_kgm转换成flac_亲测完美转换！保证可用。

shopee上架工具.rar

Protege 汉化版

stm32 蓝牙程序

最新推荐

rust-std-static-1.54.0-3.module_el8.5.0+1023+0c63d3d6.tar.gz

获取本机公网IP发送到飞书群脚本

SimulinkSF平台下纯电动+四档变速箱动力性与经济性仿真模型及其应用 · 电动汽车 完整版

【超表面】基于matlab生成超表面布局并模拟超透镜作为点源的叠加【含Matlab源码 13984期】.zip

西门子S1200与霍尼韦尔电动比例阀PID控制恒温恒压供冷却水系统方案及Eplan电气图纸详解 工业自动化 高效版

GHCN气象站邻接矩阵的Python实现及地理距离应用

并发编程：多语言实践与策略选择

3utools使用教程

探索更多视频功能的JavaScript实现

并发编程中的Clojure代理与相关技术解析

k均值聚类算法西瓜

SimulinkSF平台下纯电动+四档变速箱动力性与经济性仿真模型及其应用 · 电动汽车完整版

西门子S1200与霍尼韦尔电动比例阀PID控制恒温恒压供冷却水系统方案及Eplan电气图纸详解工业自动化高效版