Spark MLlib之Kmeans聚类

本文介绍如何使用Apache Spark的MLlib库进行K-Means聚类分析。通过从本地文件读取数据,将其转换为RDD[Vector],然后创建并训练K-Means模型,最后计算误差。代码示例展示了如何设置模型参数,如初始化模式、簇的数量和迭代次数。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

package mllib.cluster

import org.apache.spark.mllib.clustering.{KMeans, KMeansModel}
import org.apache.spark.mllib.linalg
import org.apache.spark.mllib.linalg.{DenseVector, Vectors}
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

import scala.io.{BufferedSource, Source}

/**
  * created by LMR on 2019/6/10
  */
object kmeans {

  def main(args: Array[String]): Unit = {

    val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("svm")
    val sc = new SparkContext(conf)

    //从windows本地读取数据,转化为RDD[Vector]
    val source: BufferedSource = Source.fromFile("E:\\IDEAWorkPlace\\SparkTest\\src\\main\\scala\\mllib\\data\\kmeans_data.txt")
    val lines: Array[String] = source.getLines().toArray
    val vectors: Array[linalg.Vector] = lines.map { line =>
      val splits: Array[Double] = line.split(" ").map(_.toDouble)
      Vectors.dense(splits)

    }

    val data: RDD[linalg.Vector] = sc.parallelize(vectors)

    //创建模型并训练
    val initMode = "k-means||"
    val numsClusters = 2
    val numIteerations = 20
    val model: KMeansModel = new KMeans()
      .setInitializationMode(initMode)
      .setK(numsClusters)
      .setMaxIterations(numIteerations)
      .run(data)

    //计算误差
    val WSSSE: Double = model.computeCost(data)
    println(WSSSE)
  }

}

完整代码/数据地址:git地址

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值