【Spark Mllib】决策树，随机森林——预测森林植被类型

小爷毛毛（卓寿杰）

已于 2024-09-05 14:29:40 修改

阅读量8k

点赞数

CC 4.0 BY-SA版权

分类专栏： Spark 机器学习基础/原理 Spark机器学习文章标签： spark 预测决策树随机森林 spark-ml 算法机器学习

于 2016-07-08 11:09:33 首次发布

本文链接：https://blog.csdn.net/u011239443/article/details/51858825

重磅推荐专栏：
《大模型AIGC》
《课程大纲》
《知识星球》

本专栏致力于探索和讨论当今最前沿的技术趋势和应用领域，包括但不限于ChatGPT和Stable Diffusion等。我们将深入研究大型模型的开发和应用，以及与之相关的人工智能生成内容（AIGC）技术。通过深入的技术解析和实践经验分享，旨在帮助读者更好地理解和应用这些领域的最新进展

数据集处理

import org.apache.spark.mllib.linalg._
import org.apache.spark.mllib.regression._
val rawData = sc.textFile("covtype.data")
val data = rawData.map{
   
   	
	line =>
	val values = line.split(",").map( _.toDouble)
	//init返回除最后一个值外的所有值
	val featureVector = Vectors.dense(values.init)
	//决策树要求label从0开始
	val label = values.last -1
	LabeledPoint( label,featureVector)
}

val Array(trainData,cvData,testData) = data.randomSplit( Array(0.8,0.1,0.1))
trainData.cache() 
cvData.cache() //交叉检验集
testData.cache()

#模型训练

import org.apache.spark.mllib.tree._
import org.apache.spark.mllib.tree.model._
import org.apache.spark.rdd._

def getMetrics(model: DecisionTreeModel,dta: RDD[ LabeledPoint ]):
	MulticlassMetrics = {
   
   
		val predictionsAndLabels = data.map( example =>
		( 
			model.predict( example.features), example.label)
		)
		new MulticlassMetrics( predictionsAndLabels)
	}


val model = Decision