本专栏致力于探索和讨论当今最前沿的技术趋势和应用领域,包括但不限于ChatGPT和Stable Diffusion等。我们将深入研究大型模型的开发和应用,以及与之相关的人工智能生成内容(AIGC)技术。通过深入的技术解析和实践经验分享,旨在帮助读者更好地理解和应用这些领域的最新进展
数据集处理
import org.apache.spark.mllib.linalg._
import org.apache.spark.mllib.regression._
val rawData = sc.textFile("covtype.data")
val data = rawData.map{
line =>
val values = line.split(",").map( _.toDouble)
//init返回除最后一个值外的所有值
val featureVector = Vectors.dense(values.init)
//决策树要求label从0开始
val label = values.last -1
LabeledPoint( label,featureVector)
}
val Array(trainData,cvData,testData) = data.randomSplit( Array(0.8,0.1,0.1))
trainData.cache()
cvData.cache() //交叉检验集
testData.cache()
#模型训练
import org.apache.spark.mllib.tree._
import org.apache.spark.mllib.tree.model._
import org.apache.spark.rdd._
def getMetrics(model: DecisionTreeModel,dta: RDD[ LabeledPoint ]):
MulticlassMetrics = {
val predictionsAndLabels = data.map( example =>
(
model.predict( example.features), example.label)
)
new MulticlassMetrics( predictionsAndLabels)
}
val model = Decision