0% ont trouvé ce document utile (0 vote)

123 vues7 pages

TP4 Spark MLlib

Ce document présente un TP sur le Machine Learning avec Spark ML, abordant les concepts de base tels que les pipelines et différents algorithmes pour l'extraction de caractéristiques, la classification et le clustering. Il décrit les sources de données, la création de modèles d'apprentissage, l'utilisation de transformateurs et d'estimateurs, ainsi que la préparation et la prédiction sur des données de test. Enfin, il explique l'extraction de caractéristiques à l'aide de l'algorithme TF-IDF dans le cadre du text mining.

Transféré par

younessmif81

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

123 vues7 pages

TP4 Spark MLlib

Transféré par

younessmif81

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

ESI : 2024-2025 Matière : Big Data Analytics

TP 4: Machine Learning sur SPARK ML

Objectif :
L’objectif de ce TP est d’introduire les notions de base de machine learning
sur Spark ML ainsi que la notion de pipeline. Quelques algorithmes de ML pour
l’extraction de caractéristiques, la classification et de clustring seront
traités comme exemples.

1. Source de données :

• Image data source :

Cette source de données d'image est utilisée pour charger des fichiers image
à partir d'un répertoire, elle peut charger une image compressée (jpeg, png,
etc.). Le DataFrame chargé a une StructType column : "image", contenant les
données d'image stockées sous forme de schéma d'image. Le schéma des colonne
d’image est représenté par le tableau ci-dessous :

Spark.read.formet("image").option("dropInvalid",true).load("data/…")

• LIBSVM data source

Cette source de données permet de charger des fichiers de type 'libsvm' depuis
un répertoire. Le DataFrame chargé comporte deux colonnes : label contenant
des étiquettes stockées sous forme de doubles et des fonctionnalités contenant
les fonctionnalités stockés sous forme de vecteurs. Le schéma des colonnes
est:

• label: DoubleType (représente l’instance label)

• features: VectorUDT(représente le vecteur de caractéristiques)
ESI : 2024-2025 Matière : Big Data Analytics

2. Transformer, Estimator, parameter

1. Importer les packages

import org.apache.spark.ml.classification.LogisticRegression
import org.apache.spark.ml.linalg.{Vector, Vectors}
import org.apache.spark.ml.param.ParamMap
import org.apache.spark.sql.Row

2. Création du dataset d’apprentissage (training data)

val training = spark.createDataFrame(Seq(

(1.0, Vectors.dense(0.0, 1.1, 0.1)),
(0.0, Vectors.dense(2.0, 1.0, -1.0)),
(0.0, Vectors.dense(2.0, 1.3, 1.0)),
(1.0, Vectors.dense(0.0, 1.2, -0.5))
)).toDF("label", "features")

3. Création d’une instance d’un algorithme d’apprentissage (ex : Logistic resgression)

val lr = new LogisticRegression()

4. Afficher les paramètres par défaut

ESI : 2024-2025 Matière : Big Data Analytics

println(s"LogisticRegression parameters:\n ${lr.explainParams()}\n")

5. Modifier les paramètres de la régression suivant le besoin. Exemple :

lr.setMaxIter(10)
.setRegParam(0.01)

6. Créer le modèle en utilisant l’algorithme d’apprentissage sur les données d’apprentissage. Le

model1 est un transformer produit à partir d’un estimateur(lr).

val model1 = lr.fit(training)

- Afficher les paramètres utilisés lors de cette apprentissage :

println(s"Model 1 was fit using parameters: ${model1.parent.extractParamMap()}")

7. Les paramètres peuvent être spécifiés en utilisant ParamMap :

val paramMap = ParamMap(lr.maxIter -> 20)

.put(lr.maxIter, 30) // spécifie 1 Param. qui écrase la valeur originale
.put(lr.regParam -> 0.1, lr.threshold -> 0.55) // spécifie plusieurs Params.

- Une combinaison des paramètres est possible :

val paramMap2 = ParamMap(lr.probabilityCol -> "myProbability") // Change le nom de

la colonne de sortie.
val paramMapCombined = paramMap ++ paramMap2

8. Créer un nouveau modèle avec les nouveaux paramètres :

val model2 = lr.fit(training, paramMapCombined)

println(s"Model 2 was fit using parameters: ${model2.parent.extractParamMap()}")

9. Préparer les données de tests :

val test = spark.createDataFrame(Seq(

(1.0, Vectors.dense(-1.0, 1.5, 1.3)),
(0.0, Vectors.dense(3.0, 2.0, -0.1)),
(1.0, Vectors.dense(0.0, 2.2, -1.5))
)).toDF("label", "features")

10. Faire une prédiction sur les données de test en utilisant la méthode Transformer.transform()
ESI : 2024-2025 Matière : Big Data Analytics

model2.transform(test)
.select("features", "label", "myProbability", "prediction")
.collect()
.foreach { case Row(features: Vector, label: Double, prob: Vector, prediction:
Double) => println(s"($features, $label) -> prob=$prob, prediction=$prediction")
}

3. Pipeline :

1. Importer les packages :

import org.apache.spark.ml.{Pipeline, PipelineModel}

import org.apache.spark.ml.classification.LogisticRegression
import org.apache.spark.ml.feature.{HashingTF, Tokenizer}
import org.apache.spark.ml.linalg.Vector
import org.apache.spark.sql.Row

2. Préparer les données d’apprentissage :

val training = spark.createDataFrame(Seq(

(0L, "a b c d e spark", 1.0),
(1L, "b d", 0.0),
(2L, "spark f g h", 1.0),
(3L, "hadoop mapreduce", 0.0)
)).toDF("id", "text", "label")

3. Configurer le pipline qui consist en trois étapes : tokenizer, hashingTF, et lr

val tokenizer = new Tokenizer()

.setInputCol("text")
.setOutputCol("words")
val hashingTF = new HashingTF()
.setNumFeatures(1000)
.setInputCol(tokenizer.getOutputCol)
.setOutputCol("features")
val lr = new LogisticRegression()
.setMaxIter(10)
.setRegParam(0.001)
val pipeline = new Pipeline()
.setStages(Array(tokenizer, hashingTF, lr))

4. Appliquer le pipeline sur les données d’apprentissage :

val model = pipeline.fit(training)

5. On peut à ce niveau persister le pipeline :

ESI : 2024-2025 Matière : Big Data Analytics

model.write.overwrite().save("/tmp/spark-logistic-regression-model")
On peut le charger quand on a besoin lors de la production par exemple :
val sameModel = PipelineModel.load("/tmp/spark-logistic-regression-model")

6. Préparer les données de tests, sans étiquette (label):

val test = spark.createDataFrame(Seq(

(4L, "spark i j k"),
(5L, "l m n"),
(6L, "spark hadoop spark"),
(7L, "apache hadoop")
)).toDF("id", "text")

7. Faire la prédiction sur les données de tests :

model.transform(test)
.select("id", "text", "probability", "prediction")
.collect()
.foreach { case Row(id: Long, text: String, prob: Vector, prediction: Double)
=> println(s"($id, $text) --> prob=$prob, prediction=$prediction") }

4. Extracting, transforming and selectiong Features :

Cette étape consiste à extraire les caractéristiques à partir d’une

collection de données. Plusieurs algorithme d’extraction peuvent être
utilisés suivant le besoin.

Nous considérons comme exemple l’algorithme TF-IDF (Term frequency-inverse

document frequency)qui permet est très utilisé dans le domaine du textmining.
Cet algorithme permet de savoir l’importance d’un terme dans un document
corpus. Soit le terme t et d le document et D le corpus. la fréquence du
terme est égale au nombre de fois ce terme se trouve dans le document d. La
fréquence de document est considérée comme le nombre de document qui contient
le terme t.

Pour cela, nous avons besoin des fonctions suivantes :

• Tokenizer: un transformateur de caractéristiques. C’est le processus

qui permet d’avoir les termes (mots) à partir d’un texte ou une
phrase.
• HashingTF : est un tranformer qui prend un ensemble de terms comme
entrée et donne des vecteurs de caractéristiques de tailles fixe. les
deux algorithme HashingTF et CountVectorizer peuvent être utilisés
pour générer le vecteur fréquence de terme TF
• IDF: est un estimateur qui s'ajuste sur un jeu de données et produit
un IDFModel. Le IDFModel prend des vecteurs de caractéristiques
(généralement créés à partir de HashingTF ou CountVectorizer) et met
ESI : 2024-2025 Matière : Big Data Analytics

à l'échelle chaque entité. Intuitivement, il sous-pondère les

caractéristiques qui apparaissent fréquemment dans un corpus.

1. Importer les fonctions

import org.apache.spark.ml.feature.{HashingTF, IDF, Tokenizer}

2. Création d’une collection de données sous forme de texte (sentence) avec des étiquettes
(labels) :
val sentenceData = spark.createDataFrame(Seq(
(0.0, "Hi I heard about Spark"),
(0.0, "I wish Java could use case classes"),
(1.0, "Logistic regression models are neat")
)).toDF("label", "sentence")

3. Transformer le texte en termes

val tokenizer = new Tokenizer().setInputCol("sentence").setOutputCol("words")
val wordsData = tokenizer.transform(sentenceData)

4. Transformer les termes en vecteurs de caractéristiques (features extraction)

val hashingTF = new HashingTF()
.setInputCol("words").setOutputCol("rawFeatures").setNumFeatures(20)

val featurizedData = hashingTF.transform(wordsData)

// alternatively, CountVectorizer can also be used to get term frequency vectors

5. Création du modèle à l’aide de l’estimateur IDF () qui implémente la méthode fit () qui prends
les données comme entrée et produit le modèle.
val idf = new IDF().setInputCol("rawFeatures").setOutputCol("features")
val idfModel = idf.fit(featurizedData)

val rescaledData = idfModel.transform(featurizedData)

rescaledData.select("label", "features").show()
ESI : 2024-2025 Matière : Big Data Analytics

Vous aimerez peut-être aussi

Sparkml 170218214151 PDF
Pas encore d'évaluation
Sparkml 170218214151 PDF
50 pages
Séance 4 - Cours - Spark - ML - Partie 6
Pas encore d'évaluation
Séance 4 - Cours - Spark - ML - Partie 6
19 pages
TP2 BIGdata
Pas encore d'évaluation
TP2 BIGdata
15 pages
Big Data 2 TP n1
Pas encore d'évaluation
Big Data 2 TP n1
11 pages
API SparkSQL et DataFrames en Spark 2
Pas encore d'évaluation
API SparkSQL et DataFrames en Spark 2
4 pages
Introduction à Apache Pig et Pig Latin
Pas encore d'évaluation
Introduction à Apache Pig et Pig Latin
22 pages
Introduction à Apache Spark
Pas encore d'évaluation
Introduction à Apache Spark
4 pages
(Big Data Analytics) CHAP4 - Spark Streaming
Pas encore d'évaluation
(Big Data Analytics) CHAP4 - Spark Streaming
29 pages
Spark SQL: Architecture et Fonctionnalités
Pas encore d'évaluation
Spark SQL: Architecture et Fonctionnalités
42 pages
Cours 2 - TP
Pas encore d'évaluation
Cours 2 - TP
2 pages
tp3 Scala
Pas encore d'évaluation
tp3 Scala
2 pages
Introduction à Spark Streaming
Pas encore d'évaluation
Introduction à Spark Streaming
44 pages
TP Scala
Pas encore d'évaluation
TP Scala
2 pages
Introduction à PySpark pour le Big Data
Pas encore d'évaluation
Introduction à PySpark pour le Big Data
2 pages
Chapitre 5
Pas encore d'évaluation
Chapitre 5
58 pages
Mbds Big Data Hadoop 2019 2020 TP 1
Pas encore d'évaluation
Mbds Big Data Hadoop 2019 2020 TP 1
17 pages
Introduction à Hadoop et MapReduce
Pas encore d'évaluation
Introduction à Hadoop et MapReduce
53 pages
Cours TraitementAvancéBigData Version Finale
Pas encore d'évaluation
Cours TraitementAvancéBigData Version Finale
180 pages
Cours - Spark - Partie 3 Et 4
Pas encore d'évaluation
Cours - Spark - Partie 3 Et 4
46 pages
Spark Introduction
Pas encore d'évaluation
Spark Introduction
22 pages
Classification Iris avec KMeans Spark
Pas encore d'évaluation
Classification Iris avec KMeans Spark
6 pages
Big Data Analytics
Pas encore d'évaluation
Big Data Analytics
31 pages
Tutoriel MLlib Spark avec PySpark
Pas encore d'évaluation
Tutoriel MLlib Spark avec PySpark
7 pages
Spark et Critique de MapReduce
Pas encore d'évaluation
Spark et Critique de MapReduce
14 pages
TP1 - Bases Documentaires Et Moteur de Recherche
Pas encore d'évaluation
TP1 - Bases Documentaires Et Moteur de Recherche
12 pages
HDFS Boufares TP2
Pas encore d'évaluation
HDFS Boufares TP2
8 pages
Spark
Pas encore d'évaluation
Spark
28 pages
Examen - Big Data: 1 Exercice I: Hadoop Est Mort... Vive Hadoop ! (10pts)
Pas encore d'évaluation
Examen - Big Data: 1 Exercice I: Hadoop Est Mort... Vive Hadoop ! (10pts)
3 pages
Spark : Analyse Big Data et RDD
Pas encore d'évaluation
Spark : Analyse Big Data et RDD
42 pages
Chap4 MapReduce
Pas encore d'évaluation
Chap4 MapReduce
17 pages
Optimisation des Requêtes SQL
Pas encore d'évaluation
Optimisation des Requêtes SQL
8 pages
BD 1
Pas encore d'évaluation
BD 1
17 pages
TP SVM
Pas encore d'évaluation
TP SVM
6 pages
Corr TP3
Pas encore d'évaluation
Corr TP3
15 pages
Chapitre 4 - Pyspark SQL DataFrame
Pas encore d'évaluation
Chapitre 4 - Pyspark SQL DataFrame
12 pages
HadoopMapReduce CD 2 1
Pas encore d'évaluation
HadoopMapReduce CD 2 1
72 pages
SysDist 03
Pas encore d'évaluation
SysDist 03
100 pages
Spark et Hadoop : Architectures Big Data
Pas encore d'évaluation
Spark et Hadoop : Architectures Big Data
43 pages
TP2 Pig
Pas encore d'évaluation
TP2 Pig
4 pages
ch2 Hadoop 2025 All
Pas encore d'évaluation
ch2 Hadoop 2025 All
108 pages
Cours Big Data
100% (1)
Cours Big Data
147 pages
Big Data 2
Pas encore d'évaluation
Big Data 2
89 pages
TP1 Polytech
Pas encore d'évaluation
TP1 Polytech
11 pages
Traitement Du Big Data: TP3 Le Modèle de Programmation Map Reduce
Pas encore d'évaluation
Traitement Du Big Data: TP3 Le Modèle de Programmation Map Reduce
25 pages
Scala: Bases et Boucles en Big Data
Pas encore d'évaluation
Scala: Bases et Boucles en Big Data
57 pages
Graphes Orientés et Arborescences
Pas encore d'évaluation
Graphes Orientés et Arborescences
75 pages
Cours Pig
Pas encore d'évaluation
Cours Pig
93 pages
TP2 Big Data Env Docker
Pas encore d'évaluation
TP2 Big Data Env Docker
3 pages
Hadoop
Pas encore d'évaluation
Hadoop
13 pages
Chapitre2 Fondements Big Data Hdfs 2025
Pas encore d'évaluation
Chapitre2 Fondements Big Data Hdfs 2025
24 pages
Big Data
Pas encore d'évaluation
Big Data
16 pages
Hadoop : Traitement et Stockage de Données Massives
100% (1)
Hadoop : Traitement et Stockage de Données Massives
69 pages
D3 Architecture Hadoop
Pas encore d'évaluation
D3 Architecture Hadoop
6 pages
Importer et exporter avec Sqoop
Pas encore d'évaluation
Importer et exporter avec Sqoop
4 pages
TP Power BI 2
Pas encore d'évaluation
TP Power BI 2
4 pages
MapReduce : Programmation Distribuée et Tolérance aux Pannes
Pas encore d'évaluation
MapReduce : Programmation Distribuée et Tolérance aux Pannes
6 pages
Introduction à Hadoop et MapReduce
Pas encore d'évaluation
Introduction à Hadoop et MapReduce
65 pages
Tp1-Mongodb
Pas encore d'évaluation
Tp1-Mongodb
5 pages
Examen final BDD avancées 2017/2018
Pas encore d'évaluation
Examen final BDD avancées 2017/2018
6 pages
P7 - Spark Mllib
Pas encore d'évaluation
P7 - Spark Mllib
1 page
Manuel D'ingénierie Des Réservoirs Par Tarek Ahmed PDF
Pas encore d'évaluation
Manuel D'ingénierie Des Réservoirs Par Tarek Ahmed PDF
5 pages
M1 ACT2 Stabilite - Lampadaire Corrige PDF
Pas encore d'évaluation
M1 ACT2 Stabilite - Lampadaire Corrige PDF
10 pages
Logo
Pas encore d'évaluation
Logo
5 pages
Outil Golden Key U1 LSTC Documentation Et Dépannage V3
Pas encore d'évaluation
Outil Golden Key U1 LSTC Documentation Et Dépannage V3
21 pages
Guide Enregistrement Dans UNGM
Pas encore d'évaluation
Guide Enregistrement Dans UNGM
7 pages
Gestion de Projets Avancée (Jean-Yves Moine)
Pas encore d'évaluation
Gestion de Projets Avancée (Jean-Yves Moine)
90 pages
Rapport de Stage BCP - vf.24 (1) 2
Pas encore d'évaluation
Rapport de Stage BCP - vf.24 (1) 2
40 pages
Transformées de Laplace et Poutres
Pas encore d'évaluation
Transformées de Laplace et Poutres
7 pages
Chap1 Acsi
Pas encore d'évaluation
Chap1 Acsi
22 pages
Nice Recepteur Floxr Notice
Pas encore d'évaluation
Nice Recepteur Floxr Notice
12 pages
Mon Cours de Programmation C
Pas encore d'évaluation
Mon Cours de Programmation C
64 pages
Formation Développement Web à Kadea Academy
Pas encore d'évaluation
Formation Développement Web à Kadea Academy
14 pages
Devoir d'informatique : carte ESP32 et Python
100% (1)
Devoir d'informatique : carte ESP32 et Python
4 pages
Stratégie Réseaux Sociaux: Guide CM
Pas encore d'évaluation
Stratégie Réseaux Sociaux: Guide CM
18 pages
Outils et pratiques de communication hôtelière
Pas encore d'évaluation
Outils et pratiques de communication hôtelière
23 pages
Tests D'intrusion Sous Kali Linux: Injection SQL, Attaques XSS, Wordpres Et WPA2
Pas encore d'évaluation
Tests D'intrusion Sous Kali Linux: Injection SQL, Attaques XSS, Wordpres Et WPA2
10 pages
Symposium sur la Chirurgie Robotique
Pas encore d'évaluation
Symposium sur la Chirurgie Robotique
6 pages
Rapport de stage sur les ventes à l'AUT
Pas encore d'évaluation
Rapport de stage sur les ventes à l'AUT
18 pages
Introduction aux Méthodes Numériques
Pas encore d'évaluation
Introduction aux Méthodes Numériques
33 pages
Copie de Copie de Copie de Copie de Copie de Copie de Copie de CV-A.pdf - PDF - 20240908 - 164156 - 0000
Pas encore d'évaluation
Copie de Copie de Copie de Copie de Copie de Copie de Copie de CV-A.pdf - PDF - 20240908 - 164156 - 0000
2 pages
Surface Laptop Studio 2: La Polyvalence Pour Créer, La Puissance Pour Travailler Et Jouer
Pas encore d'évaluation
Surface Laptop Studio 2: La Polyvalence Pour Créer, La Puissance Pour Travailler Et Jouer
2 pages
TP Le Corbeau Et Le Renard
Pas encore d'évaluation
TP Le Corbeau Et Le Renard
2 pages
Elements Finis
100% (6)
Elements Finis
85 pages
Fichier Situation de Problème
Pas encore d'évaluation
Fichier Situation de Problème
6 pages
Module 1-Les Fondamentaux Python (Niveau 1)
Pas encore d'évaluation
Module 1-Les Fondamentaux Python (Niveau 1)
14 pages
CR - Dee - 14 - 01 - 2025
Pas encore d'évaluation
CR - Dee - 14 - 01 - 2025
5 pages
Demande Equivalence 07 6082 2024
Pas encore d'évaluation
Demande Equivalence 07 6082 2024
2 pages
00-Chronologie Des Systèmes D'exploitation - Wikipédia
Pas encore d'évaluation
00-Chronologie Des Systèmes D'exploitation - Wikipédia
7 pages
Badgeuse de Présence par Empreinte
Pas encore d'évaluation
Badgeuse de Présence par Empreinte
17 pages
Maintenance informatique de la BMICE
Pas encore d'évaluation
Maintenance informatique de la BMICE
13 pages