TP1 Spark

Ce document décrit un TP sur Spark Shell avec Scala. Il présente comment lancer Spark shell, créer des RDDs à partir de collections ou de fichiers externes, et manipuler les RDDs via des transformations et actions comme count, first, take, map et flatMap.

Transféré par

Zakariyae register

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

551 vues2 pages

TP1 Spark

Transféré par

Zakariyae register

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Université Sultan Moulay Slimane

Ecole National des Sciences Appliquées

Khouribga

- Calcul Distribué : Spark -

TP 1 : Spark Shell avec Scala

Objectifs du TP :
‒ Initiation à Spark via son shell Scala,
‒ Manipulation des RDDs (Transformation et Actions).

Partie I : Lancement de Spark shell en Scala & Création d’un RDD

Il est possible d’utiliser Spark :
‒ à travers une interface en ligne de commandes en:
 Python (pyspark) : pratique aussi bien pour des tests interactifs
que pour l’étape de mise au point d’une nouvelle application,
 Scala (spark-shell)
‒ via un programme Java.

On peut créer un RDD de deux manières différentes:

 Méthode 1 : Paralléliser une collection

Si votre programme contient des données itérables (tableau, liste, …), elles
peuvent devenir un RDD (collection parallélisé).
var donnees = Array('Ahmed', 'Majida', 'Adam', 'Sara')
var monRDD = [Link](donnees)

 Méthode 2 : Utiliser un jeux de données externes

var monRDD = [Link]("[Link]")

Pour plus d’information sur les RDDs, consulter la documentation officielle de

Spark.

TP Calcul Distribué 1 Pr. Nassima SOUSSI

Université Sultan Moulay Slimane
Ecole National des Sciences Appliquées
Khouribga

Partie II : Manipulation d’un RDD

1. Démarrer « Cloudera Manager » et lancer les services nécessaires assurant le
bon fonctionnement de Spark.
2. Lancer le shell de Spark en Scala.
3. Créer un RDD à partir d’un tableau (Array) déclaré précédemment contenant
les éléments suivant : « Bonjour les M2 de l’ENSAK », « Bienvenue au monde
de Spark », « Amusez-vous avec ce TP d’initiation » et « Bonne formation les
M2 ».
4. Compter le nombre d’éléments dans ce RDD, afficher son premier élément et
les deux premiers.
5. Afficher le contenu du RDD.
6. Construire un nouveau RDD contenant seulement les lignes de l’ancien RDD
ayant une longueur supérieure strictement à 22. Afficher le résultat obtenu.
7. Construire un RDD comprenant seulement les lignes du RDD initial qui
contiennent le mot clé « M2 ». Retourner un tableau avec ses deux premières
lignes.
8. Expliquez la différence entre map() et flatmap() après avoir les utiliser pour
créer des nouveaux RDD contenant l’ensemble des mots du RDD initiales.
9. Utiliser un jeu de données externe pour créer un nouveau rdd :
a. Créer un fichier « [Link] » contenant les données du rdd initial.
b. Copier le fichier dans le HDFS. Vérifier le succès de cette opération en
affichant son contenu.
c. Créer un rdd à partir de ce fichier et manipuler le via les opérations
utilisées précédemment.
d. Compter le nombre de mots dans ce RDD crée avec map reduce.

TP Calcul Distribué 2 Pr. Nassima SOUSSI

Vous aimerez peut-être aussi

Introduction à Spark et Scala avec Docker
Pas encore d'évaluation
Introduction à Spark et Scala avec Docker
6 pages
Application2 - Initiation Spark PDF
Pas encore d'évaluation
Application2 - Initiation Spark PDF
7 pages
Introduction à Apache Spark et RDD
Pas encore d'évaluation
Introduction à Apache Spark et RDD
63 pages
Cours Spark
Pas encore d'évaluation
Cours Spark
50 pages
Examen SP UE
0% (1)
Examen SP UE
4 pages
Commandes Hadoop
Pas encore d'évaluation
Commandes Hadoop
5 pages
Introduction à Hadoop et MapReduce
Pas encore d'évaluation
Introduction à Hadoop et MapReduce
58 pages
Tp1: Installation de L'Apache Spark: Lebutdecetp
100% (1)
Tp1: Installation de L'Apache Spark: Lebutdecetp
4 pages
Partie 01 - Cours Hadoop
Pas encore d'évaluation
Partie 01 - Cours Hadoop
61 pages
TP MapReduce Python
Pas encore d'évaluation
TP MapReduce Python
5 pages
Exemple Examen BIG DATA Partie 1
Pas encore d'évaluation
Exemple Examen BIG DATA Partie 1
7 pages
tp1 BigData
Pas encore d'évaluation
tp1 BigData
9 pages
Ventes Totales par Produit et Région
100% (1)
Ventes Totales par Produit et Région
5 pages
Initier Hadoop pour Big Data
Pas encore d'évaluation
Initier Hadoop pour Big Data
7 pages
Initiation à Hadoop et MapReduce
100% (4)
Initiation à Hadoop et MapReduce
5 pages
TP Bigdata ApacheSparkRDD
Pas encore d'évaluation
TP Bigdata ApacheSparkRDD
3 pages
Exercices MapReduce
Pas encore d'évaluation
Exercices MapReduce
3 pages
Big Data Analytics Sqoop - CDH 4.7
Pas encore d'évaluation
Big Data Analytics Sqoop - CDH 4.7
11 pages
Commandes Hadoop
Pas encore d'évaluation
Commandes Hadoop
10 pages
Chapitre 2
Pas encore d'évaluation
Chapitre 2
32 pages
BigDATA M1 GSI Corrigé - Type
100% (2)
BigDATA M1 GSI Corrigé - Type
3 pages
TP Map Reduce
100% (2)
TP Map Reduce
3 pages
Support de Cours - Spark - Intro - Partie 1 Et 2
100% (2)
Support de Cours - Spark - Intro - Partie 1 Et 2
52 pages
Analyse Big Data avec Hadoop et MapReduce
100% (1)
Analyse Big Data avec Hadoop et MapReduce
6 pages
Chapitre2 Hadoop MapReduce
Pas encore d'évaluation
Chapitre2 Hadoop MapReduce
28 pages
TP2 Hadoop 22 23
Pas encore d'évaluation
TP2 Hadoop 22 23
3 pages
Corrige Devoir de Revision2
Pas encore d'évaluation
Corrige Devoir de Revision2
4 pages
Introduction au Big Data et ses enjeux
Pas encore d'évaluation
Introduction au Big Data et ses enjeux
45 pages
TD-MapReduce 02 2024
Pas encore d'évaluation
TD-MapReduce 02 2024
3 pages
TP3 Hadoop Exercices
Pas encore d'évaluation
TP3 Hadoop Exercices
2 pages
TP Sqoop
100% (3)
TP Sqoop
13 pages
Introduction à MapReduce et Hadoop
Pas encore d'évaluation
Introduction à MapReduce et Hadoop
9 pages
Control Big Data N°4-AU22-23
100% (1)
Control Big Data N°4-AU22-23
3 pages
TP Big Data : Hadoop et MapReduce
Pas encore d'évaluation
TP Big Data : Hadoop et MapReduce
15 pages
Ds Big Data Novembre 2023 Final
Pas encore d'évaluation
Ds Big Data Novembre 2023 Final
3 pages
Exams
Pas encore d'évaluation
Exams
8 pages
Importer et exporter avec Sqoop
Pas encore d'évaluation
Importer et exporter avec Sqoop
4 pages
Introduction au Big Data et NoSQL
Pas encore d'évaluation
Introduction au Big Data et NoSQL
38 pages
TP4 HBase: Manipulation et Stockage NOSQL
Pas encore d'évaluation
TP4 HBase: Manipulation et Stockage NOSQL
18 pages
Tutoriel Complet sur Apache Spark : Chargement, Manipulation et Sauvegarde de Données
100% (1)
Tutoriel Complet sur Apache Spark : Chargement, Manipulation et Sauvegarde de Données
9 pages
Spark et Hadoop : Architectures Big Data
Pas encore d'évaluation
Spark et Hadoop : Architectures Big Data
43 pages
Guide Pratique Cassandra: Installation et CQL
Pas encore d'évaluation
Guide Pratique Cassandra: Installation et CQL
7 pages
Cours 03 MapReduce
Pas encore d'évaluation
Cours 03 MapReduce
36 pages
Atelier 2
Pas encore d'évaluation
Atelier 2
3 pages
Chapitre 4 - HBase
Pas encore d'évaluation
Chapitre 4 - HBase
35 pages
Programmation Hadoop : Guide du Driver Java
100% (1)
Programmation Hadoop : Guide du Driver Java
11 pages
Apache Spark Interview Questions and
Pas encore d'évaluation
Apache Spark Interview Questions and
19 pages
Credit 5bi Big Data
Pas encore d'évaluation
Credit 5bi Big Data
4 pages
Exam Big Data
Pas encore d'évaluation
Exam Big Data
6 pages
Apache Flume Abderrahmane Rharrhour
Pas encore d'évaluation
Apache Flume Abderrahmane Rharrhour
6 pages
Compte Rendu TP 1 Big Data
Pas encore d'évaluation
Compte Rendu TP 1 Big Data
6 pages
Examen NoSQL FR
100% (1)
Examen NoSQL FR
3 pages
Chapitre 3 LEcosystème Hadoop VF
100% (1)
Chapitre 3 LEcosystème Hadoop VF
42 pages
TP3 Hive Correction
Pas encore d'évaluation
TP3 Hive Correction
9 pages
Chapitre N°4 Apache Spark
Pas encore d'évaluation
Chapitre N°4 Apache Spark
43 pages
Révision Correction
Pas encore d'évaluation
Révision Correction
4 pages
TP1 Spark
Pas encore d'évaluation
TP1 Spark
3 pages
API SparkSQL et DataFrames en Spark 2
Pas encore d'évaluation
API SparkSQL et DataFrames en Spark 2
4 pages
TP2 BIGdata
Pas encore d'évaluation
TP2 BIGdata
15 pages
TP 2 Spark
Pas encore d'évaluation
TP 2 Spark
4 pages
CM PHP-PGSQL
Pas encore d'évaluation
CM PHP-PGSQL
28 pages
Cours MC Chapitre 2
Pas encore d'évaluation
Cours MC Chapitre 2
7 pages
TD Transmission Numérique: MDP-4, MAQ-16, MDP-2 et MDA Analyses
Pas encore d'évaluation
TD Transmission Numérique: MDP-4, MAQ-16, MDP-2 et MDA Analyses
10 pages
Apprendre le Réseau avec Filius
100% (1)
Apprendre le Réseau avec Filius
2 pages
Administration Et Maintenance Des Systèmes
Pas encore d'évaluation
Administration Et Maintenance Des Systèmes
43 pages
Amplificateurs Push-Pull : TD 2012-2013
Pas encore d'évaluation
Amplificateurs Push-Pull : TD 2012-2013
1 page
Routage et Protocoles dans les Réseaux Ad Hoc
Pas encore d'évaluation
Routage et Protocoles dans les Réseaux Ad Hoc
9 pages
Protocoles de Liaison de Données
Pas encore d'évaluation
Protocoles de Liaison de Données
20 pages
DDC4020 e
Pas encore d'évaluation
DDC4020 e
8 pages
Etude de Stabilité Des Tensions D'entrée de L'onduleur À Sept Niveaux À Structure NPC
Pas encore d'évaluation
Etude de Stabilité Des Tensions D'entrée de L'onduleur À Sept Niveaux À Structure NPC
7 pages
Astuces Linux: Productivité et Commandes
Pas encore d'évaluation
Astuces Linux: Productivité et Commandes
12 pages
SERIALIZER and DESERIALIZER
Pas encore d'évaluation
SERIALIZER and DESERIALIZER
85 pages
Récupération de Données
Pas encore d'évaluation
Récupération de Données
13 pages
Monitor Mode Redmi Note 7 Kernel
Pas encore d'évaluation
Monitor Mode Redmi Note 7 Kernel
2 pages
Chapitre 3 Redressement Monophasé Commandé
100% (3)
Chapitre 3 Redressement Monophasé Commandé
10 pages
Exercices Sur Les Systemes de Numeration Et Codes
Pas encore d'évaluation
Exercices Sur Les Systemes de Numeration Et Codes
2 pages
WM 315 CNC 4.0
Pas encore d'évaluation
WM 315 CNC 4.0
1 page
Bonne Copie MEMOIRE Louange
Pas encore d'évaluation
Bonne Copie MEMOIRE Louange
52 pages
Moteur k100m
Pas encore d'évaluation
Moteur k100m
3 pages
TD 1 Digital Skills
Pas encore d'évaluation
TD 1 Digital Skills
4 pages
Rapport Projet Réseaux - Mise en Place D'un LAN
100% (4)
Rapport Projet Réseaux - Mise en Place D'un LAN
23 pages
Chap 8 Les Amplificateurs Differentiels
Pas encore d'évaluation
Chap 8 Les Amplificateurs Differentiels
26 pages
Descriptif Modules SI
Pas encore d'évaluation
Descriptif Modules SI
32 pages
Concepts WD 24
Pas encore d'évaluation
Concepts WD 24
101 pages
Travaux N°2 NV
Pas encore d'évaluation
Travaux N°2 NV
12 pages
Commande Par Automate
Pas encore d'évaluation
Commande Par Automate
14 pages
Rapport Stage Pedagogique 2024-2
Pas encore d'évaluation
Rapport Stage Pedagogique 2024-2
36 pages
Installer un réseau informatique local
100% (32)
Installer un réseau informatique local
14 pages
Interface FPGA et Ethernet : Guide Complet
100% (1)
Interface FPGA et Ethernet : Guide Complet
30 pages
LB Epreuve Info 3eme Ev1 24
Pas encore d'évaluation
LB Epreuve Info 3eme Ev1 24
2 pages