LCD m2 Fiil tp06

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

38 vues2 pages

LCD m2 Fiil tp06

Transféré par

Highconseil

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

5/12/2017

Polytech Paris-Sud Et5 Info

TP MapReduce/Hadoop

Exercice 0
Cet exercice consiste à configurer son compte pour pouvoir utiliser Hadoop.
1. Éditer le fichier ~/.ssh/config pour y rajouter les lignes suivantes :
Host *
AddressFamily inet
Host 0.0.0.0 127.0.0.1 localhost ip6-localhost
StrictHostKeyChecking no
UserKnownHostsFile=/dev/null
2. Exécuter la commande suivante : ssh localhost (et répondre « yes » aux eventuelles questions). Si
vous ne pouvez pas vous logguer sans mot de passe, effectuez l’opération suivante :
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
puis vérifier que la commande ssh localhost fonctionne sans problème.
3. Ajouter à la fin de votre fichier ~/.bashrc la ligne :
source /public/kn/setup-kn.sh
et relancer le terminal
4. Vérifier si des fichiers temporaires hadoop existent :
ls -d /tmp/hadoop*
Si cette commande affiche des répertoires dont le nom contient votre login Unix, les effacer (si la
commande affiche une erreur c’est que les fichiers n’existent pas, vous pouvez passer à la suite) :
rm -rf /tmp/hadoop*
5. Formatter le HDFS
hdfs namenode -format
6. Démarrer HDFS
start-dfs.sh
Vérifier que HDFS est démarré en vous rendant à l’URL http://localhost:50070 et contrôler que la
ligne Configured Capacity n’indique pas 0 octets.
7. Créer une arborescence de répertoire sur HDFS et y déposer les fichiers textes du TP (on suppose que
le répertoire courant contient les fichiers texte). Il faut remplacer VOTRELOGIN par votre login Unix.
hdfs dfs -mkdir -p /user/VOTRELOGIN/input/
hdfs dfs -put *.txt /user/VOTRELOGIN/input/
Attention, vous devez vous trouver dans le répertoire contenant les fichiers textes du TP pour cette
dernière commande.

1
Exercice 1
Dans cet exercice, on va implémenter un comptage de mot, c’est à dire utiliser Map/Reduce pour comp-
ter de manière distribuée 1 le nombre d’occurrences de chaque mots dans un texte.
1. Importez le projet Eclipse sur la page du cours
2. Lisez attentivement la classe DriverWordCount. La transformation utilise un map et un reduce. Le
map prend en argument des paires (numrodeligne, texte) (on se ﬁche du numéro de ligne). Le reduce
prend en argument des chaines de caractères et des tableaux de null
3. Compléter le code des méthodes map et reduce comme vu en cours pour compter les occurrences de
chaque mot. On pourra convertir le Text d’entrée du map en une chaîne Java et utiliser la méthode
split des chaînes pour la découper en tableau de mots.
4. Une fois le code complété, vous devez générer un ﬁchier jar à partir du projet (Export -> Jar file)
à l’endroit que vous souhaitez puis tester avec :

hadoop fs -rm -r /user/VOTRELOGIN/output/

hadoop jar ~/Untitled.jar lcd.tp06.DriverWordCount \

/user/VOTRELOGIN/output /user/VOTRELOGIN/input/jungle2.txt

vériﬁer le résultat du calcul (s’il n’y a pas eu d’erreur :)

hadoop fs -cat /user/VOTRELOGIN/output/* | less
(q pour quitter).

Exercice 2
Copier (sous eclipse) votre classe DriverWordCount en une classe DriverInter. Modifier le code pour
qu’il effectue la transformation suivante :
entrée une suite de fichier contenant sur chaque ligne 2 nombres séparés par un espace
sortie l’intersection des 2 colonnes, c’est à dire l’ensemble des nombres qui apparaissent en première
position et en deuxième position au moins une fois dans les fichiers.

Exercice 3
Copier (sous eclipse) votre classe DriverWordCount en une classe DriverUnion. Modifier le code pour
qu’il effectue la transformation suivante :
entrée une suite de fichier contenant sur chaque ligne 2 nombres séparés par un espace
sortie l’union des 2 colonnes, c’est à dire l’ensemble des nombres qui apparaissent en première position
ou en deuxième position au moins une fois dans les fichiers.

Exercice 4
On considère les deux ﬁchiers exo2_1.txt et exo2_2.txt. Proposer un algorithme (en pseudo-code)
pour calculer leur jointure sur la première colonne.
Implémenter cette solution.

1. en pratique, vous n’aurez qu’un seul worker, la machine sur laquelle vous vous trouvez, mais il suffit d’ajouter des machines
autres que localhost dans le fichier de configuration pour avoir plusieurs nœuds, le reste est identique
2

Vous aimerez peut-être aussi

TP N°2 - Exemple Word Count Avec Hadoop
Pas encore d'évaluation
TP N°2 - Exemple Word Count Avec Hadoop
12 pages
Exécution de MapReduce avec Hadoop
Pas encore d'évaluation
Exécution de MapReduce avec Hadoop
5 pages
Travaux Pratique N 1 - 3
Pas encore d'évaluation
Travaux Pratique N 1 - 3
4 pages
Manipulation de Hadoop : HDFS et MapReduce
Pas encore d'évaluation
Manipulation de Hadoop : HDFS et MapReduce
5 pages
TD Big Data: Installation Hadoop & MapReduce
Pas encore d'évaluation
TD Big Data: Installation Hadoop & MapReduce
6 pages
HDFS Boufares TP2
Pas encore d'évaluation
HDFS Boufares TP2
8 pages
Introduction à Map-Reduce et TP Hadoop
Pas encore d'évaluation
Introduction à Map-Reduce et TP Hadoop
7 pages
TP Hadoop: MapReduce et YARN en Java
100% (1)
TP Hadoop: MapReduce et YARN en Java
5 pages
TP 3 - Exercices Map Reduce
88% (8)
TP 3 - Exercices Map Reduce
3 pages
Programme WordCount avec MapReduce
Pas encore d'évaluation
Programme WordCount avec MapReduce
4 pages
Abderrahman Eladlani - TPs - Hadoop
Pas encore d'évaluation
Abderrahman Eladlani - TPs - Hadoop
1 page
TP3 - BD - 2024
Pas encore d'évaluation
TP3 - BD - 2024
5 pages
Initiation à Hadoop et MapReduce
Pas encore d'évaluation
Initiation à Hadoop et MapReduce
5 pages
Atelier 2 Map Reduce
Pas encore d'évaluation
Atelier 2 Map Reduce
4 pages
TP2 - Hadoop MapReduce 2023
Pas encore d'évaluation
TP2 - Hadoop MapReduce 2023
11 pages
TP Hadoop: MapReduce et Python
Pas encore d'évaluation
TP Hadoop: MapReduce et Python
5 pages
TP Big Data : Compteur de Mots Hadoop
Pas encore d'évaluation
TP Big Data : Compteur de Mots Hadoop
8 pages
Introduction à Hadoop et MapReduce
Pas encore d'évaluation
Introduction à Hadoop et MapReduce
6 pages
Traitement Du Big Data: TP3 Le Modèle de Programmation Map Reduce
Pas encore d'évaluation
Traitement Du Big Data: TP3 Le Modèle de Programmation Map Reduce
25 pages
TP3 Map Reduce
Pas encore d'évaluation
TP3 Map Reduce
25 pages
Atelier 5 Word Count Avec MapReduce
Pas encore d'évaluation
Atelier 5 Word Count Avec MapReduce
22 pages
Introduction à Hadoop et MapReduce
Pas encore d'évaluation
Introduction à Hadoop et MapReduce
10 pages
TP BigData 01
Pas encore d'évaluation
TP BigData 01
3 pages
Cluster Hadoop - Docker Portainee
Pas encore d'évaluation
Cluster Hadoop - Docker Portainee
33 pages
Installation de Hadoop sur Windows
Pas encore d'évaluation
Installation de Hadoop sur Windows
18 pages
Installation de Hadoop et Spark sur Windows
Pas encore d'évaluation
Installation de Hadoop et Spark sur Windows
5 pages
tp3 Hadoop
Pas encore d'évaluation
tp3 Hadoop
12 pages
Mbds Big Data Hadoop 2019 2020 Cours 2
Pas encore d'évaluation
Mbds Big Data Hadoop 2019 2020 Cours 2
45 pages
Guide Hadoop MapReduce WordCount
Pas encore d'évaluation
Guide Hadoop MapReduce WordCount
4 pages
TP2 MapReduce 02 2024
Pas encore d'évaluation
TP2 MapReduce 02 2024
8 pages
Atelier 2
Pas encore d'évaluation
Atelier 2
3 pages
Introduction à Hadoop et Big Data
Pas encore d'évaluation
Introduction à Hadoop et Big Data
56 pages
Compte Rendu TP 1 Big Data
Pas encore d'évaluation
Compte Rendu TP 1 Big Data
6 pages
Compte Rendu TP 1 Big Data PDF Free
Pas encore d'évaluation
Compte Rendu TP 1 Big Data PDF Free
6 pages
TP Big Data : Hadoop et MapReduce
Pas encore d'évaluation
TP Big Data : Hadoop et MapReduce
15 pages
Programmation HDFS avec Eclipse
Pas encore d'évaluation
Programmation HDFS avec Eclipse
4 pages
MapReduce avec Python pour WordCount
Pas encore d'évaluation
MapReduce avec Python pour WordCount
12 pages
Mbds Big Data Hadoop 2019 2020 TP 1
Pas encore d'évaluation
Mbds Big Data Hadoop 2019 2020 TP 1
17 pages
Python MapReduce pour Big Data
Pas encore d'évaluation
Python MapReduce pour Big Data
3 pages
TP ComplementaireSpark
Pas encore d'évaluation
TP ComplementaireSpark
3 pages
TP2 MapReduce
Pas encore d'évaluation
TP2 MapReduce
7 pages
Tp4 Hadoop-Programmation Map-Reduce: Partie 1: Wordcount en Java
Pas encore d'évaluation
Tp4 Hadoop-Programmation Map-Reduce: Partie 1: Wordcount en Java
3 pages
MapReduce et HDFS : Guide Pratique
Pas encore d'évaluation
MapReduce et HDFS : Guide Pratique
2 pages
TP1 Hadoop
Pas encore d'évaluation
TP1 Hadoop
2 pages
Programmation Hadoop : Guide du Driver Java
100% (1)
Programmation Hadoop : Guide du Driver Java
11 pages
Installation Apache Hadoop et MapReduce
Pas encore d'évaluation
Installation Apache Hadoop et MapReduce
20 pages
Atelier Big Data : Traitement Batch avec Hadoop
Pas encore d'évaluation
Atelier Big Data : Traitement Batch avec Hadoop
11 pages
Examen Big Data
Pas encore d'évaluation
Examen Big Data
3 pages
TP Hadoop: Manipulation HDFS CLI & Java
Pas encore d'évaluation
TP Hadoop: Manipulation HDFS CLI & Java
3 pages
DS-2-Big Data Et Cloud
Pas encore d'évaluation
DS-2-Big Data Et Cloud
2 pages
TP 1 Hadoop
Pas encore d'évaluation
TP 1 Hadoop
16 pages
Atelier3 Map Reduce Sur La Plate Forme Cloudera
Pas encore d'évaluation
Atelier3 Map Reduce Sur La Plate Forme Cloudera
9 pages
QCM et exercices sur Hadoop et MapReduce
Pas encore d'évaluation
QCM et exercices sur Hadoop et MapReduce
3 pages
Introduction au Big Data et MapReduce
Pas encore d'évaluation
Introduction au Big Data et MapReduce
47 pages
Td1: Hadoop: Exercice 1
75% (4)
Td1: Hadoop: Exercice 1
3 pages
Configuration d'un Cluster Hadoop avec Docker
Pas encore d'évaluation
Configuration d'un Cluster Hadoop avec Docker
3 pages
Traitement Batch avec Hadoop et MapReduce
Pas encore d'évaluation
Traitement Batch avec Hadoop et MapReduce
11 pages
Installation et Configuration de Hadoop
Pas encore d'évaluation
Installation et Configuration de Hadoop
17 pages
2019 2020 UE Windows Server Administration Avancee 5688
Pas encore d'évaluation
2019 2020 UE Windows Server Administration Avancee 5688
3 pages
VPN Sécurisé avec IPsec
Pas encore d'évaluation
VPN Sécurisé avec IPsec
20 pages
Master Réseaux Et Objets Connectés
Pas encore d'évaluation
Master Réseaux Et Objets Connectés
2 pages
Guide Routeurs CISCO pour Techniciens
Pas encore d'évaluation
Guide Routeurs CISCO pour Techniciens
5 pages
Parcours de chaînes en C avec pointeurs
100% (1)
Parcours de chaînes en C avec pointeurs
1 page
Copie de Memoire Esther Chap 2
Pas encore d'évaluation
Copie de Memoire Esther Chap 2
23 pages
Des Transactions Disparaissent Dans S4 HANA
Pas encore d'évaluation
Des Transactions Disparaissent Dans S4 HANA
2 pages
Chapitre 2 L'e-Recrutement
100% (1)
Chapitre 2 L'e-Recrutement
4 pages
S7 Programmer
Pas encore d'évaluation
S7 Programmer
528 pages
RobotinoView2 en
100% (1)
RobotinoView2 en
176 pages
Rapport 1
Pas encore d'évaluation
Rapport 1
40 pages
Introduction À Lalgorithmique
100% (1)
Introduction À Lalgorithmique
24 pages
Technologie Et IA
Pas encore d'évaluation
Technologie Et IA
3 pages
Bascomfr Livre1 PDF
Pas encore d'évaluation
Bascomfr Livre1 PDF
67 pages
Systèmes de numérotation et conversions hexadecimales
Pas encore d'évaluation
Systèmes de numérotation et conversions hexadecimales
7 pages
Introduction aux Réseaux Téléphoniques
100% (1)
Introduction aux Réseaux Téléphoniques
37 pages
Introduction aux systèmes DCS et leur évolution
Pas encore d'évaluation
Introduction aux systèmes DCS et leur évolution
7 pages
Memoire 31 2
Pas encore d'évaluation
Memoire 31 2
65 pages
Parc Informatique
Pas encore d'évaluation
Parc Informatique
26 pages
Mise à jour complète de GLPI
Pas encore d'évaluation
Mise à jour complète de GLPI
16 pages
Guide utilisateur de l'appareil esys
Pas encore d'évaluation
Guide utilisateur de l'appareil esys
66 pages
Voyage au Cœur de TechnoVille
Pas encore d'évaluation
Voyage au Cœur de TechnoVille
32 pages
TP Développement Mobile STIC-L2-SR
Pas encore d'évaluation
TP Développement Mobile STIC-L2-SR
4 pages
Entrepôt de données et opérations OLAP
Pas encore d'évaluation
Entrepôt de données et opérations OLAP
2 pages
Notice Isimulate FR V7.0.3
Pas encore d'évaluation
Notice Isimulate FR V7.0.3
64 pages
TeXworks Manual FR
Pas encore d'évaluation
TeXworks Manual FR
77 pages
Planning Examen Semestre 1 - 025112
Pas encore d'évaluation
Planning Examen Semestre 1 - 025112
5 pages
CV Firdaousse Aouichah
Pas encore d'évaluation
CV Firdaousse Aouichah
1 page
Gestion des fichiers Oracle et utilisateurs
Pas encore d'évaluation
Gestion des fichiers Oracle et utilisateurs
4 pages
Etude de La Machine de Coupe: Rapport de Projet de Fin D'année
100% (1)
Etude de La Machine de Coupe: Rapport de Projet de Fin D'année
34 pages
Maîtriser l'usage du courrier électronique et des réseaux sociaux
Pas encore d'évaluation
Maîtriser l'usage du courrier électronique et des réseaux sociaux
2 pages
Devoir de Synthèse N°2 - Algorithmique Et Programmation - 3ème Informatique (2011-2012) Mme Ibtissem
Pas encore d'évaluation
Devoir de Synthèse N°2 - Algorithmique Et Programmation - 3ème Informatique (2011-2012) Mme Ibtissem
2 pages
Plan de Communication de Kms 2
Pas encore d'évaluation
Plan de Communication de Kms 2
3 pages
Support Cours Réseaux Informatiques MAALI
Pas encore d'évaluation
Support Cours Réseaux Informatiques MAALI
37 pages