0% ont trouvé ce document utile (0 vote)

91 vues5 pages

Compte de mots avec Hadoop et Java

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

91 vues5 pages

Compte de mots avec Hadoop et Java

Transféré par

nouharakrouki822

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

Word Count

MAPREDUCE

HADID | BIG DATA | Date

WordCount
Word Count est surnommé le "Hello World !" de Hadoop. Ce programme compte le
nombre d’occurrences de chaque mot dans un corpus représentant l’ensemble des
œuvres de Shakespeare.

Le développement et la mise en œuvre d’un programme Hadoop comprennent en

général les phases suivantes :

− Préparation des données.

− Importation des données dans HDFS.

− Ecriture du programme Hadoop et validation en environnement de test.

− Exécution du programme Hadoop en environnement de production.

− Récupération et analyse des résultats.

1. PRÉPARATION DES DONNÉES

La totalité de l’œuvre de Shakespeare est stockée dans un seul fichier au format Plain
Text UTF-8 provenant du projet Gutenberg (http://www.gutenberg.org/). Ce fichier
peut être téléchargé à l’adresse http://www.gutenberg.org/ebooks/100. Si cette adresse
ne fonctionne pas, lancer une recherche Google sur l’expression download shakespeare
works. Le fichier téléchargé est enregistré sur le bureau sous le nom pg100.txt.

Le fichier se présente sous la forme d’un ensemble de lignes, chaque ligne se terminant
par un signe de nouvelle ligne (\n). Chaque ligne est composée de mots séparés par un
espace ou est vide.

PAGE 1
2. Importation des données dans HDFS
Pour importer le fichier pg100.txt dans HDFS, procédez de la manière suivante :

 Ouvrez le Terminal.

 Dans HDFS, créez le sous-répertoire data dans le répertoire courant, puis

assurez-vous que le répertoire data a bien été créé.

 Copiez le fichier local pg100.txt dans le répertoire data.

 Vérifiez que le fichier pg100.txt est bien présent dans HDFS.

Les commandes à utiliser sont les suivantes :

3. WordCount en Java
Ouvrez d'abord Eclipse -> puis sélectionnez Fichier -> Nouveau -> Projet Java
-> Nommez-le WordCount -> puis Terminez.

Créez trois classes Java dans le projet. Nommez-les WordCountDriver (ayant la

fonction principale), WordCountMapper, WordCountReducer.

a. Le driver.

Le driver est un programme Java qui s’exécute généralement sur la machine cliente
(donc pas dans le cluster Hadoop). Il permet de configurer le job puis de le soumettre
au cluster Hadoop pour exécution.

Vous devez copier-coller le programme dans le fichier Driver.doc dans

WordCountDriver Class.

b. Le mapper

PAGE 2
Le mapper est un programme Java exécuté en parallèle sur plusieurs nœuds esclaves
(slave nodes) du cluster Hadoop, chaque instance étant un mapper. Chaque mapper
compte le nombre d’occurrences d’un mot dans une partie des œuvres de Shakespeare
(les reducers se chargeant de synthétiser le travail des mappers).

Vous devez copier-coller le programme dans le fichier mapper.doc dans

WordCountMapper Class.

c. Le reducer

Le reducer est un programme Java exécuté en parallèle sur plusieurs nœuds esclaves
(slave nodes) du cluster Hadoop, chaque instance étant un reducer. Chaque reducer :

 Se voit affecter par Hadoop un sous-ensemble de l’ensemble des mots

constituant les œuvres de Shakespeare.
 Est chargé, pour chaque mot de ce sous-ensemble, de cumuler les comptages
de ce même mot issus, le cas échéant, de différents mappers.

Vous devez copier-coller le programme dans le fichier reducer.doc dans

WordCountReducer Class.

d. Compilation et exécution du job

Vous devez maintenant créer un fichier jar.
Faites un clic droit sur Projet-> Cliquez sur Export-> Sélectionnez la destination
d'exportation en tant que fichier Jar-> Nommez le fichier jar (WC.jar) -> Cliquez sur
suivant -> enfin cliquez sur Terminer.
Copiez maintenant ce fichier dans le répertoire Workspace de Cloudera

Le programme WordCount est prêt à être exécuté.

Exécution du job
La commande permettant de lancer WordCount s’analyse de la
façon suivante :

hadoop jar WC.jar WordCountDriver data wordcounts

hadoop : la commande à exécuter est une commande Hadoop, pas Linux.

jar : la commande à exécuter est jar, qui lance l’exécution d’un fichier JAR.
WC.jar : le fichier à exécuter est wc.jar.
WordCountDriver : nom de la classe à appeler pour lancer le job.
data : répertoire contenant les données en entrée.

PAGE 3
wordcounts : répertoire contenant les résultats en sortie.

L’exécution du job donne lieu à l’affichage de nombreux messages. Quelques

messages importants

Pour afficher les résultats :

Notez le nom du fichier contenant les résultats issus des reducers (un fichier par
reducer, donc un seul fichier dans notre cas car, en mode pseudo-distribué, un seul
reducer est utilisé).

 Copiez le fichier de Hadoop sur le Bureau.

 Visualisez le contenu du fichier à l’aide de gedit.

Les commandes à utiliser sont les suivantes :

PAGE 4

Vous aimerez peut-être aussi

Atelier 5 Word Count Avec MapReduce
Pas encore d'évaluation
Atelier 5 Word Count Avec MapReduce
22 pages
Driver WordCount en Java pour Hadoop
100% (1)
Driver WordCount en Java pour Hadoop
3 pages
Atelier 2 Map Reduce
Pas encore d'évaluation
Atelier 2 Map Reduce
4 pages
Atelier3 Map Reduce Sur La Plate Forme Cloudera
Pas encore d'évaluation
Atelier3 Map Reduce Sur La Plate Forme Cloudera
9 pages
TP N°2 - Exemple Word Count Avec Hadoop
Pas encore d'évaluation
TP N°2 - Exemple Word Count Avec Hadoop
12 pages
TP Big Data : Compteur de Mots Hadoop
Pas encore d'évaluation
TP Big Data : Compteur de Mots Hadoop
8 pages
Mapper WordCount en Scala
Pas encore d'évaluation
Mapper WordCount en Scala
3 pages
Programme WordCount avec MapReduce
Pas encore d'évaluation
Programme WordCount avec MapReduce
4 pages
Tp4 Hadoop-Programmation Map-Reduce: Partie 1: Wordcount en Java
Pas encore d'évaluation
Tp4 Hadoop-Programmation Map-Reduce: Partie 1: Wordcount en Java
3 pages
TP2 - Hadoop MapReduce 2023
Pas encore d'évaluation
TP2 - Hadoop MapReduce 2023
11 pages
Travaux Pratique N 1 - 3
Pas encore d'évaluation
Travaux Pratique N 1 - 3
4 pages
Abderrahman Eladlani - TPs - Hadoop
Pas encore d'évaluation
Abderrahman Eladlani - TPs - Hadoop
1 page
TP3 Map Reduce
Pas encore d'évaluation
TP3 Map Reduce
25 pages
TP Hadoop: MapReduce et YARN en Java
100% (1)
TP Hadoop: MapReduce et YARN en Java
5 pages
Etape Mapreduce
Pas encore d'évaluation
Etape Mapreduce
6 pages
TP Hadoop: MapReduce et Python
Pas encore d'évaluation
TP Hadoop: MapReduce et Python
5 pages
Manipulation de Hadoop : HDFS et MapReduce
Pas encore d'évaluation
Manipulation de Hadoop : HDFS et MapReduce
5 pages
LCD m2 Fiil tp06
Pas encore d'évaluation
LCD m2 Fiil tp06
2 pages
TP3 Progrmmation Hadoop - MapReduce Sous Cloudera
Pas encore d'évaluation
TP3 Progrmmation Hadoop - MapReduce Sous Cloudera
6 pages
Guide Hadoop MapReduce WordCount
Pas encore d'évaluation
Guide Hadoop MapReduce WordCount
4 pages
Atelier2 Mapreduce
Pas encore d'évaluation
Atelier2 Mapreduce
3 pages
Introduction à Hadoop et MapReduce
Pas encore d'évaluation
Introduction à Hadoop et MapReduce
6 pages
Exécution de MapReduce avec Hadoop
Pas encore d'évaluation
Exécution de MapReduce avec Hadoop
5 pages
Introduction à Map-Reduce et TP Hadoop
Pas encore d'évaluation
Introduction à Map-Reduce et TP Hadoop
7 pages
Introduction au modèle MapReduce
Pas encore d'évaluation
Introduction au modèle MapReduce
5 pages
TP3 - BD - 2024
Pas encore d'évaluation
TP3 - BD - 2024
5 pages
Traitement Du Big Data: TP3 Le Modèle de Programmation Map Reduce
Pas encore d'évaluation
Traitement Du Big Data: TP3 Le Modèle de Programmation Map Reduce
25 pages
Programmation Hadoop : Guide du Driver Java
100% (1)
Programmation Hadoop : Guide du Driver Java
11 pages
TD Big Data: Installation Hadoop & MapReduce
Pas encore d'évaluation
TD Big Data: Installation Hadoop & MapReduce
6 pages
HDFS Boufares TP2
Pas encore d'évaluation
HDFS Boufares TP2
8 pages
Chapitre 1 - Application Word Count
Pas encore d'évaluation
Chapitre 1 - Application Word Count
7 pages
Cluster Hadoop - Docker Portainee
Pas encore d'évaluation
Cluster Hadoop - Docker Portainee
33 pages
TP2 MapReduce
Pas encore d'évaluation
TP2 MapReduce
7 pages
Introduction à Hadoop et Big Data
Pas encore d'évaluation
Introduction à Hadoop et Big Data
56 pages
Lab 3
Pas encore d'évaluation
Lab 3
3 pages
TP2 Mapreduce
Pas encore d'évaluation
TP2 Mapreduce
12 pages
MapReduce et HDFS : Guide Pratique
Pas encore d'évaluation
MapReduce et HDFS : Guide Pratique
2 pages
TP2 MapReduce 02 2024
Pas encore d'évaluation
TP2 MapReduce 02 2024
8 pages
Atelier 2
Pas encore d'évaluation
Atelier 2
3 pages
Cours 03 MapReduce
Pas encore d'évaluation
Cours 03 MapReduce
36 pages
Hadoop MP Industrie 4
Pas encore d'évaluation
Hadoop MP Industrie 4
18 pages
MapReduce avec Python pour WordCount
Pas encore d'évaluation
MapReduce avec Python pour WordCount
12 pages
Installation de Hadoop et Spark sur Windows
Pas encore d'évaluation
Installation de Hadoop et Spark sur Windows
5 pages
Initiation à Hadoop et MapReduce
Pas encore d'évaluation
Initiation à Hadoop et MapReduce
5 pages
Introduction à MapReduce et Hadoop
Pas encore d'évaluation
Introduction à MapReduce et Hadoop
9 pages
Hdfs Mapreduce
Pas encore d'évaluation
Hdfs Mapreduce
43 pages
Mbds Big Data Hadoop 2019 2020 TP 1
Pas encore d'évaluation
Mbds Big Data Hadoop 2019 2020 TP 1
17 pages
TP HDFS Hadoop Spark Docker
Pas encore d'évaluation
TP HDFS Hadoop Spark Docker
4 pages
Ige356 - Grpe Ii
Pas encore d'évaluation
Ige356 - Grpe Ii
3 pages
Mbds Big Data Hadoop 2019 2020 Cours 2
Pas encore d'évaluation
Mbds Big Data Hadoop 2019 2020 Cours 2
45 pages
Traitement Batch avec Hadoop et MapReduce
Pas encore d'évaluation
Traitement Batch avec Hadoop et MapReduce
11 pages
Introduction à Hadoop MapReduce
Pas encore d'évaluation
Introduction à Hadoop MapReduce
28 pages
Introduction au Big Data et MapReduce
Pas encore d'évaluation
Introduction au Big Data et MapReduce
47 pages
Méthodes de Saisie et Gestion de Fichiers en Java
Pas encore d'évaluation
Méthodes de Saisie et Gestion de Fichiers en Java
9 pages
Python MapReduce pour Big Data
Pas encore d'évaluation
Python MapReduce pour Big Data
3 pages
TP2 Spark
Pas encore d'évaluation
TP2 Spark
3 pages
tp5MOUJANE BASMA
Pas encore d'évaluation
tp5MOUJANE BASMA
9 pages
Analyse de Données avec Spark
Pas encore d'évaluation
Analyse de Données avec Spark
7 pages
Installation et utilisation de WebUtil 10g
Pas encore d'évaluation
Installation et utilisation de WebUtil 10g
8 pages
Lancer RMA NetBeans
Pas encore d'évaluation
Lancer RMA NetBeans
8 pages
Vérification Code avec Checkstyle
Pas encore d'évaluation
Vérification Code avec Checkstyle
4 pages
TP 03 - Jenkins
Pas encore d'évaluation
TP 03 - Jenkins
7 pages
Développement D'applications Réparties
Pas encore d'évaluation
Développement D'applications Réparties
4 pages
Cours-1 Ok
Pas encore d'évaluation
Cours-1 Ok
46 pages
Pdfsam Basic FR
Pas encore d'évaluation
Pdfsam Basic FR
29 pages
TP 3 - Exercices Map Reduce
88% (8)
TP 3 - Exercices Map Reduce
3 pages
Poly Copie Java
Pas encore d'évaluation
Poly Copie Java
494 pages
Jasper Report
100% (1)
Jasper Report
14 pages
0007 Cours Programmation Java Avancee
Pas encore d'évaluation
0007 Cours Programmation Java Avancee
273 pages
Introduction à la POO en Java
Pas encore d'évaluation
Introduction à la POO en Java
97 pages
Installation JDK et Eclipse pour Java
Pas encore d'évaluation
Installation JDK et Eclipse pour Java
3 pages
Cours Java: Concepts et Outils Clés
Pas encore d'évaluation
Cours Java: Concepts et Outils Clés
126 pages
Simulation de drones pour surveillance terrestre
Pas encore d'évaluation
Simulation de drones pour surveillance terrestre
7 pages
Programmation Objet en Java: Cours Complet
Pas encore d'évaluation
Programmation Objet en Java: Cours Complet
389 pages
TP Db4o - 1
Pas encore d'évaluation
TP Db4o - 1
3 pages
Thymeleaf
Pas encore d'évaluation
Thymeleaf
18 pages
Introduction à JPA pour Java EE
100% (1)
Introduction à JPA pour Java EE
12 pages
Integration de PL/JAVA Dans Le SGBD PostgreSQL
100% (2)
Integration de PL/JAVA Dans Le SGBD PostgreSQL
29 pages
1 Support Poo Java Premire Partie 1
100% (1)
1 Support Poo Java Premire Partie 1
128 pages
SP Advanced BIGData-1
Pas encore d'évaluation
SP Advanced BIGData-1
6 pages
Introduction au Langage Java
100% (1)
Introduction au Langage Java
75 pages
Cloud Computing-CloudSim-7
Pas encore d'évaluation
Cloud Computing-CloudSim-7
17 pages
Cours-2 Ok
Pas encore d'évaluation
Cours-2 Ok
46 pages
10 POO Testsunitaires
Pas encore d'évaluation
10 POO Testsunitaires
25 pages
TP Java RMI : Client-Serveur et Banque
Pas encore d'évaluation
TP Java RMI : Client-Serveur et Banque
3 pages
Configuration T24 pour Emails et SMS
Pas encore d'évaluation
Configuration T24 pour Emails et SMS
7 pages
TP Java : Classes et Méthodes
Pas encore d'évaluation
TP Java : Classes et Méthodes
4 pages
Création Fichiers Java
Pas encore d'évaluation
Création Fichiers Java
2 pages