0% ont trouvé ce document utile (0 vote)
150 vues2 pages

TP1 Hadoop

Transféré par

Manel Hkimi
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
150 vues2 pages

TP1 Hadoop

Transféré par

Manel Hkimi
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

TP1 - Initiation a Hadoop et MapReduce

Ce TP, vous permet de faire vos premiers pas avec Hadoop. Pour ceci il faut preparer l'environnement
logiciel necessaire. Le plus simple c'est de telecharger et de se connecter a une machine virtuelle dans
laquelle Hadoop, ainsi qu'un grand nombre d'outils de son ecosysteme, sont preinstalles. Pour ceci, il
est recommande de telecharger la machine virtuelle « Hadoop Training Virtual Machine » tournant
sous Ubuntu. Pour utiliser cette machine, il est recommande d'installer « Virtual Box » qui est un
logiciel de virtualisation disponible en tant qu'hote sur plusieurs systemes d'exploitation, notamment
Windows, Linux 32 et 64 bits et Mac OS. Une fois Virtual Box installe, ouvrez-le et im jportez le
fichier HadoopTraining. ova et suivez les instructions qui apparaissent. A la fin de cette etape,
vous pourrez demarrer la machine virtuelle et travailler. Vous aurez notamment besoin d'ouvrir un
terminal pour ecrire les differentes commandes vous permettant d'executer le travail demande. Avant
d'ecrire toute commande hadoop, il faut d'abord lancer les differents services en tapant :
startCDH.sh.
En cas de problème lors du lancement du safemode, lancer l’instruction
hdfs dfsadmin -safemode leave
Pour stopper ces services, il faut taper la commande stopCDH. sh.
En effet, toutes les commandes interagissant avec le systeme Hadoop commencent par hadoop fs ou
hdfs dfs. Ensuite, les options rajoutees sont tres largement inspirees des commandes Unix standard.
Le tableau suivant resume les commandes les plus utilisees dans Hadoop.
Commande Resultat
hadoop fs -ls Lister le contenu d'un dossier
hadoop fs -mkdir <nomdossier> Creer un dossier dans HDFS

hadoop fs -put < Path[Filename]> <nomrep> Charger un fichier du local (repertoire


ex:hadoop fs –put /home/hadoop/Desktop/file.txt Linux) a HDFS
hadoop fs -get < Path[Filename]> <nomrep> Exporter un ou plusieurs fichiers de
ex: hadoop fs –get file.txt /home/hadoop/Desktop/ HDFS au local
hadoop fs -cat <Path[Filename]> Afficher le contenu d'un fichier
hadoop fs -tail <Path[Filename]> Afficher les dernieres lignes d'un
fichier
hadoop fs -rm <Path[Filename]> Supprimer un fichier dans HDFS
Hadoop fs -touchz <Path[Filename]> Creer un fichier vide dans HDFS
Hadoop fs -mv < Path[Filename]> <rep> Deplacer le fichier sous le repertoire
Hadoop fs –rm testtp.txt DirNK rep
hadoop fs -mv DirNK/test2tp.txt DirYS

1
Partie I : Manipulation de commandes HDFS
Dans cette partie nous nous interessons a la manipulation des commandes de base HDFS. Dans ce
contexte, il faut bien faire la distinction entre votre compte Linux ordinaire et le compte que vous avez
sur HDFS. Les commandes hdfs dfs -cmde . . . s'adressent a ce dernier. Les commandes
Unix habituelles s'adressent au premier.

Essayer les manipulations suivantes :


1. Afficher ce qu'il y a a la racine HDFS en tapant : hdfs dfs -ls /. Vous pouvez descendre
inspecter les dossiers que vous voyez. Il n'y a pas de commande equivalente a cd, parce qu'il n'y a
pas de notion de dossier courant dans HDFS, donc a chaque fois, il faut remettre le chemin
complet.
2. Afficher les fichiers des sous-dossiers avec leurs tailles en tapant : hdfs dfs -ls -R -h
/tmp
3. Creer un repertoire fichiers dans votre espace HDFS.
4. Creer un fichier appele bonjour.txt dans votre compte Linux.
5. Ecrire le mot «bonjour» dans bonjour.txt a l'aide de nano ou vi.
6. Copier ce fichier sur HDFS et verifier le resultat en tapant la commande hdfs dfs -ls.
7. Afficher le contenu du fichier bonjour.txt.
8. Supprimer ce fichier de HDFS et verifier le resultat.
9. Remettre a nouveau ce fichier par hdfs dfs -copyFromLocal bonjour.txt. Cette
commande est similaire a hdfs dfs -put.
10. Deplacer bonjour.txt sous le repertoire Fichiers en tapant hdfs dfs -mv bonjour.txt
fichiers. Verifier que le deplacement a bien ete fait.
11. Copier le fichier bonjour.txt dans un nouveau fichier salut.txt dans le meme repertoire.
Verifier que la copie a bien ete faite.
12. Afficher le nombre de sous-dossiers, fichiers et octets occupes en tapant : hdfs dfs –count
hdfs dfs -count DirNK
13. On se propose maintenant de telecharger un fichier dont l'URL est la suivante : http: // www.
textfiles .com/ etext/FICTION/dracula. txt
a. Téléchargez le fichier dracula.txt dans votre compte.
b. Copiez ce fichier vers HDFS et verifiez sa presence.
c. Supprimez le fichier de votre compte local ainsi que de HDFS
14. Voici une autre maniere de faire sans stocker le fichier dans votre compte : wget -O -
http://www.textfiles.com/etext/FICTION/dracula.txt | hdfs dfs -put
- drac.txt
15. Vérifier le fichier a été enregistré dans hdfs : hdfs dfs –ls
16. Lister les blocs du fichier drac.txt en tapant hdfs fsck /user/hadoop/drac.txt -
files -blocks.

Vous aimerez peut-être aussi