0% ont trouvé ce document utile (0 vote)

36 vues4 pages

TP1 Hadoop

Ce document présente un TP d'initiation à HADOOP, axé sur la mise en place d'un environnement virtuel et l'exploration des fonctionnalités de HDFS. Il décrit les étapes pour installer VirtualBox, se connecter via SSH et exécuter des commandes HDFS pour manipuler des fichiers. Les utilisateurs apprendront à créer, copier, déplacer et supprimer des fichiers dans HDFS tout en vérifiant leur bon fonctionnement.

Transféré par

Ahmed Daghsen

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

36 vues4 pages

TP1 Hadoop

Transféré par

Ahmed Daghsen

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

TP1 : Initiation HADOOP

L’objectif de ce TP est de se familiariser avec HADOOP et l’exploration

des fonctionnalités de HDFS.

1. Mise en place de l’environnement

Afin d’exécuter les différentes taches de TP, il faut préparer
l'environnement logiciel nécessaire.
a) Mise en place de machine virtuelle
Le TP une machine virtuelle sur laquelle Hadoop / HDFS ont été installés.

Pour simuler un environnement serveur distant « classique », la machine

est accessible via SSH mais ne propose pas d’interface graphique.

Pour taper les différentes commandes de TP, vous pourriez directement utiliser
la fenêtre / le terminal affiché par VirtualBox; mais cela est fortement
déconseillé: vous ne pourrez ni copier-coller, ni faire dérouler l’affichage en cas
de besoin.

A la place, il est recommandé utiliser un client SSH. La machine virtuelle,

une fois importée, expose le port TCP 2222 sur la machine hôte et fait
pointer ce port vers le port 22 (SSH) de la machine virtuelle.

En conséquence, vous pouvez accéder à la machine en vous connectant en

SSH sur localhost au port 2222 (ou encore sur 127.0.0.1 au port 2222).
Edition et copie de fichiers :

Etapes à suivre :
• Installer VirtualBox (https://www.virtualbox.org/).

• Importer la machine virtuelle .ova du TP. Il s'agit d'un système

GNU/Linux Debian, amd64. Lien

• Pour vous connecter en SSH sous Windows, téléchargez et

installez PuTTY (ou autre client SSH).
• Démarrer la machine virtuelle.
• Lancez PuTTY; et dans la fenêtre initiale qui s’affiche, rentrez comme
hôte de connexion « localhost » et comme port « 2222 » (à la place de «
22 »). Rentrez également comme nom d’utilisateur « mbds ».
• Un mot de passe vous sera demandé: rentrez « password »

• Vous pouvez aussi sauvegarder ces informations au sein d’un profil; il

vous suffira alors dans le futur de double cliquer sur ce profil pour
vous connecter à la machine virtuelle sans rentrer ces informations à
nouveau.

2. Initiation HADOOP : HDFS

Toutes les commandes interagissant avec le système Hadoop commencent par
hadoop fs ou hdfs dfs. Ensuite, les options rajoutées sont très largement
inspirées des commandes Unix standard. Le tableau suivant résume les
commandes les plus utilisées dans Hadoop.

Commande Résultat
hadoop fs -ls Lister le contenu d'un dossier
hadoop fs -mkdir Créer un dossier dans HDFS
<nomdossier>
hadoop fs -put < Path[Filename]>
<nomrep>
Charger un fichier du local (répertoire
ex:hadoop fs –put Linux) a HDFS
/home/hadoop/Desktop/file.txt
hadoop fs -get < Path[Filename]>
<nomrep>
Exporter un ou plusieurs fichiers de HDFS
ex: hadoop fs –get file.txt au local
/home/hadoop/Desktop/
hadoop fs -cat Afficher le contenu d'un fichier
<Path[Filename]>
hadoop fs -tail Afficher les dernières lignes d'un fichier
<Path[Filename]>
hadoop fs -rm Supprimer un fichier dans HDFS
<Path[Filename]>
Hadoop fs -touchz Créer un fichier vide dans HDFS
<Path[Filename]>
Hadoop fs -mv < Déplacer le fichier sous le répertoire rep
Path[Filename]> <rep>
Dans cette partie nous nous intéressons à la manipulation des commandes de
base HDFS. Dans ce contexte, il faut bien faire la distinction entre votre compte
Linux ordinaire et le compte que vous avez sur HDFS. Les commandes hadoop
fs -cmde . . . s'adressent à ce dernier. Les commandes Unix habituelles
s'adressent au premier.
Etapes à suivre :
• Démarrer Hadoop avec la commande: start-hadoop

• Vérifier le bon fonctionnement de Hadoop en exécutant la

commande: hdfs dfsadmin -report

• Afficher ce qu'il y a à la racine HDFS en tapant : hadoop fs -ls /. Vous

pouvez descendre inspecter les dossiers que vous voyez. Il n'y a pas
de commande équivalente à cd, parce qu'il n'y a pas de notion de
dossier courant dans HDFS, donc à chaque fois, il faut remettre le
chemin complet.

• Afficher les fichiers des sous-dossiers avec leurs tailles en tapant

: hadoop fs -ls -R -h /tmp

• Créer un répertoire fichiers dans votre espace HDFS.

• Créer un fichier appelé bonjour.txt dans votre compte Linux. Ecrire le

mot « bonjour » dans bonjour.txt a l'aide de nano. La création et
l’édition de fichier se fait en tapant :
nano bonjour.txt

• Copier ce fichier sur HDFS et vérifier le résultat en tapant la

commande hadoop fs -ls.

• Supprimer ce fichier de HDFS et vérifier le résultat.

• Remettre à nouveau ce fichier par hadoop fs -copyFromLocal
bonjour.txt. Cette commande est similaire a hadoop fs -put.

• Déplacer bonjour.txt sous le répertoire Fichiers en tapant hadoop fs -mv

bonjour.txt Vérifier que le déplacement a bien été fait.

• Copier le fichier bonjour.txt dans un nouveau fichier salut.txt dans

le même répertoire. Vérifier que la copie a bien été faite.

• Afficher le nombre de sous-dossiers, fichiers et octets occupes en

tapant : hadoop fs –count/

• On se propose maintenant de télécharger un fichier dont l'URL est

la suivante : http://www.textfiles.com/etext/FICTION/dracula.txt

o Téléchargez le fichier dracula.txt dans votre compte.

o Copiez ce fichier vers HDFS et vérifiez sa présence.

o Supprimez le fichier de votre compte local ainsi que de HDFS

• Voici une autre manière de faire sans stocker le fichier dans votre
compte : wget -O - http://www.textfiles.com/etext/FICTION/dracula.txt
| hadoop fs -put - drac.txt
• Vérifier le fichier a été enregistré dans hdfs : hadoop fs –ls

• Lister les blocs du fichier drac.txt en tapant hadoop fsck /user/…/drac.txt

-files -blocks.

Vous aimerez peut-être aussi

TP1 Hadoop
Pas encore d'évaluation
TP1 Hadoop
2 pages
TP1 - HDFS VF
Pas encore d'évaluation
TP1 - HDFS VF
9 pages
TP2 Hadoop 22 23
Pas encore d'évaluation
TP2 Hadoop 22 23
3 pages
Initiation à Hadoop et MapReduce
Pas encore d'évaluation
Initiation à Hadoop et MapReduce
5 pages
TP BigData 02
Pas encore d'évaluation
TP BigData 02
3 pages
Hadoop
Pas encore d'évaluation
Hadoop
6 pages
Commandes HDFS pour la gestion des données
Pas encore d'évaluation
Commandes HDFS pour la gestion des données
9 pages
Commandes HDFS pour Big Data 2023-2024
Pas encore d'évaluation
Commandes HDFS pour Big Data 2023-2024
2 pages
RapportControle Taha HILAL BIK
Pas encore d'évaluation
RapportControle Taha HILAL BIK
14 pages
Capture D'écran . 2024-05-07 À 21.46.40
Pas encore d'évaluation
Capture D'écran . 2024-05-07 À 21.46.40
7 pages
Mickaelbaron-Hadoopinstallation Part8
Pas encore d'évaluation
Mickaelbaron-Hadoopinstallation Part8
2 pages
Lab 01 - Hadoop FS Ver2
Pas encore d'évaluation
Lab 01 - Hadoop FS Ver2
25 pages
TP: Commandes Shell Hadoop avec Docker
Pas encore d'évaluation
TP: Commandes Shell Hadoop avec Docker
6 pages
Commandes Hadoop
Pas encore d'évaluation
Commandes Hadoop
10 pages
TP5Bigdata INDIA 2023 2024
Pas encore d'évaluation
TP5Bigdata INDIA 2023 2024
5 pages
Manipulation de Hadoop : HDFS et MapReduce
Pas encore d'évaluation
Manipulation de Hadoop : HDFS et MapReduce
5 pages
Atelier HDFS
Pas encore d'évaluation
Atelier HDFS
5 pages
Atelier HDFS
Pas encore d'évaluation
Atelier HDFS
6 pages
Atelier Big Data : Traitement Batch avec Hadoop
Pas encore d'évaluation
Atelier Big Data : Traitement Batch avec Hadoop
11 pages
Bigdata Hdfs-Partie4
Pas encore d'évaluation
Bigdata Hdfs-Partie4
11 pages
TP - BigData - 02 - مستندات Google
Pas encore d'évaluation
TP - BigData - 02 - مستندات Google
3 pages
Hadoop Install
Pas encore d'évaluation
Hadoop Install
6 pages
Commandes HDFS pour GL-3
Pas encore d'évaluation
Commandes HDFS pour GL-3
3 pages
DS-2-Big Data Et Cloud
Pas encore d'évaluation
DS-2-Big Data Et Cloud
2 pages
Commandes Shell Essentielles pour HDFS
Pas encore d'évaluation
Commandes Shell Essentielles pour HDFS
2 pages
Big Data tp1
Pas encore d'évaluation
Big Data tp1
6 pages
TP N°1 - Installation Via Paquets
100% (1)
TP N°1 - Installation Via Paquets
6 pages
Commandes Hadoop
Pas encore d'évaluation
Commandes Hadoop
5 pages
Ch3 Big Data Hdfs Map Reduce
Pas encore d'évaluation
Ch3 Big Data Hdfs Map Reduce
52 pages
Guide d'Installation Hadoop sous Linux
Pas encore d'évaluation
Guide d'Installation Hadoop sous Linux
17 pages
Correction Atelier 1 HDFS
Pas encore d'évaluation
Correction Atelier 1 HDFS
11 pages
TP2 - HDFS - Etudiants (Copy)
Pas encore d'évaluation
TP2 - HDFS - Etudiants (Copy)
4 pages
TP1 Hadoop-Initiation 2023
Pas encore d'évaluation
TP1 Hadoop-Initiation 2023
4 pages
Initier Hadoop pour Big Data
Pas encore d'évaluation
Initier Hadoop pour Big Data
7 pages
Gestion de Données Avec HDFS
Pas encore d'évaluation
Gestion de Données Avec HDFS
7 pages
SP 01
Pas encore d'évaluation
SP 01
18 pages
TP Big Data : Hadoop et MapReduce
Pas encore d'évaluation
TP Big Data : Hadoop et MapReduce
15 pages
Installer et configurer Hadoop sur Ubuntu
Pas encore d'évaluation
Installer et configurer Hadoop sur Ubuntu
11 pages
TP BigData 01
Pas encore d'évaluation
TP BigData 01
3 pages
TP Hadoop: Déploiement et MapReduce
Pas encore d'évaluation
TP Hadoop: Déploiement et MapReduce
10 pages
Correction Atelier HDFS
Pas encore d'évaluation
Correction Atelier HDFS
14 pages
Mickaelbaron-Hadoopinstallation Part7
Pas encore d'évaluation
Mickaelbaron-Hadoopinstallation Part7
2 pages
TP BD Hadoop
Pas encore d'évaluation
TP BD Hadoop
7 pages
Rapport de Projet Big Data
Pas encore d'évaluation
Rapport de Projet Big Data
25 pages
Atelier3-KafkaLocal Said Ali Abdi
Pas encore d'évaluation
Atelier3-KafkaLocal Said Ali Abdi
24 pages
Installation de Hadoop sur Linux
Pas encore d'évaluation
Installation de Hadoop sur Linux
7 pages
Atelier3.1-KafkaLocal Said Ali Abdi
Pas encore d'évaluation
Atelier3.1-KafkaLocal Said Ali Abdi
12 pages
Mickaelbaron-Hadoopinstallation Part4
Pas encore d'évaluation
Mickaelbaron-Hadoopinstallation Part4
2 pages
TP Hadoop
Pas encore d'évaluation
TP Hadoop
50 pages
Installation et Configuration de Hadoop
Pas encore d'évaluation
Installation et Configuration de Hadoop
17 pages
Lecture2 Bis
Pas encore d'évaluation
Lecture2 Bis
41 pages
TP 1 Hadoop
Pas encore d'évaluation
TP 1 Hadoop
16 pages
Jour1 Configuration Hadoop (4th Copy)
Pas encore d'évaluation
Jour1 Configuration Hadoop (4th Copy)
9 pages
TP1 Polytech
Pas encore d'évaluation
TP1 Polytech
11 pages
TP1 Hadoop
Pas encore d'évaluation
TP1 Hadoop
10 pages
Hadoop 3.3.6 On Ubuntu 22.04 LTS 1
Pas encore d'évaluation
Hadoop 3.3.6 On Ubuntu 22.04 LTS 1
13 pages
TP HDFS Hadoop Spark Docker
Pas encore d'évaluation
TP HDFS Hadoop Spark Docker
4 pages
Déplacement Rad 48
Pas encore d'évaluation
Déplacement Rad 48
12 pages
TP 1 - Analyse Syntaxique Java Avec Tree-sitter-Corr
Pas encore d'évaluation
TP 1 - Analyse Syntaxique Java Avec Tree-sitter-Corr
2 pages
Chapitre 4-POSIX
Pas encore d'évaluation
Chapitre 4-POSIX
13 pages
Artpython Doctor Page Apprendre Boucles Python Loop
Pas encore d'évaluation
Artpython Doctor Page Apprendre Boucles Python Loop
2 pages
INF3135 Organisation
Pas encore d'évaluation
INF3135 Organisation
14 pages
Développement D'une Application Numérique de Gestion Des Résultats D'épreuves D'évaluation Visant À Faciliter La Délibération Des Jurys D'examen
Pas encore d'évaluation
Développement D'une Application Numérique de Gestion Des Résultats D'épreuves D'évaluation Visant À Faciliter La Délibération Des Jurys D'examen
10 pages
Création d'interfaces Android Semaine 2
Pas encore d'évaluation
Création d'interfaces Android Semaine 2
41 pages
Merise 02 MCD Mod MLD MPD
Pas encore d'évaluation
Merise 02 MCD Mod MLD MPD
21 pages
Le Guide Pour Devenir Developpeur
Pas encore d'évaluation
Le Guide Pour Devenir Developpeur
20 pages
Cloud Privé Proxmox avec Rsync
Pas encore d'évaluation
Cloud Privé Proxmox avec Rsync
3 pages
Referentiel de Certification: Du Titre Professionnel
Pas encore d'évaluation
Referentiel de Certification: Du Titre Professionnel
24 pages
Application de Cryptomonnaie au Bénin
Pas encore d'évaluation
Application de Cryptomonnaie au Bénin
51 pages
Corrigé de Lexamen de Rattrapage 20232024
Pas encore d'évaluation
Corrigé de Lexamen de Rattrapage 20232024
6 pages
02-Connecter A Une BD
Pas encore d'évaluation
02-Connecter A Une BD
6 pages
Etude de Cas Uml
Pas encore d'évaluation
Etude de Cas Uml
52 pages
Djabbama Code Template Presentation
Pas encore d'évaluation
Djabbama Code Template Presentation
15 pages
Cours Full Stack JS - Niveau 2
100% (1)
Cours Full Stack JS - Niveau 2
130 pages
Les Codes Des Erors
Pas encore d'évaluation
Les Codes Des Erors
3 pages
Cours EDI Python
Pas encore d'évaluation
Cours EDI Python
136 pages
Simulateur de Loyer avec Flask
Pas encore d'évaluation
Simulateur de Loyer avec Flask
12 pages
Activite Web Mon Film Preféré
Pas encore d'évaluation
Activite Web Mon Film Preféré
3 pages
Cours Sur La Structure Des Algorithmes
Pas encore d'évaluation
Cours Sur La Structure Des Algorithmes
5 pages
Dossier de Compétence Exemple
Pas encore d'évaluation
Dossier de Compétence Exemple
3 pages
Application Android pour Gestion de Projets
Pas encore d'évaluation
Application Android pour Gestion de Projets
45 pages
Spring Boot
0% (1)
Spring Boot
5 pages
Le Langage Prolog
Pas encore d'évaluation
Le Langage Prolog
15 pages
MEMOIRE BETHUEL Actualisé
Pas encore d'évaluation
MEMOIRE BETHUEL Actualisé
12 pages
Le Paradigme de
Pas encore d'évaluation
Le Paradigme de
8 pages
Module 14 Vulnerability Management
Pas encore d'évaluation
Module 14 Vulnerability Management
53 pages
TD3: Les Listes, Les Piles Et Les Files Université de Batna 2 Algorithmique Et Structures de Données
Pas encore d'évaluation
TD3: Les Listes, Les Piles Et Les Files Université de Batna 2 Algorithmique Et Structures de Données
2 pages