TD3-Big Data

Le document décrit quatre exercices sur HDFS. L'exercice 1 concerne le nombre de mappers pour deux fichiers. L'exercice 2 concerne le résultat d'un programme MapReduce sur trois fichiers météo. Les exercices 3 et 4 portent sur la taille de bloc HDFS en fonction de la taille de fichier et de la réplication.

Transféré par

hamid kamal

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

261 vues2 pages

TD3-Big Data

Transféré par

hamid kamal

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Université M’sila M1 IA/ Big Data at Science de données

Département Informatique Dr. Tahar Mehenni

Série de TD N°3
HDFS
Exercice 1
Considérons un dossier HDFS nommé patchesFolder qui contient deux fichiers : [Link] de taille 513MB et
[Link] de taille 515MB. Supposons que le cluster Hadoop utilisé peut supporter jusqu’à 5 instances mapper en
parallèle. Le nombre d’instances reducer est 2 et la taille d’un bloc HDFS est 512MB. Quel est le nombre d’instances du
mapper utilisées lorsqu’on exécute une application MapReduce sur les deux fichiers du dossier patchesFolder ?

Exercice 2
Considérons un dossier HDFS nommé inputData qui contient les fichiers suivants :

Nom du fichier Taille Contenu du fichier

[Link] 61 Octets
2016/01/01,00:00,0
2016/01/01,00:05,-1
2016/01/01,00:10,-1.2

[Link] 63 Octets
2016/01/01,00:15,-1.5
2016/01/01,00:20,0
2016/01/01,00:25,-0.5

[Link] 62 Octets
2016/01/01,00:30,-0.5
2016/01/01,00:35,1
2016/01/01,00:40,1.5

Supposons que le cluster Hadoop utilisé peut supporter jusqu’à 10 instances mapper en parallèle. Soit le programme
MapReduce suivant exécuté sur les fichiers ci-dessus. Donner le résultat après exécution.

/* Mapper */
class MapperBigData extends Mapper<LongWritable, Text, Text, DoubleWritable> {
protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
String fields[] = [Link]().split(",");
String date = fields[0];
Double temperature = [Link](fields[2]);
// Emit (date, temperature)
[Link](new Text(date), new DoubleWritable(temperature));
}
}
/* Reducer */
class ReducerBigData extends Reducer<Text, DoubleWritable, Text, DoubleWritable> {
@Override
protected void reduce(Text key, // Input key type
Iterable<DoubleWritable> values, // Input value type
Context context) throws IOException, InterruptedException {
double maxTemp = Double.MIN_VALUE;
// Iterate over the set of values and compute the maximum temperature
for (DoubleWritable temperature : values) {
if ([Link]() > maxTemp) {
maxTemp = [Link]();
}
}
// Emit (date, maximum temperature)
[Link](key, new DoubleWritable(maxTemp));
}
}
Série de TD N°3 - HDFS

Exercice 3
On veut exécuter un programme MapReduce qui permet de sélectionner les lignes du fichier [Link] qui contiennent les
mots « ERROR » ou « WARNING ». Sachant que la taille du fichier [Link] est 5000 MB, quelle est la taille du block HDFS
qui sera choisi si on veut forcer Hadoop à exécuter 10 mappers en parallèle pour le programme MapReduce sur le fichier
[Link].

a) Block size: 5000MB b) Block size: 2048MB c) Block size: 1024MB d) Block size: 512MB
Exercice 4
Considérons deux fichiers HDFS, [Link] et [Link] de tailles 1036MB et 500MB respectivement. Supposons que le
facteur de réplication est 4 (c-à-d nombre de copies de chaque block) et que la taille du block HDFS est 512MB. Quel est le
nombre total de blocks sont utilisés pour stocker les deux fichiers [Link] et [Link] (Attention : considérer aussi les
copies).
a) 3 blocks b) 4 blocks c) 12 blocks d) 16 blocks

Vous aimerez peut-être aussi

Introduction à Hadoop et MapReduce
Pas encore d'évaluation
Introduction à Hadoop et MapReduce
43 pages
Traitement Du Big Data: TP3 Le Modèle de Programmation Map Reduce
Pas encore d'évaluation
Traitement Du Big Data: TP3 Le Modèle de Programmation Map Reduce
25 pages
Introduction à Hadoop et HDFS
Pas encore d'évaluation
Introduction à Hadoop et HDFS
5 pages
DS-2-Big Data Et Cloud
Pas encore d'évaluation
DS-2-Big Data Et Cloud
2 pages
TP2 - HDFS - Etudiants (Copy)
Pas encore d'évaluation
TP2 - HDFS - Etudiants (Copy)
4 pages
Ds Big Data Novembre 2023 Final
Pas encore d'évaluation
Ds Big Data Novembre 2023 Final
3 pages
Programmation Hadoop : Guide du Driver Java
100% (1)
Programmation Hadoop : Guide du Driver Java
11 pages
Ventes Totales par Produit et Région
100% (1)
Ventes Totales par Produit et Région
5 pages
Chap 2
Pas encore d'évaluation
Chap 2
84 pages
Atelier 2
Pas encore d'évaluation
Atelier 2
3 pages
TD Big Data: Installation Hadoop & MapReduce
Pas encore d'évaluation
TD Big Data: Installation Hadoop & MapReduce
6 pages
QCM
100% (1)
QCM
28 pages
Cluster Hadoop - Docker Portainee
Pas encore d'évaluation
Cluster Hadoop - Docker Portainee
33 pages
Cours Intro Hadoop v27022014 Erraki Haddad
Pas encore d'évaluation
Cours Intro Hadoop v27022014 Erraki Haddad
62 pages
Apache Tez Theorique
Pas encore d'évaluation
Apache Tez Theorique
3 pages
TP N°1 - Installation Via Paquets
100% (1)
TP N°1 - Installation Via Paquets
6 pages
Spark : RDD et Transformations Optimisées
Pas encore d'évaluation
Spark : RDD et Transformations Optimisées
11 pages
Cours sur l'Architecture SOA et XML
Pas encore d'évaluation
Cours sur l'Architecture SOA et XML
64 pages
BERT
Pas encore d'évaluation
BERT
19 pages
TD4 Par Contraintes
Pas encore d'évaluation
TD4 Par Contraintes
3 pages
Cours DL - Part5 (Prof)
Pas encore d'évaluation
Cours DL - Part5 (Prof)
78 pages
HDFS MapReduce
Pas encore d'évaluation
HDFS MapReduce
3 pages
Ancien Examen Cov Esprit
0% (1)
Ancien Examen Cov Esprit
2 pages
Examia 083 C
Pas encore d'évaluation
Examia 083 C
9 pages
TP 1 A Rendre
Pas encore d'évaluation
TP 1 A Rendre
6 pages
50 Questions Sur Hadoop
Pas encore d'évaluation
50 Questions Sur Hadoop
8 pages
TP Mnist Ia M1
Pas encore d'évaluation
TP Mnist Ia M1
75 pages
Tpe Yarn-1
Pas encore d'évaluation
Tpe Yarn-1
11 pages
TP2 Prétraitement Des Données Ipynb - Colab
Pas encore d'évaluation
TP2 Prétraitement Des Données Ipynb - Colab
10 pages
QCM Big Data : Testez vos connaissances
Pas encore d'évaluation
QCM Big Data : Testez vos connaissances
2 pages
Tp8 K-meansHaoop
Pas encore d'évaluation
Tp8 K-meansHaoop
11 pages
Introduction aux Réseaux de Neurones Récurrents
Pas encore d'évaluation
Introduction aux Réseaux de Neurones Récurrents
66 pages
Introduction aux Classificateurs Linéaires
Pas encore d'évaluation
Introduction aux Classificateurs Linéaires
9 pages
TP Bigdata ApacheSparkRDD
Pas encore d'évaluation
TP Bigdata ApacheSparkRDD
3 pages
Synchronisation et Sémaphores
Pas encore d'évaluation
Synchronisation et Sémaphores
2 pages
(Big Data) CHAP3 - MapReduce
Pas encore d'évaluation
(Big Data) CHAP3 - MapReduce
29 pages
Syllabus m1 Gadm Azizi Module Datamining2021 2022
Pas encore d'évaluation
Syllabus m1 Gadm Azizi Module Datamining2021 2022
6 pages
Résolution de Problèmes par IA
Pas encore d'évaluation
Résolution de Problèmes par IA
23 pages
Apache Mahout : Machine Learning et Big Data
Pas encore d'évaluation
Apache Mahout : Machine Learning et Big Data
85 pages
Chapitre 5. Problème de Satisfaction de Contraintes (CSP)
Pas encore d'évaluation
Chapitre 5. Problème de Satisfaction de Contraintes (CSP)
10 pages
1b - RNN Et LSTM
100% (1)
1b - RNN Et LSTM
56 pages
Cours-4 - Interrogation Big Data-Hive
Pas encore d'évaluation
Cours-4 - Interrogation Big Data-Hive
8 pages
Chap4 MapReduce
Pas encore d'évaluation
Chap4 MapReduce
17 pages
Examen BDA Corrigé SR 2223
Pas encore d'évaluation
Examen BDA Corrigé SR 2223
4 pages
Questions Reponses Text Mining
Pas encore d'évaluation
Questions Reponses Text Mining
3 pages
Examen Apprentissage - Profond
Pas encore d'évaluation
Examen Apprentissage - Profond
3 pages
Chap3 Modeles RI OL
Pas encore d'évaluation
Chap3 Modeles RI OL
31 pages
Introduction aux B-arbres et exercices pratiques
Pas encore d'évaluation
Introduction aux B-arbres et exercices pratiques
3 pages
TD IA Embarquée: Apprentissage Auto
Pas encore d'évaluation
TD IA Embarquée: Apprentissage Auto
6 pages
Examen Big Data 3ème IM
Pas encore d'évaluation
Examen Big Data 3ème IM
2 pages
Chapitre 6 Clustering Hi-Rarchique
Pas encore d'évaluation
Chapitre 6 Clustering Hi-Rarchique
62 pages
Corr TP3
Pas encore d'évaluation
Corr TP3
20 pages
Spark-Td 1
Pas encore d'évaluation
Spark-Td 1
3 pages
Chap2 Hadoop
Pas encore d'évaluation
Chap2 Hadoop
74 pages
Exercices MapReduce
Pas encore d'évaluation
Exercices MapReduce
3 pages
Introduction à Hadoop et MapReduce
Pas encore d'évaluation
Introduction à Hadoop et MapReduce
58 pages
Web Semantique - Cours-2
Pas encore d'évaluation
Web Semantique - Cours-2
168 pages
Exemple K Means Et HCA PDF
Pas encore d'évaluation
Exemple K Means Et HCA PDF
4 pages
CTRL BDSD 2021-2022
Pas encore d'évaluation
CTRL BDSD 2021-2022
4 pages
Td1: Hadoop: Exercice 1
75% (4)
Td1: Hadoop: Exercice 1
3 pages
Java Partie3
Pas encore d'évaluation
Java Partie3
64 pages
Chap 3
Pas encore d'évaluation
Chap 3
79 pages
03-Editeurs Et Flux de Textes
Pas encore d'évaluation
03-Editeurs Et Flux de Textes
37 pages
Chap 1
Pas encore d'évaluation
Chap 1
53 pages
01-Red Hat Enterprise Linux 9
Pas encore d'évaluation
01-Red Hat Enterprise Linux 9
50 pages
Série Des Exercices 2 Et 3
Pas encore d'évaluation
Série Des Exercices 2 Et 3
1 page
Chap 2
Pas encore d'évaluation
Chap 2
55 pages
QCM Corrigé Marketing de Base ENCG CASA
100% (12)
QCM Corrigé Marketing de Base ENCG CASA
4 pages
TP3 Réseaux Avancés
Pas encore d'évaluation
TP3 Réseaux Avancés
6 pages
Une Pour Enregistrer Dans Un Fichier Binaire. - Une Pour Charger Le Contenu de La Structure À Partir D'un Fichier Binaire
Pas encore d'évaluation
Une Pour Enregistrer Dans Un Fichier Binaire. - Une Pour Charger Le Contenu de La Structure À Partir D'un Fichier Binaire
1 page
TNS MST Sidi
Pas encore d'évaluation
TNS MST Sidi
75 pages
Usmba 22-08-22
Pas encore d'évaluation
Usmba 22-08-22
1 page
TP2 Réseaux Avancés
Pas encore d'évaluation
TP2 Réseaux Avancés
6 pages
TP4 Réseaux Avancés
Pas encore d'évaluation
TP4 Réseaux Avancés
5 pages
Document de Mr Bennasser Jamal
Pas encore d'évaluation
Document de Mr Bennasser Jamal
25 pages
Univh2c 31-08-22
Pas encore d'évaluation
Univh2c 31-08-22
2 pages
Devoir 4 : Fonctions en C++
Pas encore d'évaluation
Devoir 4 : Fonctions en C++
10 pages
Uh1 22-08-22
Pas encore d'évaluation
Uh1 22-08-22
2 pages
Exampkt 1011
Pas encore d'évaluation
Exampkt 1011
2 pages
Introduction aux Ontologies et leurs Types
Pas encore d'évaluation
Introduction aux Ontologies et leurs Types
12 pages
TP 02
Pas encore d'évaluation
TP 02
1 page
Interpolation et Différences Divisées
Pas encore d'évaluation
Interpolation et Différences Divisées
2 pages