0% ont trouvé ce document utile (0 vote)

556 vues75 pages

Big Data et Hadoop : Concepts clés

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

556 vues75 pages

Big Data et Hadoop : Concepts clés

Transféré par

jon cina

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Technologies

BIG DATA

Zouhair ELAMRANI ABOU ELASSAD

[email protected]
Evolution de la technologie

2
IoT

3
Social media

4
Big Data ?

5
5 V du Big Data

6
Types de données

7
Capacité de stockage

8
Le calcul distribué
Désigne l'exécution d'un traitement informatique sur une multitude de machines
différentes (un cluster de machines) de manière transparente.

Problématiques:
• Accès et partage des ressources pour toutes les machines.
• Extensibilité: on doit pouvoir ajouter de nouvelles machines pour le calcul si
nécessaire.
• Hétérogénéité: les machines doivent pouvoir avoir différentes architectures,
l'implémentation différents langages.
• Tolérance aux pannes: une machine en panne faisant partie du cluster ne doit pas
produire d'erreur pour le calcul dans son ensemble.
• Transparence: le cluster dans son ensemble doit être utilisable comme une seule
et même machine « traditionnelle ».

9
Exemple : Blue Gene (1999)

10
Exemple : GPUGRID.net (2007)

11
Le problème

• Le problème qui se posait jusqu'ici pour ce cas d'usage: Avoir un

framework déjà disponible, facile à déployer, et qui permette
l'exécution de tâches parallélisables – et le support et le suivi de ces
tâches – de manière rapide et simple à mettre en œuvre.
• L'idée étant d'avoir un outil « off the shelf » qui puisse être installé et
configuré rapidement au sein d'une entreprise/d'une université et qui
permettre à des développeurs d'exécuter des tâches distribuées avec un
minimum de formation requise.
• L'outil en question devant être facile à déployer, simple à supporter, et
pouvant permettre la création de clusters de taille variables extensibles
à tout moment.

12
Solution

13
Avantages

14
Historique

15
Historique

16
Qui utilise Hadoop

17
Hadoop Cluster

18
Exemple Cluster

19
Exemple Cluster

20
Écosystème Hadoop

21
Composants du Hadoop

22
HDFS

Pour stocker les données en entrée de nos tâches Hadoop, ainsi que les résultats de
nos traitements, on va utiliser HDFS:

Hadoop Distributed FileSystem.

Il s'agit du système de fichier standard de Hadoop - au même sens que les systèmes
de fichiers FAT32, NTFS ou encore Ext3FS, à la différence qu'il est évidemment
distribué.

Remarque: Hadoop peut – et c'est le cas le plus fréquent – également communiquer

directement avec une base de données (qu'elle soit « classique » comme MySQL ou
PostGreSQL ou plus exotique comme MongoDB ou VoltDB). Ce mode d'intégration
passe par le biais de ponts d'interconnexion, qui seront abordés plus loin dans le
cours.
23
HDFS

Les caractéristiques de HDFS:

● Il est distribué: les données sont réparties sur tout le cluster de machines.
● Il est répliqué: si une des machines du cluster tombe en panne, aucune
donnée n'est perdue.
● Il est conscient du positionnement des serveurs sur les racks. HDFS va
répliquer les données sur des racks différents, pour être certain qu'une panne
affectant un rack de serveurs entier (par exemple un incident d'alimentation)
ne provoque pas non plus de perte de données, même temporaire. Par
ailleurs, HDFS peut aussi optimiser les transferts de données pour limiter la «
distance » à parcourir pour la réplication (et donc les temps de transfert).

24
Composants HDFS

25
Concept du HDFS

26
Concept HDFS

27
Concept HDFS

28
Concept HDFS

29
Concept HDFS

30
Concept HDFS

31
Nœuds HDFS

32
Nœuds HDFS

33
Nœuds HDFS

34
Nœuds HDFS

35
Nœuds HDFS

36
Nœuds HDFS

37
Framework MapReduce

38
Detailed Hadoop MapReduce data flow

39
MapReduce Paradigm: Wordcount flow

40
Word Count

WordCount in Web Pages

A typical exercise for a new Google engineer in his or her first week

41
Word Count

42
Word Count

43
Word Count

44
Word Count

45
Word Count

46
Combiner

Combiner acts as a mini-reducer. Combiner processes the output of Mapper and does
local aggregation before passing it to the reducer.

47
Driver

48
TextInputFormat

TextInputFormat is one of the file formats of Hadoop.

It is a default type format of hadoop MapReduce that is if we do not specify any file
formats then RecordReader will consider the input file format as TextInputFormat.
The key-value pairs for the TextInputFormat file is byteoffset as key and entire
line(input)as value.

49
TextOutputFormat

The default OutputFormat in hadoop is TextOuputFormat. If the file output format is

not specified explicitly, then text files are created as output files.
TextOutputFormat: It writes out records, one per line, by converting keys and values
to strings and separating them with a tab character.The tab-separated output is a
feature of TextOutputFormat.

50
Hadoop Yarn

51
Hadoop Yarn

52
Hadoop Yarn - Steps

53
Hadoop Yarn - Steps

54
Hadoop Yarn - Steps

55
Hadoop Yarn - Steps

56
Hadoop Yarn - Steps

57
Hadoop Yarn - Steps

58
Configuration Hadoop

59
Configuration Hadoop : core-site.xml

60
Configuration Hadoop : hdfs-site.xml

61
Configuration Hadoop

62
Configuration Hadoop

63
Configuration Hadoop : mapred-site.xml

64
Configuration Hadoop : mapred-site.xml

65
Configuration Hadoop : yarn-site.xml

66
Configuration Hadoop

67
Hadoop Commands

68
Hadoop Commands

69
Hadoop Commands

70
Hadoop Commands

71
Hadoop Commands

72
Hadoop Commands

73
Hadoop Commands: Examples

74
Hadoop Commands: Examples

Vous aimerez peut-être aussi

Introduction à Hadoop et MapReduce
Pas encore d'évaluation
Introduction à Hadoop et MapReduce
65 pages
Introduction à Hadoop et MapReduce
Pas encore d'évaluation
Introduction à Hadoop et MapReduce
58 pages
Hadoop et MapReduce : Guide Big Data
Pas encore d'évaluation
Hadoop et MapReduce : Guide Big Data
52 pages
CH 2 Hadoop
Pas encore d'évaluation
CH 2 Hadoop
56 pages
Chap2 Hadoop
Pas encore d'évaluation
Chap2 Hadoop
74 pages
Cours Big Data2024
Pas encore d'évaluation
Cours Big Data2024
99 pages
Introduction à Hadoop et Big Data
Pas encore d'évaluation
Introduction à Hadoop et Big Data
84 pages
BigData Technologies Avancées
Pas encore d'évaluation
BigData Technologies Avancées
81 pages
Leçon5 Spark
Pas encore d'évaluation
Leçon5 Spark
18 pages
tp3 Scala
Pas encore d'évaluation
tp3 Scala
2 pages
TP Big Data : Compteur de Mots Hadoop
Pas encore d'évaluation
TP Big Data : Compteur de Mots Hadoop
8 pages
Commandes Hadoop
Pas encore d'évaluation
Commandes Hadoop
5 pages
Cours Pig
Pas encore d'évaluation
Cours Pig
93 pages
TP2 Big Data Env Docker
Pas encore d'évaluation
TP2 Big Data Env Docker
3 pages
Mbds Big Data Hadoop 2019 2020 TP 1
Pas encore d'évaluation
Mbds Big Data Hadoop 2019 2020 TP 1
17 pages
Big Data Chap 2 - Principes Hadoop
Pas encore d'évaluation
Big Data Chap 2 - Principes Hadoop
51 pages
Spark et Hadoop : Architectures Big Data
Pas encore d'évaluation
Spark et Hadoop : Architectures Big Data
43 pages
Importer et exporter avec Sqoop
Pas encore d'évaluation
Importer et exporter avec Sqoop
4 pages
Big Data et Système Hadoop: Guide Complet
Pas encore d'évaluation
Big Data et Système Hadoop: Guide Complet
42 pages
SysDist 03
Pas encore d'évaluation
SysDist 03
100 pages
Hadoop
Pas encore d'évaluation
Hadoop
13 pages
Introduction à Hadoop et MapReduce
Pas encore d'évaluation
Introduction à Hadoop et MapReduce
53 pages
Chapitre 2
Pas encore d'évaluation
Chapitre 2
32 pages
Introduction à Apache Hive et Big Data
Pas encore d'évaluation
Introduction à Apache Hive et Big Data
28 pages
Chapitre 6 - Langage HiveQL de Apache Hive
Pas encore d'évaluation
Chapitre 6 - Langage HiveQL de Apache Hive
85 pages
Application2 - Initiation Spark PDF
Pas encore d'évaluation
Application2 - Initiation Spark PDF
7 pages
TP3 Big Data : Manipulations Cloudera
100% (1)
TP3 Big Data : Manipulations Cloudera
6 pages
HDFS Boufares TP2
Pas encore d'évaluation
HDFS Boufares TP2
8 pages
Big Data 2
Pas encore d'évaluation
Big Data 2
89 pages
Spark SQL: Architecture et Fonctionnalités
Pas encore d'évaluation
Spark SQL: Architecture et Fonctionnalités
42 pages
Tutoriel Complet sur Apache Spark : Chargement, Manipulation et Sauvegarde de Données
100% (1)
Tutoriel Complet sur Apache Spark : Chargement, Manipulation et Sauvegarde de Données
9 pages
TP2 BIGdata
Pas encore d'évaluation
TP2 BIGdata
15 pages
(Big Data Analytics) CHAP4 - Spark Streaming
Pas encore d'évaluation
(Big Data Analytics) CHAP4 - Spark Streaming
29 pages
Commandes Hadoop
Pas encore d'évaluation
Commandes Hadoop
10 pages
Introduction à Apache Spark
Pas encore d'évaluation
Introduction à Apache Spark
4 pages
TP5
Pas encore d'évaluation
TP5
14 pages
TP Hadoop: MapReduce et YARN en Java
100% (1)
TP Hadoop: MapReduce et YARN en Java
5 pages
TP1 BigDataAnalytics Initiation Hadoop
Pas encore d'évaluation
TP1 BigDataAnalytics Initiation Hadoop
9 pages
Chapitre2 Hadoop MapReduce
Pas encore d'évaluation
Chapitre2 Hadoop MapReduce
28 pages
Hadoop
Pas encore d'évaluation
Hadoop
89 pages
Big Data
Pas encore d'évaluation
Big Data
16 pages
Cours 3 Architecture - Big Data Map Reduce
Pas encore d'évaluation
Cours 3 Architecture - Big Data Map Reduce
59 pages
TP 3 Hive v0.1
Pas encore d'évaluation
TP 3 Hive v0.1
5 pages
Apache Flume Abderrahmane Rharrhour
Pas encore d'évaluation
Apache Flume Abderrahmane Rharrhour
6 pages
TP Big Data : Hadoop et MapReduce
Pas encore d'évaluation
TP Big Data : Hadoop et MapReduce
15 pages
EPI BigData Partie4 Hadoop Sagar Samya
Pas encore d'évaluation
EPI BigData Partie4 Hadoop Sagar Samya
48 pages
Programmation Hadoop : Guide du Driver Java
100% (1)
Programmation Hadoop : Guide du Driver Java
11 pages
tp1 BigData
Pas encore d'évaluation
tp1 BigData
9 pages
Big Data Analytics Sqoop - CDH 4.7
Pas encore d'évaluation
Big Data Analytics Sqoop - CDH 4.7
11 pages
Hadoop Hdfs and Yarn Mapreduce
Pas encore d'évaluation
Hadoop Hdfs and Yarn Mapreduce
63 pages
HDFS MapReduce
Pas encore d'évaluation
HDFS MapReduce
3 pages
Spark : RDD et Transformations Optimisées
Pas encore d'évaluation
Spark : RDD et Transformations Optimisées
11 pages
TP2 Pig
Pas encore d'évaluation
TP2 Pig
4 pages
Introduction au Deep Learning
Pas encore d'évaluation
Introduction au Deep Learning
121 pages
tp1 IRS
100% (1)
tp1 IRS
7 pages
Chap4 MapReduce
Pas encore d'évaluation
Chap4 MapReduce
17 pages
MapReduce : Programmation Distribuée et Tolérance aux Pannes
Pas encore d'évaluation
MapReduce : Programmation Distribuée et Tolérance aux Pannes
6 pages
Introduction à Spark et Scala avec Docker
Pas encore d'évaluation
Introduction à Spark et Scala avec Docker
6 pages
Chap 2
Pas encore d'évaluation
Chap 2
84 pages
Cours DATA 2IE Vfinale
Pas encore d'évaluation
Cours DATA 2IE Vfinale
82 pages
Cours Gestion Technique Centralisée
67% (3)
Cours Gestion Technique Centralisée
62 pages
Virtualisation Xen sous Ubuntu
Pas encore d'évaluation
Virtualisation Xen sous Ubuntu
17 pages
Introduction au Langage Assembleur
Pas encore d'évaluation
Introduction au Langage Assembleur
8 pages
CoursBD-2 101
Pas encore d'évaluation
CoursBD-2 101
41 pages
Resume Theorique m107 3003 Version Provisoire 6246c8ad85380 1
Pas encore d'évaluation
Resume Theorique m107 3003 Version Provisoire 6246c8ad85380 1
203 pages
Cours de Sécurité Informatique 2023-2024 Partie1
Pas encore d'évaluation
Cours de Sécurité Informatique 2023-2024 Partie1
52 pages
Présentation de ISA Server
Pas encore d'évaluation
Présentation de ISA Server
41 pages
QCM Informatique Générale BTP-BTS
Pas encore d'évaluation
QCM Informatique Générale BTP-BTS
4 pages
Administration Oracle pour Master IDO
Pas encore d'évaluation
Administration Oracle pour Master IDO
33 pages
Memoire Expertise Comptable Final
Pas encore d'évaluation
Memoire Expertise Comptable Final
84 pages
Contrat-cadre de services Cloud SaaS
Pas encore d'évaluation
Contrat-cadre de services Cloud SaaS
9 pages
VPN Windows Server 2012 R2 : Guide Complet
Pas encore d'évaluation
VPN Windows Server 2012 R2 : Guide Complet
36 pages
Tutoriel Cobian Backup pour Windows
Pas encore d'évaluation
Tutoriel Cobian Backup pour Windows
15 pages
Introduction à la Cryptographie
Pas encore d'évaluation
Introduction à la Cryptographie
9 pages
Référentiel Cyber V5.0
100% (1)
Référentiel Cyber V5.0
45 pages
Modes d'Entrées/Sorties en Informatique
Pas encore d'évaluation
Modes d'Entrées/Sorties en Informatique
10 pages
Cours 1MSI
Pas encore d'évaluation
Cours 1MSI
41 pages
Niveau 2 Bord
Pas encore d'évaluation
Niveau 2 Bord
109 pages
Introduction aux Automates Programmables
Pas encore d'évaluation
Introduction aux Automates Programmables
8 pages
Cours 0 Rappels
0% (1)
Cours 0 Rappels
28 pages
Pfe Ult 2
Pas encore d'évaluation
Pfe Ult 2
69 pages
Chapitre I - Informatique de Base Partie 1
Pas encore d'évaluation
Chapitre I - Informatique de Base Partie 1
8 pages
Économie digitale : définitions clés
Pas encore d'évaluation
Économie digitale : définitions clés
40 pages
Cours D'informatique MPSI-05-2015 Python
Pas encore d'évaluation
Cours D'informatique MPSI-05-2015 Python
148 pages
Création de la base de données emsiDb
Pas encore d'évaluation
Création de la base de données emsiDb
6 pages
Codes USSD des opérateurs mobiles
Pas encore d'évaluation
Codes USSD des opérateurs mobiles
1 page
Comprendre l'Internet des Objets (IoT)
Pas encore d'évaluation
Comprendre l'Internet des Objets (IoT)
11 pages
Les Technologies Web
Pas encore d'évaluation
Les Technologies Web
32 pages
Types d'attaques informatiques expliqués
100% (2)
Types d'attaques informatiques expliqués
48 pages
Guide Réseaux Informatiques et Équipements
Pas encore d'évaluation
Guide Réseaux Informatiques et Équipements
2 pages