IBM Bigsheets
Présenté par:
Othmane Hakim – Fatima Zahra Fagroud
Encadré par:
Mr M.Azouazi – Mr A.Talhaoui
Plan
• Introduction
• Bigsheets
• Chargement des données
• Manipulation des données
• Visualisation des données
• Atelier
2
Introduction
3
Introduction
4
Bigsheets
Composant de IBM InfoSphere BIGInsigh
utilise une interface semblable à une feuille de calcul
(Spreadsheet )
Permet de visualiser et d'analyser les données
stockées sur hdfs
5
Bigsheets
6
Scénario du BigSheets
7
Collection de données Stockage de données L'exploration de données
Accès à Bigsheets
8
Workbook
• Représentation des données dans l'outil
• Ensemble de spreadsheets
• Créé et géré par l'utilisateur
• Nom, description
• Master Workbook: lecture seule
• Child Workbook: lecture et écriture
9
Chargement des données
10
Création d’ un
nouveau Workbook
Importer les
métadonnées d’un
Workbook
exporter les
métadonnées d’un ou
plusieurs Workbook
Chargement des données
11
Nom et
description du
Workbook
Fichiers stockés
dans hdfs
Chargement des données
12
Chargement des données
13
Chargement des données
14
Chargement des données
15
Manipulation des données
16
Création
d’un Child
Workbook
Exporter les données
du workbook dans un
fichier
Manipulation des données
17
Manipulation des données
18
• Filter : Supprime les données qui ne correspond pas à certains critères
spécifiés.
• Function : Exécute une fonction sur chaque rangée dans un classeur.
• Load : Accepte les données d'un autre classeur en tant que feuille dans le
classeur en cours
• Group : Calcule des valeurs en regroupant les données du classeur, appliquant
des fonctions à chaque groupe, et portant sur les données.
Manipulation des données
19
• Join :Combine des données sur deux feuilles existantes dans le même classeur.
• Union : Ajoute des données à partir de feuilles existantes à une nouvelle feuille.
• Intersection : Calcule les points communs de données sur une colonne donnée
de deux feuilles ou plus
• Complement : Calcule le complément de deux ou plusieurs feuilles sur une
certaines colonnes
Manipulation des données
20
.
• Limit : Limite le nombre de lignes dans une feuille.
• Distinct : Elimine les lignes en double dans une feuille.
• Copy : Copie d'une feuille, y compris les données et toutes les formules utilisées
pour créer les données
• Formula : Expose un champ de formule
Manipulation des données
21
Manipulation des données
22
Manipulation des données
23
Visualisation des données
24
Visualisation des données
25
Visualisation des données
26
Visualisation des données
27
Visualisation des données
28
Atelier
29
Merci pour votre attention
30

Ibm bigsheets

Notes de l'éditeur

  • #3 La description des leçons doit être brève.
  • #4 Hadoop consite en deux grandes parties:stockage des données (hdfs) et traitement des données (MapReduce/Yarn) Hdfs: hadoop distributed file system (systéme de fichier distrubié,extensible et portable) stock un gros volume de données
  • #5 les utilisateurs préfére d'anlalyser les données sans coder comment analyser cette grande quantité de données sans coder? pour réaliser cela on a besoin d'un outil dans lequel on a 0 programmation
  • #6 Données collecter de différentes sources (différentes formats) Spreadsheet-style Bigsheets Bigsheets est un outil basé sur un navigateur et permet de Simplifier l'accès pour les utilisateurs finaux, minimiser le développement de logiciels BigSheets utilise une interface semblable à une feuille de calcul qui peut modéliser, filtrer, combiner et tracer des données collectées à partir de plusieurs sources, telles qu'un travail d'application sur un environnement Big Data IBM® InfoSphere® BigInsights™ 2.1 est une plateforme Hadoop qui offre de nouveaux modes d'utilisation de grands volumes de données variées BigSheets génère et exécute le code requis vous permettant d'effectuer automatiquement toutes les manipulations de données
  • #7 est inclus dans le paquet de data scientist BigInsights ou dans le package data analyst , pour analyser et visualiser les big data
  • #19 Function Une fonction prend une ligne de données en entrée et produit une ou plusieurs lignes de données en sortie.
  • #20 Join: La nouvelle feuille contient les données des deux feuilles spécifiées, même si les feuilles sélectionnées contiennent des colonnes différentes. Union:La feuille existante que vous sélectionnez pour l'union doit être dans le classeur en cours et les deux feuilles doivent contenir les mêmes colonnes et types de données. Complement:renvoie toutes les lignes qui contiennent une valeur dans la colonne spécifiée qui se trouve uniquement dans la première feuille sélectionnée. Toutes les feuilles doivent avoir le même schéma exact. Intersection : Chacune des feuilles sélectionnées pour ce type de feuilles doit contenir les mêmes colonnes et types de données.
  • #21 Limite Limite le nombre de lignes dans une feuille existante. Par exemple, si une feuille contient plus d'un million de lignes, vous pouvez utiliser la feuille Limite pour limiter l'ensemble de données aux 500 premières lignes. . Copy est utile si vous avez des feuilles qui ont été créés d'une manière similaire, mais vous voulez faire des ajustements mineurs pour obtenir des données différentes. Formula: Accepte les formules spécifiées par l'utilisateur pour une ou plusieurs colonnes de données. Le champ vous permet d'entrer toutes sortes de formules, y compris les formules complexes.
  • #30 Exemples d’objectifs À la fin de cette leçon, vous pourrez : Enregistrer des fichiers sur le serveur web d’équipe. Déplacer des fichiers à d’autres endroits sur le serveur web d’équipe. Partager des fichiers sur le serveur web d’équipe.