0% ont trouvé ce document utile (0 vote)

211 vues39 pages

Science des Données avec Python

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

211 vues39 pages

Science des Données avec Python

Transféré par

Olivier MATWA

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Initiation à la Science des Données avec

Python

Jean Marie Tshimula

Short presentation:

Jean Marie Tshimula

❑ 2022 –
Professeur à l’Université de Kinshasa
Postdoc à McGill University (Montréal). Ingénieur IA à la Sorbonne (Paris)

❑ 2018-2022
Ph.D. in Computer Science (Université de Sherbrooke, QC, Canada)
Specialty: Computational psycholinguistics and artificial intelligence

❑ 2016-2018
MSc in Computer Science (Miyagi University, Sendai, Japan)
Specialty: Artificial intelligence and psychology

❑ 2011-2023 (Professional experience)

Millicom, IBM, Hitachi, Nuance Communications, Novisto

Google Scholar: [Link]

Science des données

Importation
des données
Visualisation

q La science des données

consiste à collecter, nettoyer,
Nettoyage Transformation Communication
analyser et interpréter de
des données
grandes quantités de
données.
Modélisation

q Son objectif est de découvrir des informations utiles et de prendre

des décisions éclairées.
q En termes simples, c'est comme résoudre des énigmes en utilisant
des données pour comprendre le monde qui nous entoure.
Language Python

q Python est un langage de programmation

populaire et polyvalent, connu pour sa simplicité
et sa lisibilité.

q Il est largement utilisé dans divers domaines tels

que la science des données, l'intelligence
artificielle (IA), la robotique, le calcul quantique,
le développement web, la blockchain, etc.

q Avec sa syntaxe claire et son large éventail de librairies, Python est

idéal pour les débutants en programmation et les professionnels
de divers domaines.
Où dois-je exécuter le code Python?

q Installer Python sur ordinateur

[Link] [Link]

q Utiliser Python sur le Cloud (sans installation, mais nécessite un compte Gmail)

[Link]
Comment executer Python
Librairies Python pour la science des données

q Manipulation efficace des

[Link] tableaux multidimensionnels. q Visualisation avancée
des données.

q Importation, analyse et
[Link] manipulation de données. q Apprentissage automatique
et modélisation.
[Link]

q Importation, analyse et q Développement web

[Link]
manipulation de données. robuste et efficace.
[Link]
Science des données avec Python

Importation des
données
Visualisation

Nettoyage des Transformation Communication

données

Modélisation
Plan de formation

❏ Jour 1 : Introduction aux bases de Python et à la manipulation

des données

❏ Jour 2 : Visualisation des données avec Matplotlib et Seaborn

❏ Jour 3 : Introduction à l'apprentissage automatique avec Scikit-

Learn

❏ Jour 4 : Projet pratique de science des données

Jour 1 : Introduction aux bases de Python et à la manipulation des données

Importation des
données
Visualisation

Nettoyage des Transformation Communication

données

Modélisation
Plan du jour

❏ Installation des outils pour exécuter Python

❏ Exploration des données avec Pandas

❏ Manipulation des données avec Pandas

❏ Exercice pratique
Lecture des données avec Pandas q Pandas : Lecture et gestion de données de
différentes sources (CSV, Excel, Web, bases de
données, etc.)

q Prise en charge de multiples formats de fichiers

pour l'analyse de données.

Exemple :
Exploration de DataFrame Pandas

DataFrame est une une structure de données bidimensionnelle tabulaire flexible. Utilisé pour stocker et analyser des
données en Python.

Aperçu général du DataFrame 10 premières lignes du DataFrame 10 dernières lignes du DataFrame

Types de données dans le DataFrame

Type des Type des données Description

données dans natif de Python
Pandas

object string Le type de données le plus général dans Pandas, capable de

contenir n'importe quel type de données Python.

int64 int Un type de données numériques utilisé pour stocker des

nombres entiers sans décimales. Par exemple: 1, 3, 5, 7, etc.

float64 float Un type de données numériques utilisé pour stocker des

nombres décimaux. Par exemple: 0.15, 6.24, 9.01, etc.
Types de données dans le DataFrame…
Types de données dans le DataFrame…
Attributs du DataFrame

Les objets Python sont consistés des attributs et méthodes

Attribut Description

dtypes Liste les types de données des colonnes

columns Liste les noms des columns
axes Liste les labels des lignes et les noms des colonnes
ndim Retourne le nombre de dimensions dans un DataFrame
size Retourne le nombre d’éléments
shape Renvoie la taille totale des colonnes et des observations.
values Renvoie la représentation numpy des données (un tableau ou une matrice)
Méthodes du DataFrame

Contrairement aux attributs, les méthodes Python sont suivies de parenthèses. Tous les
attributs et méthodes peuvent être répertoriés avec la fonction dir().

Méthode Description

head([n]), tail([n]) n premières / dernières lignes

describe() Génère des statistiques descriptives (uniquement pour les colonnes
numériques).
max(), min() Renvoie les valeurs maximales/minimales pour toutes les colonnes
numériques.
mean(), median() Renvoie les valeurs moyennes/médianes pour toutes les colonnes numériques.
std() Écart-type
sample([n]) Renvoie un échantillon aléatoire du DataFrame.
dropna() Supprimer toutes les lignes contenant des valeurs manquantes.
Sélection de colonne dans le DataFrame
Méthode 1 : Obtenir le sous-ensemble du DataFrame Méthode 2 : Utilise le nom de colonne comme
en utilisant le nom de colonne : salary_df["sex"] attribut : salary_df.sex

Remarque : Il existe un attribut rank pour les DataFrames Pandas, donc pour sélectionner une colonne
avec le nom "rank", nous devrions utiliser la Méthode 1.
La méthode groupby dans le DataFrame
Avec la méthode "groupby", nous pouvons :

q Diviser les données en groupes en fonction de certains critères

q Calculer des statistiques (ou appliquer une fonction) à chaque groupe

La méthode groupby dans le DataFrame…

La même chose peut être effectuée en une seule ligne:

Le filtrage dans le DataFrame

q Pour sous-ensemble de données, utilisez l'indexation booléenne, également connue

sous le nom de filtre.

q Par exemple, pour sous-ensemble des lignes avec des salaires supérieurs à 120 000$.

Tous les opérateurs booléens peuvent être utilisés

pour sous-ensemble de données :

> : supérieur
>= : supérieur ou égal
< : inférieur
<= : inférieur ou égal
== : égal
!= : différent
La sélection des lignes dans le DataFrame

Si nous devons sélectionner une plage de lignes, nous pouvons spécifier la plage en utilisant ":"
Le tri dans le DataFrame

q Nous pouvons trier les données par valeur dans la colonne.

q Par défaut, le tri s'effectuera par ordre croissant.
q Un nouveau DataFrame est retourné après le tri.
Le tri dans le DataFrame…

Nous pouvons trier les données en utilisant 2 colonnes ou plus :

Les données ou valeurs manquantes

Les valeurs manquantes sont marquées comme NaN.

Suppression des valeurs manquantes

Suppression de toutes les lignes contenant les valeurs manquantes

q La méthode dropna() permet d’éliminer toutes les valeurs manquantes.

q Supprimer les données peut entraîner une perte d'informations.

q Récupérer les données manquantes améliore la distribution.
q Une analyse prudente guide la décision.
Remplissage des données manquantes

#Remplacer les valeurs manquantes par zéro (0)

Remplissage des données manquantes…

Remplacer les valeurs manquantes par la moyenne

Cette technique ne marche pas lorsque le type des données de la colonne est ‘object’
ou ‘string’. Aussi lorsque toute la colonne ne comporte que les valeurs manquantes.
Fonctions d'agrégation dans Pandas

Agrégation - calcul d'une statistique de synthèse pour chaque groupe, par exemple :

q Calculer les sommes ou les moyennes par groupe

q Calculer les tailles/nombres d'éléments par groupe

Fonctions d'agrégation courantes : min, max, count, sum, prod, mean, median, mode, mad, std, var

La méthode agg() est utile lorsque plusieurs statistiques sont calculées par colonne :
Exercice pratique

Pour cet exercice, utilisez les données du fichier "[Link]" dans le document de la formation, ou
importez directement à partir de ce lien: [Link]

Questions:
q Supprimez les valeurs manquantes pour que vos calculs ne soient pas affectés.
q Calculez le retard moyen à l'arrivée (àrr_delay`) pour chaque compagnie aérienne (`carrier`)
sur l'ensemble des données.
q Calculez la distance totale parcourue (`distance`) pour chaque mois (`month`).
q Identifiez le vol le plus long (en termes de distance) pour chaque mois (`month`) et affichez les
détails de ces vols.
q Groupez les données par aéroport de départ (òrigin`) et trouvez le temps de vol moyen
(àir_time`) pour chaque aéroport de départ.

Les détails sur les données de « [Link] » sont fournis à la page suivante.
Voici une explication des variables :

q year: Année du vol.

q month: Mois du vol.
q day: Jour du vol.
q dep_time: Heure de départ du vol.
q dep_delay: Retard au départ du vol (en minutes).
q arr_time: Heure d'arrivée du vol.
q arr_delay: Retard à l'arrivée du vol (en minutes).
q carrier: Compagnie aérienne.
q tailnum: Numéro de queue de l'avion.
q flight: Numéro de vol.
q origin: Aéroport de départ.
q dest: Aéroport de destination.
q air_time: Temps de vol (en minutes).
q distance: Distance du vol (en miles).
q hour: Heure de départ du vol
q minute: Minute de départ du vol.
Recommandation :

q Prenez temps de lire cette

page et la suivante
q Exercez-vous également!

Vous aimerez peut-être aussi

Module: Analyse Et Fouille de Données
Pas encore d'évaluation
Module: Analyse Et Fouille de Données
3 pages
Cours Ia Gomycode
100% (1)
Cours Ia Gomycode
153 pages
Statistiques Descriptives Et Analyse de Données Avec Le Module Pandas
Pas encore d'évaluation
Statistiques Descriptives Et Analyse de Données Avec Le Module Pandas
10 pages
Wiley Python Pour La Data Science
100% (4)
Wiley Python Pour La Data Science
387 pages
Document
Pas encore d'évaluation
Document
8 pages
Programmation scientifique avec Python
Pas encore d'évaluation
Programmation scientifique avec Python
14 pages
Introduction à Pandas pour l'analyse de données
Pas encore d'évaluation
Introduction à Pandas pour l'analyse de données
69 pages
TP 4 Analyse Exploratoire de Données AED
Pas encore d'évaluation
TP 4 Analyse Exploratoire de Données AED
5 pages
Nettoyage de données avec Python et Pandas
Pas encore d'évaluation
Nettoyage de données avec Python et Pandas
5 pages
CH 3
Pas encore d'évaluation
CH 3
44 pages
Analyse de données avec Pandas
Pas encore d'évaluation
Analyse de données avec Pandas
17 pages
Analyse de Donnees
Pas encore d'évaluation
Analyse de Donnees
27 pages
Annexe Pandas Final 2023
Pas encore d'évaluation
Annexe Pandas Final 2023
3 pages
Guide d'utilisation de Pandas en 4ème
Pas encore d'évaluation
Guide d'utilisation de Pandas en 4ème
3 pages
Simulation Numeric 2
Pas encore d'évaluation
Simulation Numeric 2
77 pages
Statistiques au lycée avec pandas Python
Pas encore d'évaluation
Statistiques au lycée avec pandas Python
53 pages
Python: Data Science
Pas encore d'évaluation
Python: Data Science
18 pages
Annexe - Pandas F
Pas encore d'évaluation
Annexe - Pandas F
7 pages
Traitement de Données Avec PANDAS - Outils Numériques Avancés en Mécanique
Pas encore d'évaluation
Traitement de Données Avec PANDAS - Outils Numériques Avancés en Mécanique
30 pages
Les Fonction en Pandas
Pas encore d'évaluation
Les Fonction en Pandas
34 pages
Cours TP Pandas
Pas encore d'évaluation
Cours TP Pandas
7 pages
Pandas
Pas encore d'évaluation
Pandas
7 pages
TP3 4 5 Pandas 4eco Version Eleves
Pas encore d'évaluation
TP3 4 5 Pandas 4eco Version Eleves
4 pages
Manipulation des données avec Pandas
Pas encore d'évaluation
Manipulation des données avec Pandas
9 pages
Annexe Pandas Final 2023 - 2
Pas encore d'évaluation
Annexe Pandas Final 2023 - 2
2 pages
Introduction à Pandas pour DataFrames
Pas encore d'évaluation
Introduction à Pandas pour DataFrames
8 pages
Py Data Analysis
Pas encore d'évaluation
Py Data Analysis
44 pages
Introduction aux DataFrames en Python
Pas encore d'évaluation
Introduction aux DataFrames en Python
16 pages
TP Pandas: Manipulation et Analyse de Données
Pas encore d'évaluation
TP Pandas: Manipulation et Analyse de Données
4 pages
Cours 5
Pas encore d'évaluation
Cours 5
9 pages
Manipulation Pandas
Pas encore d'évaluation
Manipulation Pandas
19 pages
Tp1 Pandas Corrigé
100% (1)
Tp1 Pandas Corrigé
10 pages
Analyse Des Données Avec Python
100% (1)
Analyse Des Données Avec Python
31 pages
Introduction à la manipulation de données avec Pandas
Pas encore d'évaluation
Introduction à la manipulation de données avec Pandas
45 pages
Formation Pandas
Pas encore d'évaluation
Formation Pandas
23 pages
Manipulation et Visualisation de Données avec Pandas
Pas encore d'évaluation
Manipulation et Visualisation de Données avec Pandas
14 pages
Fonctions Clés de Pandas en Python
100% (1)
Fonctions Clés de Pandas en Python
44 pages
TP1 DM
Pas encore d'évaluation
TP1 DM
2 pages
Pandas Et Python
Pas encore d'évaluation
Pandas Et Python
24 pages
Cours Accéléré Python Pandas Numpy
Pas encore d'évaluation
Cours Accéléré Python Pandas Numpy
2 pages
Tuto Python & Pandas - Installation Et Manipulations de Base
Pas encore d'évaluation
Tuto Python & Pandas - Installation Et Manipulations de Base
18 pages
tp2 ML
Pas encore d'évaluation
tp2 ML
7 pages
Méthodes Pandas pour DataFrames
Pas encore d'évaluation
Méthodes Pandas pour DataFrames
2 pages
Analyse de données avec Pandas en Python
Pas encore d'évaluation
Analyse de données avec Pandas en Python
10 pages
Fiche-16 - Données en Table-Dataframe
Pas encore d'évaluation
Fiche-16 - Données en Table-Dataframe
4 pages
Guide Pandas: Importation et Manipulation de Données
Pas encore d'évaluation
Guide Pandas: Importation et Manipulation de Données
13 pages
ÉNONCÉ Prototype - EG - 2023.
Pas encore d'évaluation
ÉNONCÉ Prototype - EG - 2023.
4 pages
Chapitre3 - Pandas - SQL Et MatPlotLib
Pas encore d'évaluation
Chapitre3 - Pandas - SQL Et MatPlotLib
32 pages
Introduction à la fouille de données avec Python
Pas encore d'évaluation
Introduction à la fouille de données avec Python
16 pages
Commandes Pandas
Pas encore d'évaluation
Commandes Pandas
4 pages
Traitement de données avec Python et Numpy
Pas encore d'évaluation
Traitement de données avec Python et Numpy
45 pages
Les Méthodes Et Les Propriétés À Utiliser Avec La Bibliothèque Pandas
Pas encore d'évaluation
Les Méthodes Et Les Propriétés À Utiliser Avec La Bibliothèque Pandas
2 pages
Cours TP Pandas
Pas encore d'évaluation
Cours TP Pandas
9 pages
Guide Pandas
Pas encore d'évaluation
Guide Pandas
5 pages
Optimisation Du Code Python 4
Pas encore d'évaluation
Optimisation Du Code Python 4
29 pages
Python Data Science Handbook Belhadj-Alaa
Pas encore d'évaluation
Python Data Science Handbook Belhadj-Alaa
18 pages
Analyse de données avec Pandas
Pas encore d'évaluation
Analyse de données avec Pandas
9 pages
Python : Maîtriser la POO
Pas encore d'évaluation
Python : Maîtriser la POO
17 pages
Exercices Python M3
Pas encore d'évaluation
Exercices Python M3
2 pages
Création de Logiciel Scolaire Avec DJANGO
100% (1)
Création de Logiciel Scolaire Avec DJANGO
12 pages
QCM Corrige
Pas encore d'évaluation
QCM Corrige
17 pages
UNIKIN Devoir Theorique Algorithme
Pas encore d'évaluation
UNIKIN Devoir Theorique Algorithme
5 pages
Apprentissage Python Avec IA
Pas encore d'évaluation
Apprentissage Python Avec IA
4 pages
Je Suis Ingénieur de Bâtiment Et Je Veux Apprendre...
Pas encore d'évaluation
Je Suis Ingénieur de Bâtiment Et Je Veux Apprendre...
3 pages
Débogage Et Test de Programme
Pas encore d'évaluation
Débogage Et Test de Programme
17 pages
TP Ai
Pas encore d'évaluation
TP Ai
2 pages
I2IoT v2 Release Notes
Pas encore d'évaluation
I2IoT v2 Release Notes
3 pages
La Recherche Sur Zeste de Savoir
Pas encore d'évaluation
La Recherche Sur Zeste de Savoir
37 pages
Organisation 3
Pas encore d'évaluation
Organisation 3
14 pages
Introduction à Python pour la Data Science
Pas encore d'évaluation
Introduction à Python pour la Data Science
30 pages
Django
Pas encore d'évaluation
Django
24 pages
Python - Path
Pas encore d'évaluation
Python - Path
1 page
TP1 PDF
Pas encore d'évaluation
TP1 PDF
5 pages
Stage en Web Scraping chez SW Consulting
Pas encore d'évaluation
Stage en Web Scraping chez SW Consulting
17 pages
Exercices Sur Les Listes en Python
Pas encore d'évaluation
Exercices Sur Les Listes en Python
3 pages
Serie1 Avec Correction
100% (3)
Serie1 Avec Correction
14 pages
TD - C - Mat1 - 1
Pas encore d'évaluation
TD - C - Mat1 - 1
7 pages
Tutorielpyside 1
Pas encore d'évaluation
Tutorielpyside 1
10 pages
Python - Part1-1-82
Pas encore d'évaluation
Python - Part1-1-82
82 pages
Exercices Python sur algorithmes et mathématiques
Pas encore d'évaluation
Exercices Python sur algorithmes et mathématiques
2 pages
Exam 98-381 : Introduction à Python
Pas encore d'évaluation
Exam 98-381 : Introduction à Python
19 pages
Selenium
Pas encore d'évaluation
Selenium
48 pages
Python L3 UATM - 04
Pas encore d'évaluation
Python L3 UATM - 04
28 pages
Carrés Magiques en Python : Devoir CNED
Pas encore d'évaluation
Carrés Magiques en Python : Devoir CNED
2 pages
Python Frequently Asked Questions: Guido Van Rossum and The Python Development Team
Pas encore d'évaluation
Python Frequently Asked Questions: Guido Van Rossum and The Python Development Team
119 pages
Structures de Contrôle en Python
Pas encore d'évaluation
Structures de Contrôle en Python
24 pages
Cours sur les listes en Python
Pas encore d'évaluation
Cours sur les listes en Python
11 pages