100% ont trouvé ce document utile (2 votes)

896 vues8 pages

Examen DA 101 - VF

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

100% ont trouvé ce document utile (2 votes)

896 vues8 pages

Examen DA 101 - VF

Transféré par

Sayoba Gansane

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

Examen DA 101

Introduction à Python pour la data-science

Consignes

L'exercice est composé de plusieurs questions, faites-les dans l'ordre et faites attention à
respecter le nom des variables. La majorité des questions sont indépendantes.
Evitez de rester bloqué plus de 5 minutes sur la même question.
Un code clair et commenté si nécessaire, sera apprecié.

N'hésitez pas à contacter l'équipe DataScientest si vous rencontrez des problèmes sur
help@datascientest.com

Exploration du Jeu de données

Cette évaluation porte sur le jeu de données "german_credit_data.csv". Ce dernier contient des
informations sur plus de 1000 individus ayant souscrits à un prêt bancaire. La
variable duration indique la durée de l'emprunt en mois.
Le principal objectif de l'examen est d'utiliser des méthodes d'exploration, de manipulation et de
préparation de données dans l'optique d'entraîner un algorithme de régression pour prédire
l'espérance de vie d'un pays

 (a) Importer le module pandas sous le nom pd

 (b) Lire le fichier "german_credit_data.csv" dans un DataFrame appelé df en précisant
que la première colonne contient les indices.
 (c) Afficher un aperçu et une première description des variables du jeu de données.

In [53]:

# Import du module pandas sous le pd

import pandas as pd

# Lecture du fichier "german_credit_data.csv" dans un DataFrame appelé df

df = pd.read_csv("german_credit_data.csv",sep = ';', index_col = 0)

# Affichage d'un aperçu et une première description des variables du jeu de données
df.head()

Out[53]:
Les variables purpose et credit_amount renseigne respectivement le motif du prêt contracté
par un individu et le montant du crédit.

 (d) Quel est le montant moyen du crédit suivant les différents motifs invoqués ?

In [54]:

#le montant moyen du crédit suivant les différents motifs invoqués

df.groupby(['purpose']).mean()['credit_amount']

Out[54]:
purpose
business 4158.041237
car 3768.192878
domestic appliances 1498.000000
education 2879.203390
furniture/equipment 3066.988950
radio/TV 2487.653571
repairs 2728.090909
vacation/others 8209.333333
Name: credit_amount, dtype: float64

 (e) Quel est le motif revenant le plus souvent ?

In [55]:

df['purpose'].mode()

# le motif revenant le plus souvent est car

Out[55]:
0 car
dtype: object

 (f) Afficher les informations concernant l'individu le plus âgé. Quelle est la durée de son
prêt ?
 (g) Qu'en est-il de l'individu du plus jeune ?

In [56]:
# Affichage des informations concernant l'individu le plus âgé

df['age'].max()
df.loc[df['age'].idxmax()]

# la est la durée de son prêt est 24 mois

Out[56]:
age 75.0
job 3
housing free
saving_accounts little
checking_account little
credit_amount 6615
duration 24-month
purpose car
Name: 330, dtype: object
In [57]:

# Affichage des informations concernant l'individu le plus âgé

df['age'].min()
df.loc[df['age'].idxmin()]

# la est la durée de son prêt est 12 mois

Out[57]:
age 19.0
job 1
housing rent
saving_accounts rich
checking_account moderate
credit_amount 983
duration 12-month
purpose furniture/equipment
Name: 391, dtype: object

 (h) La variable duration renseigne la durée des emprunts. Transformez-la en variable

numérique en supprimant -month pour chaque individu.

Pour cette question, appliquer à chaque observation de la colonne duration une fonction qui
supprime les 6 derniers éléments
In [58]:
# duration en variable numérique en supprimant -month pour chaque individu

df['duration'] = df.apply(lambda x:x ['duration'].split('-')[0], axis=1).astype(int)

df.head()

Out[58]:

 (i) Créer une nouvelle variable nommée duration_categ contenant 3

modalités : court-terme pour tous les prêts d'une durée inférieure ou
égale à 10 mois, moyen-terme pour tous les prêts d'une durée strictement
supérieure à 10 mois et inférieure ou égale à 30 mois, long-terme pour tous les prêts
d'une durée strictement supérieure à 30 mois.

In [60]:

# Création de la nouvelle variable nommée duration_categ

import numpy as np

critere = [(df['duration'] <= 10), (df['duration'] > 10) & (df['duration'] <=30),
(df['duration'] > 30)]
modalites = ['court-terme', 'moyen-terme', 'long-terme']
df['duration_categ'] = np.select(critere, modalites, default='Not Specified')

df.head()
Out[60]:
La variable housing renseigne 3 catégories : own (propriétaire), rent (locataire) et free (libre).

 (j) En majorité, les propriétaires ont-ils des prêts moyen-terme ?

In [61]:

print(pd.crosstab(df['housing'],df['duration_categ']))

# Oui les propriétaires ont des prêts moyen-terme en majorité

duration_categ court-terme long-terme moyen-terme
housing
free 13 38 51
own 118 104 460
rent 32 20 119

Preprocessing et cleaning des données

La phase de préparation des données regroupe les activités liées à la construction de l'ensemble
précis des données à analyser, faite à partir des données brutes. Elle inclut ainsi le classement
des données en fonction de critères choisis, le nettoyage des données, et surtout leur recodage
pour les rendre compatibles avec les algorithmes qui seront utilisés.

 (k) Pour la variablechecking_account, remplacer les modalités 'little', 'moderate' et

'rich' par 0,1 et 2.

In [62]:

# Remplacement des modalités 'little', 'moderate' et 'rich' par 0,1 et 2

df['checking_account'] = df['checking_account'].replace(to_replace = ['little', 'moderate',

'rich'],
value= [0,1, 2])
df.head()

Out[62]:

* (l) Pour la variable`saving_accounts`, remplacer les modalités 'little', 'moderate', 'quite

rich' et rich' par 0,1,2 et 3.
In [63]:

# Remplacement des modalités 'little', 'moderate', 'quite rich' et rich' par 0,1,2 et 3

df['saving_accounts'] = df['saving_accounts'].replace(to_replace = ['little', 'moderate',

'rich'],
value= [0,1, 2])
df.head()
Out[63]:

 (m) Remarquez-vous la présence de doublons dans les données ?

In [64]:

print(df.duplicated().sum())

# Il n'y a pas de doublons dans les données

 (n) Afficher le nombre de valeurs manquantes pour chaque colonne de df.

In [65]:

# Affichage du nombre de valeurs manquantes pour chaque colonne de df

print(df.isna().sum(axis = 0))

age 76
job 0
housing 45
saving_accounts 0
checking_account 0
credit_amount 0
duration 0
purpose 0
duration_categ 0
dtype: int64
Certaines variables comme 'housing' ou 'purpose' sont des variables catégorielles. En
effet, elles contiennent un nombre fini de modalités (3 pour la première par exemple).

Dans le cas de ces variables, il est possible de remplacer les valeurs manquantes dans ces
colonnes par l'élément le plus fréquent.
En statistique, cette valeur s'appelle le mode, et la méthode du même nom permet de retourner
cet/ces eléments à l'intérieur d'une pandas Series.

 (o) Dans df, remplacer les valeurs manquantes de la variable housing par le mode.

In [66]:
# remplacement des valeurs manquantes de la variable housing par le mode dans df

df['housing'] = df['housing'].fillna(df['housing'].mode()[0])

df.head()

Out[66]:

 (p) Dans df, remplacer les valeurs manquantes de la variable age par la moyenne.

In [67]:

# remplacement des valeurs manquantes de la variable age par la moyenne dans df

df['age'] = df['age'].fillna(df['age'].mean())
df.head()
Out[67]:
Apprentissage des données

Une équipe de Data Scientists a déjà entraîné un modèle de régression prédictif sur des données
en plus grand nombre et identiques aux données sur lesquelles vous avez travaillé. Après envoi
de vos données sans la variable duration ils ont essayé de prédire la durée des prêts de vos
1000 individus.

Les résultats des prédictions sont disponibles dans le fichier 'predictions_german.csv', qui
contient également l'ID des clients.

 (q) Lire le fichier "predictions_german.csv" dans

un DataFrame appelé predictions en précisant que la première colonne contient les
indices.
 (r) En fusionnant df et predictions, créer un dataframe df_pred contenant les
informations dont nous disposons ainsi que les prédictions sur les 1000 individus.

In [68]:

# Lecture du fichier "predictions_german.csv" dans un DataFrame appelé df

predictions = pd.read_csv("predictions_german.csv" , sep = ';', index_col = 0)

# fusion de df et predictions

df_pred = df.merge(right = predictions, on = 'ID', how = 'left')

df_pred.head()
Out[68]:
Évaluation du modèle de régression
 (s) Créer une nouvelle variable error renseignant la différence entre les
variables duration et predictions.

In [69]:

# Création de la nouvelle variable error

df_pred['error'] = df_pred['duration'] - df_pred['predictions']

df_pred.head()
Out[69]:

 (t) Combien d'individus ont vu leur durée de prêt sous-estimée par le modèle ?

In [70]:

print(df_pred.loc[df_pred['error'] < 0,:])

# 352 individus ont vu leur durée de prêt sous-estimée par le modèle

age job housing saving_accounts checking_account credit_

Vous aimerez peut-être aussi

tp2 ML
Pas encore d'évaluation
tp2 ML
7 pages
Préparation de données avec scikit-learn
Pas encore d'évaluation
Préparation de données avec scikit-learn
3 pages
Examen 2
Pas encore d'évaluation
Examen 2
6 pages
Examen Clustering
Pas encore d'évaluation
Examen Clustering
15 pages
Examen Seaborn
Pas encore d'évaluation
Examen Seaborn
8 pages
Analyse des Données : ACP STID 2004-2005
Pas encore d'évaluation
Analyse des Données : ACP STID 2004-2005
4 pages
Techniques d'Analyse des Données
Pas encore d'évaluation
Techniques d'Analyse des Données
19 pages
Classification Acp
Pas encore d'évaluation
Classification Acp
5 pages
Série 3 AFC (Exercices Solutions)
Pas encore d'évaluation
Série 3 AFC (Exercices Solutions)
16 pages
Chapitre 1 Fouille de Données
Pas encore d'évaluation
Chapitre 1 Fouille de Données
36 pages
Tests Statistiques et Seuils d'Inference
Pas encore d'évaluation
Tests Statistiques et Seuils d'Inference
47 pages
Introduction à Crisp-DM et Clustering
Pas encore d'évaluation
Introduction à Crisp-DM et Clustering
23 pages
TP 2 Data Science
Pas encore d'évaluation
TP 2 Data Science
1 page
INF8111 - Exercices + Solutions
Pas encore d'évaluation
INF8111 - Exercices + Solutions
32 pages
Evaluation Et Séléction Du Modèle 2
Pas encore d'évaluation
Evaluation Et Séléction Du Modèle 2
36 pages
TD Et TP Acp
Pas encore d'évaluation
TD Et TP Acp
6 pages
TP2 Prétraitement Des Données Ipynb - Colab
Pas encore d'évaluation
TP2 Prétraitement Des Données Ipynb - Colab
10 pages
Tps Regression Machine Leraning
Pas encore d'évaluation
Tps Regression Machine Leraning
5 pages
Préparation Des Données-Chapitre2
Pas encore d'évaluation
Préparation Des Données-Chapitre2
27 pages
Exercices d'Analyse Factorielle des Correspondances
100% (1)
Exercices d'Analyse Factorielle des Correspondances
4 pages
Estimation et Risque en Statistique
Pas encore d'évaluation
Estimation et Risque en Statistique
104 pages
Ciblage Marketing par Scoring et LIFT
Pas encore d'évaluation
Ciblage Marketing par Scoring et LIFT
11 pages
Introduction à l'analyse des données et PCA
Pas encore d'évaluation
Introduction à l'analyse des données et PCA
73 pages
Cours ADD - ACP - SUP MTI - P2 - Ouazza
Pas encore d'évaluation
Cours ADD - ACP - SUP MTI - P2 - Ouazza
53 pages
Python pour la Statistique Exploratoire
Pas encore d'évaluation
Python pour la Statistique Exploratoire
3 pages
TD2 Reg Multiple 23-24
100% (1)
TD2 Reg Multiple 23-24
3 pages
Analyse ACP des données automobiles
Pas encore d'évaluation
Analyse ACP des données automobiles
14 pages
ACP Sous Python Avec Scientisttools
Pas encore d'évaluation
ACP Sous Python Avec Scientisttools
22 pages
Cours PCA
Pas encore d'évaluation
Cours PCA
17 pages
ACP : Exercices et Analyses Pratiques
100% (1)
ACP : Exercices et Analyses Pratiques
2 pages
Cours ACP
Pas encore d'évaluation
Cours ACP
12 pages
Machine Learning - Partie 2 - Régression Logistique Et KNN
Pas encore d'évaluation
Machine Learning - Partie 2 - Régression Logistique Et KNN
37 pages
QCM
Pas encore d'évaluation
QCM
7 pages
Correction Examen
Pas encore d'évaluation
Correction Examen
5 pages
Tests Statistiques Avancés
100% (1)
Tests Statistiques Avancés
4 pages
Cours Modélisation Et Simulation
Pas encore d'évaluation
Cours Modélisation Et Simulation
19 pages
TP Statistique Descriptive Univarié
Pas encore d'évaluation
TP Statistique Descriptive Univarié
10 pages
Support TP DataPreprocessing
100% (1)
Support TP DataPreprocessing
2 pages
Introduction Aux Bibliothèques NumPy Et Pandas
Pas encore d'évaluation
Introduction Aux Bibliothèques NumPy Et Pandas
13 pages
Cours Analyse de Données ISITT
Pas encore d'évaluation
Cours Analyse de Données ISITT
10 pages
Gestion des données manquantes et binning
Pas encore d'évaluation
Gestion des données manquantes et binning
1 page
Feature Engineering en Machine Learning
Pas encore d'évaluation
Feature Engineering en Machine Learning
37 pages
Examen 2 de Python
Pas encore d'évaluation
Examen 2 de Python
2 pages
Data Mining tp.5 Régression Linéaire Multiple
Pas encore d'évaluation
Data Mining tp.5 Régression Linéaire Multiple
13 pages
Analyse Bivariée pour Étudiants
Pas encore d'évaluation
Analyse Bivariée pour Étudiants
75 pages
Introduction à la régression linéaire
Pas encore d'évaluation
Introduction à la régression linéaire
71 pages
Devoir ACP
0% (1)
Devoir ACP
2 pages
TP4: Apprentissage Supervisé en IA
Pas encore d'évaluation
TP4: Apprentissage Supervisé en IA
5 pages
Analyse des eaux minérales par ACP
Pas encore d'évaluation
Analyse des eaux minérales par ACP
16 pages
Examen Master 2 ISEFAR : Classification Data-Mining
Pas encore d'évaluation
Examen Master 2 ISEFAR : Classification Data-Mining
3 pages
TD1 Apriori
100% (1)
TD1 Apriori
2 pages
TD - Add - Série1 Rectifiée2
Pas encore d'évaluation
TD - Add - Série1 Rectifiée2
4 pages
Tests paramétriques en statistiques avancées
100% (2)
Tests paramétriques en statistiques avancées
2 pages
Analyse de Données IA avec Python
Pas encore d'évaluation
Analyse de Données IA avec Python
22 pages
TD4 Biostatistique
Pas encore d'évaluation
TD4 Biostatistique
22 pages
Classification du cancer du sein par SVM
Pas encore d'évaluation
Classification du cancer du sein par SVM
6 pages
Prédiction des Risques de Défaut de Prêt
Pas encore d'évaluation
Prédiction des Risques de Défaut de Prêt
31 pages
Nettoyage de données avec Python et Pandas
Pas encore d'évaluation
Nettoyage de données avec Python et Pandas
5 pages
Analyse des données de logement
Pas encore d'évaluation
Analyse des données de logement
10 pages
TP3 Et 4 Fouille de Données 2025
Pas encore d'évaluation
TP3 Et 4 Fouille de Données 2025
4 pages
StatsProbas TC2A TD4
Pas encore d'évaluation
StatsProbas TC2A TD4
29 pages
Classification Automatique E-commerce
Pas encore d'évaluation
Classification Automatique E-commerce
32 pages
Classification automatique de produits
Pas encore d'évaluation
Classification automatique de produits
21 pages
Maîtrisez Power BI pour vos rapports
50% (4)
Maîtrisez Power BI pour vos rapports
1 page
Classification Automatique des Produits E-commerce
Pas encore d'évaluation
Classification Automatique des Produits E-commerce
17 pages
Évaluation nutritionnelle enfants Mauritanie 2014
Pas encore d'évaluation
Évaluation nutritionnelle enfants Mauritanie 2014
61 pages
Modèle de Scoring Crédit et Dashboard
Pas encore d'évaluation
Modèle de Scoring Crédit et Dashboard
20 pages
Techniques d'échantillonnage avancées
Pas encore d'évaluation
Techniques d'échantillonnage avancées
11 pages
Prédiction d'Octroi de Prêts Bancaires
Pas encore d'évaluation
Prédiction d'Octroi de Prêts Bancaires
19 pages
Initiation à QGIS pour SIG à Arlon
75% (4)
Initiation à QGIS pour SIG à Arlon
173 pages
LDLC OK 12 Pro Max
0% (1)
LDLC OK 12 Pro Max
1 page
Meknes FES FES FES FES: Lieu Du Concours
Pas encore d'évaluation
Meknes FES FES FES FES: Lieu Du Concours
361 pages
Délimitation et caractéristiques du bassin versant
Pas encore d'évaluation
Délimitation et caractéristiques du bassin versant
32 pages
Logiciels - Sherpa Engineering
Pas encore d'évaluation
Logiciels - Sherpa Engineering
3 pages
Méthodologie Construction de Magasins
100% (3)
Méthodologie Construction de Magasins
3 pages
Grice 2222
Pas encore d'évaluation
Grice 2222
23 pages
1 Jour 1 Dictée Ce1
100% (6)
1 Jour 1 Dictée Ce1
84 pages
Fidéliser les clients par l'expédition
Pas encore d'évaluation
Fidéliser les clients par l'expédition
10 pages
Rapport Rse: Façade Maritime Du Champ Triomphal
Pas encore d'évaluation
Rapport Rse: Façade Maritime Du Champ Triomphal
57 pages
Plan d'apprentissage français 2020/21
Pas encore d'évaluation
Plan d'apprentissage français 2020/21
39 pages
Compte Rendu Objectif Et Critique 3as Avec Applications
100% (2)
Compte Rendu Objectif Et Critique 3as Avec Applications
7 pages
Modélisation de la Programmation Linéaire
Pas encore d'évaluation
Modélisation de la Programmation Linéaire
32 pages
Évaluation Maths CE2 : Bâtiments et Géométrie
Pas encore d'évaluation
Évaluation Maths CE2 : Bâtiments et Géométrie
7 pages
CALD-EAB Tunisie 2023
Pas encore d'évaluation
CALD-EAB Tunisie 2023
2 pages
Profession: Traducteur - Julie Vitrac
Pas encore d'évaluation
Profession: Traducteur - Julie Vitrac
13 pages
2ème Cours L'Écriture Féminine
100% (1)
2ème Cours L'Écriture Féminine
2 pages
66d9679464b5141b22b283e8 - Suivi Des Paiements Clients Et Des Relances - Modèle Excel BILLABEX Gratuit
Pas encore d'évaluation
66d9679464b5141b22b283e8 - Suivi Des Paiements Clients Et Des Relances - Modèle Excel BILLABEX Gratuit
20 pages
CEI-60044-1-ed1 - Copie
Pas encore d'évaluation
CEI-60044-1-ed1 - Copie
18 pages
Comprendre Champ Magnetique
Pas encore d'évaluation
Comprendre Champ Magnetique
17 pages
Régression Linéaire et Descente de Gradient
Pas encore d'évaluation
Régression Linéaire et Descente de Gradient
6 pages
Introduction à la sociologie de la santé
Pas encore d'évaluation
Introduction à la sociologie de la santé
7 pages
Analyse des ressources d'entreprise
Pas encore d'évaluation
Analyse des ressources d'entreprise
9 pages
Merci 1 CA
33% (3)
Merci 1 CA
10 pages
Processus de Formation Ou D'entraînement Des Ressources Humaines
Pas encore d'évaluation
Processus de Formation Ou D'entraînement Des Ressources Humaines
6 pages
Étude de cas : Guichet Automatique de Banque
Pas encore d'évaluation
Étude de cas : Guichet Automatique de Banque
16 pages
Conseils et Exos pour Brevet Blanc
Pas encore d'évaluation
Conseils et Exos pour Brevet Blanc
4 pages
Une Discipline Excessive, Balzac
Pas encore d'évaluation
Une Discipline Excessive, Balzac
1 page
Formation BTP pour Jeunes Bacheliers
Pas encore d'évaluation
Formation BTP pour Jeunes Bacheliers
2 pages
10-Expression de La Conscience Sanitaire
Pas encore d'évaluation
10-Expression de La Conscience Sanitaire
29 pages
RAPPORT Youmsi Jonas Corigé
Pas encore d'évaluation
RAPPORT Youmsi Jonas Corigé
48 pages