TP02 - Data Preprocessing
Le but de ce TP est de familiariser les étudiants avec les étapes essentielles du prétraitement des
données dans le cadre de l'analyse de données et de la construction de modèles de machine learning.
1-Trouver les variables manquantes
1.1-Lisez l'ensemble de données titanic_survival.csv et affichez les premières lignes de l'ensemble de
données pour observer sa structure.
Utilisez pandas.read_csv() pour charger les données.
Utilisez head() pour visualiser les premières lignes.
1.2-Quelle est la taille de ce dataset, les caractéristiques et la variable cible ? Y a-t-il des données
manquantes ?
1.3-Compter le nombre de valeurs dans la colonne age possédant des valeurs manquantes :
Assigner à la variable age la colonne des âges du dataframe titanic_survival
Utiliser [Link]() sur la variable age pour créer une Series de valeurs True et False
Utiliser la Series résultante pour sélectionner seulement les éléments de la colonne age qui sont
nuls et assigner le résultat à la variable missing_values
Assigner le nombre de valeurs manquantes de missing_values à la variable
missing_values_count (fonction len())
Afficher missing_values_count pour voir le nombre de valeurs manquantes de la colonne age.
1.4-Faire de même avec la colonne 'cabin' avec l’instruction isnull().sum()
1.5-Compter les valeurs manquantes pour chaque colonne.
1.6-Discuter l’importance de gérer les données manquantes et les différents moyens de le faire.
2- Gérer les variables manquantes
2.1 Supprimer les lignes contenant des valeurs manquantes dans la colonne 'embarked'.
2.2 Supprimer la colonne 'cabin' du dataset.
2.3 Imputer les valeurs manquantes:
Imputation des variables numériques : Remplacer les valeurs manquantes de la colonne 'age' par
la moyenne des âges.
Imputation des variables catégoriques : Remplacer les valeurs manquantes de la colonne
'embarked' par la valeur la plus fréquente (mode). (Utilisez la stratégie 'most_frequent')
3- Gérer les variables catégoriques
3.1 En considérant la variable 'embarked' comme indépendante, appliquez l'encodage nécessaire (par
exemple, LabelEncoder ou OneHotEncoder) pour remplacer la colonne 'embarked' d'origine dans le
DataFrame Titanic par les nouvelles colonnes encodées. Écrivez le code nécessaire pour effectuer cette
opération et expliquez pourquoi l'encodage choisi est important pour cette variable.
3.2 En considérant la variable sex comme dépendante, appliquez l'encodage nécessaire à cette colonne
pour qu'elle puisse être utilisée dans un modèle de machine learning.