Dans le cours : Développer une solution big data avec Azure

Accédez au cours complet aujourd’hui

Inscrivez-vous aujourd’hui pour accéder à plus de 24 700 cours dispensés par des experts.

Supprimer des lignes de données dupliquées

Supprimer des lignes de données dupliquées

Dans la vidéo précédente, nous avons commencé à développer un pipeline, dans lequel nous avons chargé notre jeu de données data_01 et nous avons utilisé le module Clean Missing Data afin de remplacer les valeurs manquantes avec la valeur moyenne des variables concernées. Nous avons vu que la valeur manquante de notre dataset avait été remplacée par la valeur moyenne de la variable Total_1. Nous allons continuer nos opérations de nettoyage de données et, cette fois, nous allons supprimer les lignes qui sont identiques, les lignes dupliquées de notre jeu de données. Pour rappel, si je visualise mon jeu de données, les deux premières lignes sont exactement les mêmes. Les deux premières lignes sont identiques. On peut supposer que cela est une erreur commise lors du chargement des données dans le fichier initial à partir duquel j'ai chargé mon dataset. Peu importe d'où provient cette erreur, moi dans mon dataset j'aimerais ne pas avoir des lignes qui seraient complètement identiques. En…

Table des matières