Dans le cours : Développer une solution big data avec Azure
Accédez au cours complet aujourd’hui
Inscrivez-vous aujourd’hui pour accéder à plus de 24 700 cours dispensés par des experts.
Supprimer des lignes de données dupliquées - Tutoriel Azure
Dans le cours : Développer une solution big data avec Azure
Supprimer des lignes de données dupliquées
Dans la vidéo précédente, nous avons commencé à développer un pipeline, dans lequel nous avons chargé notre jeu de données data_01 et nous avons utilisé le module Clean Missing Data afin de remplacer les valeurs manquantes avec la valeur moyenne des variables concernées. Nous avons vu que la valeur manquante de notre dataset avait été remplacée par la valeur moyenne de la variable Total_1. Nous allons continuer nos opérations de nettoyage de données et, cette fois, nous allons supprimer les lignes qui sont identiques, les lignes dupliquées de notre jeu de données. Pour rappel, si je visualise mon jeu de données, les deux premières lignes sont exactement les mêmes. Les deux premières lignes sont identiques. On peut supposer que cela est une erreur commise lors du chargement des données dans le fichier initial à partir duquel j'ai chargé mon dataset. Peu importe d'où provient cette erreur, moi dans mon dataset j'aimerais ne pas avoir des lignes qui seraient complètement identiques. En…
Entraînez-vous tout en suivant la formation avec les fichiers d’exercice.
Téléchargez les fichiers utilisés par l’instructeur pour enseigner le cours. Suivez attentivement et apprenez en regardant, en écoutant et en vous entraînant.
Table des matières
-
-
-
-
-
Créer son espace de travail Azure Machine Learning3 m 37 s
-
(Verrouillé)
Découvrir l'environnement de travail Machine Learning Service4 m 52 s
-
(Verrouillé)
Comprendre le cycle de vie d'une expérimentation Machine Learning5 m 32 s
-
(Verrouillé)
Charger les données d'entraînement3 m 28 s
-
(Verrouillé)
Définir les données d'entraînement4 m 42 s
-
(Verrouillé)
Charger les données dans un pipeline5 m 8 s
-
(Verrouillé)
Nettoyer les données et remplacer des valeurs manquantes5 m 54 s
-
(Verrouillé)
Supprimer des lignes de données dupliquées5 m 41 s
-
(Verrouillé)
Détecter les valeurs aberrantes dans un jeu de données5 m 51 s
-
(Verrouillé)
Sélectionner des données5 m 29 s
-
(Verrouillé)
Entraîner un modèle5 m 6 s
-
(Verrouillé)
Évaluer un modèle prédictif4 m 3 s
-
(Verrouillé)
Aller plus loin dans l'évaluation du modèle4 m 54 s
-
(Verrouillé)
Configurer et déployer un modèle3 m 38 s
-
(Verrouillé)
Poursuivre la configuration du pipeline d'inférence6 m 11 s
-
(Verrouillé)
Finaliser la configuration du pipeline3 m 53 s
-
(Verrouillé)
Déployer son service web2 m 49 s
-
(Verrouillé)
Tester le service web déployé5 m 30 s
-
(Verrouillé)
Faire le point sur l'environnement Azure Machine Learning Studio4 m 21 s
-
-
-