TP Analyse en Composantes Principales

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

155 vues3 pages

TP Analyse en Composantes Principales

Transféré par

Neila Hochlef

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

ACP : Analyse en Composantes Principales avec pyton

Introduction :
L’analyse en composantes principales (ACP),ou principal component analysis (PCA) en anglais, permet
d’analyser et de visualiser un jeu de données contenant des individus décrits par plusieurs variables
quantitatives.
C’est une méthode statistique qui permet d’explorer des données dites multivariées (données avec
plusieurs variables). Chaque variable pourrait être considérée comme une dimension différente. Si vous
avez plus de 3 variables dans votre jeu de données, il pourrait être très difficile de visualiser les données
dans une “hyper-espace” multidimensionnelle.
L’analyse en composantes principales est utilisée pour extraire et visualiser les informations importantes
contenues dans une table de données multivariées. L’ACP synthétise cette information en seulement
quelques nouvelles variables appelées composantes principales. Ces nouvelles variables correspondent
à une combinaison linéaire des variables originels. Le nombre de composantes principales est inférieur ou
égal au nombre de variables d’origine.
En d’autres termes, l’ACP réduit les dimensions d’une donnée multivariée à deux ou trois composantes
principales, qui peuvent être visualisées graphiquement, en perdant le moins possible d’information.
Le principe de l’ACP est de projeter les données sur des axes principales en cherchant à minimiser la
distance entre les points du nuage et leurs projetions. De cette façon on réduit la dimension de notre
dataset tout en préservant au maximum la variance de nos données.
L’information contenue dans le jeu de données correspondera à la variance ou l’inertie totale qu’il
contient. L’objectif de l’ACP est d’identifier les directions (i.e., axes principaux ou composantes
principales) le long desquelles la variation des données est maximale.
ACP : la pratique
Pour faire de l’ACP, nous allons utiliser le tableau de données décathlon qui contient les performances
réalisées par des athlètes aux compétitions olympiques de décathlon.
Vous pouvez charger le jeu de données depuis l'URL suivante
: [Link]
1. Présentation Des Données :
Le tableau de données contient 41 lignes et 13 colonnes.
Les colonnes 1 à 12 sont des variables continues: les dix premières colonnes correspondent aux
performances des athlètes pour les dix épreuves du décathlon et les colonnes 11 et 12 correspondent
respectivement au rang et au nombre de points obtenus. La dernière colonne est une variable qualitative
correspondant au nom de la compétition.
Nous allons faire une ACP des dix variables décrivant les performances à chacune des épreuves du
décathlon (100 mètres, saut en longueur, lancer de poids, saut en hauteur, 400 mètres, 110 mètres
haies, lancer de disque, saut à la perche, javelot, et 1500 mètres).
2. Objectifs De L’étude :
L'ACP permet de décrire un jeu de données, de le résumer, d'en réduire la dimensionnalité.
L'ACP réalisée sur les individus du tableau de données répond à différentes questions :
a) Etude des individus (i.e. des athlètes) : deux athlètes sont proches s'ils ont des résultats
similaires. On s'intéresse à la variabilité entre individus. Y a-t-il des similarités entre les
individus pour toutes les variables ? Peut-on établir des profils d'athlètes ? Peut-on opposer un
groupe d'individus à un autre ?
b) Etude des variables (i.e. des performances) : on étudie les liaisons linéaires entre les
variables. Les objectifs sont de résumer la matrice des corrélations et de chercher des
variables synthétiques: peut-on résumer les performances des athlètes par un petit nombre de
variables ?
c) Lien entre les deux études : peut-on caractériser des groupes d'individus par des variables ?
3. La Démarche :
a- Importer les bibliothèques nécessaires : Pandas et Numpy pour la manipulation des
données, Seaborn et Matplotlib pour la visualisation de ces dernières et finalement le
module Sikit-learn pour l’algorithme ACP en question.
b- Charger le jeu de données puis afficher sa dimension, le nombre d’observation (individus),
les nombres des variables et enfin les 5 premières lignes
c- Préparation des données :
On étudie les profils d'ahtlètes uniquement en fonction de leur performance. Les variables actives ne
seront donc que celles qui concernent les dix épreuves du décathlon.
Les autres variables (« Rank », « Points » et « Competition ») n'appartiennent pas aux profils d'athlètes
et utilisent une information déjà donnée par les autres variables (dans le cas de « Rank »et « Points »)
mais il est intéressant de les confronter aux composantes principales. Nous les utiliserons comme
variables illustratives. Pour cela :
c-1) Eliminer les colonnes (les variables) que nous n'utiliserons pas.
Dans ce tableau de données, les variables ne sont pas mesurées dans les mêmes unités. On doit les
réduire de façon à donner la même influence à chacune, Pour cela :
c-2) Nous devons explicitement centrer et réduire les variables pour réaliser une ACP normée avec l’algorithme
PCA. Nous utilisons la classe StandardScaler pour ce faire.
Nous instancions l’objet et nous l’appliquons sur la matrice X. Nous obtenons une matrice Z.

est la moyenne de la variable xj et son écart-type.

c-3) Vérifions, par acquit de conscience, les propriétés du nouvel ensemble de données. Les moyennes sont
maintenant nulles (aux erreurs de troncature près). Et les écarts-type unitaires.
d- Nous sommes maintenant prés pour lancer l’ACP de « scikit-learn »:
d-1) Calculer et afficher les composantes principales.
Remarque :
 Le nombre de composantes (K) est par défaut égal au nombre de variables (K = p).
 La fonction fit_transform() renvoie en sortie les coordonnées factorielles Fik que nous collectons
d-2) Calculer la variance totale exprimée par les K composantes principales
Note :
L'attribut explained_variance_ratio_ de la classe PCA() renvoie un tableau numpy unidimensionnel qui
contient les valeurs du pourcentage de variance expliqué par chacun des composants sélectionnés.
La première composante capte à elle seule environ 32,71% de la variabilité dans l'ensemble de données et la
deuxième composante capte environ 17,37% de la variabilité dans l'ensemble de données, etc.
d-3) Calculer la somme cumulative des totales variances
d-3) Visualiser le graphique Variances _Composantes.
e- Appliquer PCA en définissant 2 composantes
f- Créez un nuage de points 2d des données en utilisant les valeurs des deux composants
principales.
g- Créer un nuage de points 3D des données en utilisant les valeurs des trois composants
principaux.
4. Contribution de chaque variable aux composantes principales
Pour mieux comprendre ce que capturent ces composantes principales, nous pouvons utiliser acp.components_,
qui nous donne les coordonnées des composantes principales dans l'espace initial (celui à 10 variables). Nous
allons afficher, pour chacune des 10 performances, un point dont l'abscisse sera sa contribution à la première
PC et l'ordonnée sa contribution à la deuxième PC
Résumé

L'ACP nous a permis de :

 représenter les données en deux dimensions ;

 établir des profils des athlètes ;
 mettre à jour des corrélations entre des variables.

Vous aimerez peut-être aussi

Analyse Et Prédiction Des Crises Cardiaques
Pas encore d'évaluation
Analyse Et Prédiction Des Crises Cardiaques
30 pages
Cours 2-ACP
Pas encore d'évaluation
Cours 2-ACP
49 pages
ACP : Guide d'Analyse Multivariée et Visualisation
Pas encore d'évaluation
ACP : Guide d'Analyse Multivariée et Visualisation
18 pages
Cahier Des Charges ML
Pas encore d'évaluation
Cahier Des Charges ML
3 pages
Compte Rendu: Mini Projet Compression & Stockage
Pas encore d'évaluation
Compte Rendu: Mini Projet Compression & Stockage
14 pages
Introduction à la régression linéaire
Pas encore d'évaluation
Introduction à la régression linéaire
71 pages
Machine Learning Preparation Des Donnéees
Pas encore d'évaluation
Machine Learning Preparation Des Donnéees
29 pages
TP STATISTIQUE: Intervalle de Confidence en Langage R
Pas encore d'évaluation
TP STATISTIQUE: Intervalle de Confidence en Langage R
2 pages
9 Observateur
Pas encore d'évaluation
9 Observateur
27 pages
AFC Sous Python Avec Scientisttools
100% (1)
AFC Sous Python Avec Scientisttools
18 pages
Exercices Python pour Étudiants TS
Pas encore d'évaluation
Exercices Python pour Étudiants TS
5 pages
Machine Learning - Partie 2 - Régression Logistique Et KNN
Pas encore d'évaluation
Machine Learning - Partie 2 - Régression Logistique Et KNN
37 pages
Cours Bootstrap C Huber Web
Pas encore d'évaluation
Cours Bootstrap C Huber Web
47 pages
Interrogation IA
Pas encore d'évaluation
Interrogation IA
10 pages
Apprendre Python avec Jupyter
Pas encore d'évaluation
Apprendre Python avec Jupyter
2 pages
Rapport Boston House
Pas encore d'évaluation
Rapport Boston House
41 pages
Data Mining tp.5 Régression Linéaire Multiple
Pas encore d'évaluation
Data Mining tp.5 Régression Linéaire Multiple
13 pages
Rapport de Projet Python.
Pas encore d'évaluation
Rapport de Projet Python.
9 pages
Analyse en Composantes Principales
Pas encore d'évaluation
Analyse en Composantes Principales
5 pages
Chap08.reduction Dimensions
Pas encore d'évaluation
Chap08.reduction Dimensions
40 pages
Data Mining
Pas encore d'évaluation
Data Mining
31 pages
Diagramme de Classe UML et Cardinalités
Pas encore d'évaluation
Diagramme de Classe UML et Cardinalités
5 pages
Formateur A BENDAOUD: Exercice1
Pas encore d'évaluation
Formateur A BENDAOUD: Exercice1
2 pages
Algorithme de Détection Et Suivi
Pas encore d'évaluation
Algorithme de Détection Et Suivi
47 pages
Résumé Du Cours de Machine Learning
Pas encore d'évaluation
Résumé Du Cours de Machine Learning
7 pages
Rapport Stage Lamme ABRAICH AYOUB
Pas encore d'évaluation
Rapport Stage Lamme ABRAICH AYOUB
97 pages
Cours Bases de Données ENSAM-MEknès AHMADI 2020 2021
Pas encore d'évaluation
Cours Bases de Données ENSAM-MEknès AHMADI 2020 2021
38 pages
TPPré-traitement Des Donnée
Pas encore d'évaluation
TPPré-traitement Des Donnée
23 pages
ACP Examen
Pas encore d'évaluation
ACP Examen
8 pages
TP Sur Regression Logistique
Pas encore d'évaluation
TP Sur Regression Logistique
4 pages
TD5 PDF
Pas encore d'évaluation
TD5 PDF
2 pages
Mini Projet Modele de Regression
Pas encore d'évaluation
Mini Projet Modele de Regression
3 pages
Compte-Rendu TP2 Big Data
Pas encore d'évaluation
Compte-Rendu TP2 Big Data
14 pages
File D Attente
Pas encore d'évaluation
File D Attente
43 pages
Méthodologie SIREME pour SIRS Spatiaux
100% (1)
Méthodologie SIREME pour SIRS Spatiaux
13 pages
Le Pare-Feu: Limites, Performances Et Meilleures Pratiques
Pas encore d'évaluation
Le Pare-Feu: Limites, Performances Et Meilleures Pratiques
37 pages
Chap1-Introduction Et Généralités Sur Les Statistiques-Red
Pas encore d'évaluation
Chap1-Introduction Et Généralités Sur Les Statistiques-Red
77 pages
Les Méthodes de Régression en Datamining
Pas encore d'évaluation
Les Méthodes de Régression en Datamining
30 pages
Exemple K Means Et HCA PDF
Pas encore d'évaluation
Exemple K Means Et HCA PDF
4 pages
Rapport PFE Complete
100% (1)
Rapport PFE Complete
13 pages
Parrallele Computing 4
100% (1)
Parrallele Computing 4
62 pages
Préparation et Transformation de Données pour Analyses Statistiques
100% (1)
Préparation et Transformation de Données pour Analyses Statistiques
2 pages
Correction TD 2
Pas encore d'évaluation
Correction TD 2
4 pages
Prévisions et Programmation Linéaire
Pas encore d'évaluation
Prévisions et Programmation Linéaire
18 pages
Cours sur l'Architecture SOA et XML
Pas encore d'évaluation
Cours sur l'Architecture SOA et XML
64 pages
TP 1 A Rendre
Pas encore d'évaluation
TP 1 A Rendre
6 pages
Tp5 PDF
Pas encore d'évaluation
Tp5 PDF
2 pages
Normalisation du modèle relationnel
Pas encore d'évaluation
Normalisation du modèle relationnel
7 pages
Examen 2018-2019
Pas encore d'évaluation
Examen 2018-2019
13 pages
Presentation Couchdb
Pas encore d'évaluation
Presentation Couchdb
19 pages
Memoire Hajji - Moujahed PDF
Pas encore d'évaluation
Memoire Hajji - Moujahed PDF
56 pages
Introduction à Python pour Ingénieurs
Pas encore d'évaluation
Introduction à Python pour Ingénieurs
25 pages
Étude de cas MCW - Examen 2019
Pas encore d'évaluation
Étude de cas MCW - Examen 2019
18 pages
Cours Op Tim Multi
Pas encore d'évaluation
Cours Op Tim Multi
59 pages
Analyse Statistique Descriptive
Pas encore d'évaluation
Analyse Statistique Descriptive
13 pages
Résumé Acp
100% (1)
Résumé Acp
35 pages
Acp
100% (1)
Acp
20 pages
CHAPITRE3
Pas encore d'évaluation
CHAPITRE3
28 pages
Introduction à l'Analyse en Composantes Principales
Pas encore d'évaluation
Introduction à l'Analyse en Composantes Principales
14 pages
Analyse en Composantes Principales (ACP)
Pas encore d'évaluation
Analyse en Composantes Principales (ACP)
9 pages
Comment Héberger Un Site Web Facilement en 8 Étapes
Pas encore d'évaluation
Comment Héberger Un Site Web Facilement en 8 Étapes
10 pages
Guide WooCommerce: Ajouter et Gérer des Produits
Pas encore d'évaluation
Guide WooCommerce: Ajouter et Gérer des Produits
25 pages
Data Cleaning: Nettoyage de Données Avec Python
100% (1)
Data Cleaning: Nettoyage de Données Avec Python
5 pages
ACP: Analyse En-Composantes Principales-Les Etapes
100% (1)
ACP: Analyse En-Composantes Principales-Les Etapes
3 pages
Contenu Audio Et vidéo-HTML5
Pas encore d'évaluation
Contenu Audio Et vidéo-HTML5
5 pages
KMeans Notion de Distance Et Initialisation
Pas encore d'évaluation
KMeans Notion de Distance Et Initialisation
7 pages
Propriétés CSS : Guide Complet et Concis
Pas encore d'évaluation
Propriétés CSS : Guide Complet et Concis
6 pages
En Jesucristo Martir de Paz Medley - Violín 1
Pas encore d'évaluation
En Jesucristo Martir de Paz Medley - Violín 1
3 pages
PCMterm Seq11 Exercices
Pas encore d'évaluation
PCMterm Seq11 Exercices
6 pages
Guide d'Utilisation Breitling
Pas encore d'évaluation
Guide d'Utilisation Breitling
46 pages
Adiós BAJO - Bajo+TAB
Pas encore d'évaluation
Adiós BAJO - Bajo+TAB
2 pages
Pix - Bilan 4
Pas encore d'évaluation
Pix - Bilan 4
6 pages
Tri par insertion et sélection en C
Pas encore d'évaluation
Tri par insertion et sélection en C
4 pages
En Ville.2 PDF
Pas encore d'évaluation
En Ville.2 PDF
1 page
L'amitié : un lien essentiel et pur
Pas encore d'évaluation
L'amitié : un lien essentiel et pur
1 page
Tribune de La Capitale TBC 2630
Pas encore d'évaluation
Tribune de La Capitale TBC 2630
12 pages
Ebook 2 HIT Au Poids de Corps (79315)
100% (2)
Ebook 2 HIT Au Poids de Corps (79315)
101 pages
Feliz Navidad
Pas encore d'évaluation
Feliz Navidad
6 pages
Les Consoles de Mixage V2
100% (1)
Les Consoles de Mixage V2
5 pages
Partition du Canon de Pachelbel
Pas encore d'évaluation
Partition du Canon de Pachelbel
2 pages
Bach Concerto in D BWV 972 PDF
Pas encore d'évaluation
Bach Concerto in D BWV 972 PDF
15 pages
DKM186 Loisirs
Pas encore d'évaluation
DKM186 Loisirs
3 pages
NEET MODEL - 11-SET A - Key
Pas encore d'évaluation
NEET MODEL - 11-SET A - Key
1 page
Le Jeu de Position Dans Le Football - Stratégies Pour Le Contrôle Des Balles Et L'espace Grâce À La Compréhension Collect - FutbolLab
Pas encore d'évaluation
Le Jeu de Position Dans Le Football - Stratégies Pour Le Contrôle Des Balles Et L'espace Grâce À La Compréhension Collect - FutbolLab
5 pages
PC SVT
Pas encore d'évaluation
PC SVT
3 pages
Direction artistique de Deus Ex: Human Revolution
Pas encore d'évaluation
Direction artistique de Deus Ex: Human Revolution
40 pages
Atencioso
Pas encore d'évaluation
Atencioso
1 page
Musique Et Sport - Fiche 1
100% (1)
Musique Et Sport - Fiche 1
1 page
FicheMGRQII Voleur
Pas encore d'évaluation
FicheMGRQII Voleur
1 page
Table des valeurs de la distribution t
Pas encore d'évaluation
Table des valeurs de la distribution t
2 pages
Plan de Cours de Volley-Ball
Pas encore d'évaluation
Plan de Cours de Volley-Ball
45 pages
Feuille de Joueur
Pas encore d'évaluation
Feuille de Joueur
3 pages
Dont Start Now
Pas encore d'évaluation
Dont Start Now
2 pages
F71 - Frein A Main Hydraulique
Pas encore d'évaluation
F71 - Frein A Main Hydraulique
10 pages
Projet R+3 BONABERI - Notes de Calculs
100% (3)
Projet R+3 BONABERI - Notes de Calculs
70 pages
Cas A3
Pas encore d'évaluation
Cas A3
5 pages
Séquence Numérique Répétitive
Pas encore d'évaluation
Séquence Numérique Répétitive
1 page