Analyse en Composantes Principales
Analyse en Composantes Principales
DÉPARTEMENT DE MATHÉMATIQUES
MASTER en Mathématiques
Option : Statistique
Par
MANSOURI Hanane
Titre :
Analyse en Composantes Principales
(ACP)
Membres du Comité d’Examen :
Juin 2019
Dédicace
Pour son grand amour, ses sacri…ces et toute l’a¤ection qu’elle m’a toujours o¤erte
A mes sœurs
Fouzia Chahinaz Hadjer Ahlam Narimane
Mansouri Hanane.
i
Remerciements
Je tiens à remercier avec ma plus grande gratitude mon encadreur : Benelmir Imen pour
la suivi et l’aide qu’elle m’a apporté pour l’élaboration et pour ses précieux conseils et ses
aides durant toute la période du [Link] ce mémoire.
Je tiens aussi remerciement à l’ensemble des enseignants de département de mathématique
Je remercie les membres du jury :
Benameur Sana et Dhiabi Samra
En…n, je tiens également à remercier toutes les personnes qui ont participé de prés ou de
loin à la réalisation de ce travail.
Merci à Tous.
ii
Table des matières
Dédicace i
Remerciements ii
Introduction 1
1 Préliminaires 3
1.1 Données et leurs caractéristiques . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.1 Tableau des données . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.2 Individus et variables . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.3 Types de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.4 Matrice des poids . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.5 Centre de gravité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.1.6 Standardisation du tableau . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.7 Matrice de variance-covariance . . . . . . . . . . . . . . . . . . . . . . 9
1.1.8 Matrice de corrélation . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2 Nuage de points (individus) . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2.1 Ressemblance entre deux individus . . . . . . . . . . . . . . . . . . . 11
iii
Table des matières
1.2.2 Métrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.2.3 Inertie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.3 Nuage de points (variables) . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.3.1 Liaison entre deux variables . . . . . . . . . . . . . . . . . . . . . . . 15
1.3.2 Métrique des variables . . . . . . . . . . . . . . . . . . . . . . . . . . 16
Conclusion 31
Annexe A : Logiciel R 32
Bibliographie 43
iv
Table des …gures
v
Liste des tableaux
vi
Introduction
L
’analyse des données est un sous domaine des statistiques qui se préoccupe de la
description des données conjointes. On cherche par ces méthodes à donner les liens
pouvant exister entre les di¤érents données ainsi qu’à en tirer une information statistique qui
sert à décrire les principales informations contenues dans ces dernières.
L’analyse en composantes principales est un grand classique de l’analyse des données qu’on
note par la suite ACP ou principal component analysis (PCA) en anglai. C’est une méthode
statistique multivariée proposée sous forme d’un tableau rectangulaire des données compor-
tant les valeurs des variables quantitatives pour un ensemble individus qui sont utilisés pour
résumer et visualiser l’information contenue dans ces données procurant ainsi des représen-
tations géométriques de ces individus et de ces variables.
L’objectif de l’Analyse en Composantes Principales est de réduire la dimension d’un espace
en essayant de déformer le moins possible les critères à la réalité. Il s’agit donc d’obtenir le
résumé le plus pertinent possible des données initiales.
Le but de ce travail est de présenter et de faire une description de l’ACP, toutes expliquant
comment résoudre le problème de la représentation des données étudier les relations existantes
entre les individus par l’évaluation de leurs ressemblances, ainsi que les relations entre les
variables par l’évaluation de leurs liaisons. Ce travail ce devise en deux chapitres :
chapitre1 : On va présenter quelques dé…nitions, proposition, propriétés...ect. En d’autres
termes, on va faire une description des données et leurs caractéristiques, les données traitées
sont des individus et des variables quantitatives.
chapitre2 : On va traiter l’ACP en expliquant le principe de cette méthode avec ces éléments
et ces caractéristiques. On a aussi essayé d’interprète les résultats de l’ACP.
1
Introduction
On achève ce travail par une application faite est sur des données réelles "La température
mensuelle de 15 villes de France sur 30 ans" sous logiciel R.
2
Chapitre 1
Préliminaires
L’analyse des données (aussi appelée analyse exploratoire des données ou AED) est une famille
de méthodes statistiques dont les principales caractéristiques sont d’être multidimensionnelles
et descriptives permettant de traiter un nombre très important de données et de dégager les
aspects les plus intéressants de la structure de celles-ci. Dans ce chapitre, on s’intéresse
d’abord à la description de ces données ainsi qu’à leurs caractéristiques comme le tableau
des données, puis on dé…nit les individus, les variables, la matrice des poids, le centre de
gravité...ect.
Avant tout travail, on doit procéder au préliminaires, dont le tableau des données les individus
les variables et autres.
Chaque tableau contient des lignes qui représentent les individus et des colonnes qui re-
présentent les variables. Ce tableau rectangulaire (matrice) qu’on note par X possède des
3
Chapitre 1. Preliminaires
2 3
x11 : : : x1p
6 7
6 7
6 : : 7
6 7
6 7
X=6
6 : xij :
7 2 MR (n; p) ;
7
6 7
6 7
6 : : 7
4 5
xn1 : : : xnp
Dé…nition 1.1.1 (Individu) Le ieme individu est un vecteur à p composantes réelles qu’on
le note par ei tel que
ei = (xi1 ; xi2 ; :::; xip )t 2 Rp ; pour i = 1; n:
Dé…nition 1.1.2 (Variable) La j eme variable est la liste des n valeurs qui elle prend sur n
individus, on la note par xj tel que
Il existe deux types des variables : les variables quantitatives (ce qui est dans notre cas) et
les variables qualitatives.
Dé…nition 1.1.3 (Variable quantitative) En statistique, une variable quantitative est une
variable qui re‡ète une notion de grandeur, c’est-à-dire (i.e) si les valeurs qu’elle peut prendre
sont des nombres. Une grandeur quantitative est souvent exprimée avec une unité de mesure
qui sert de référence.
4
Chapitre 1. Preliminaires
Dé…nition 1.1.4 (Variable qualitative) En statistique, une variable qualitative est une
variable catégorielle (facteur) qui prend pour valeur des modalités (catégories, niveaux), par
opposition aux variables quantitatives qui mesurent sur chaque individu une quantité.
Exemple 1.1.1 Les observations suivantes représente les mesurés quotidiennes de trois va-
riables indicatrices : la taille, le poids et l’âge de cinq personnes dans une certaine ville. Les
résultats sont représentés dans le tableau X avec n = 5 et p = 3
2 3
1:69 77:85 22
6 7
6 7
6 1:53 55:10 21 7
6 7
6 7
6
X = 6 1:62 76:55 19 7
7 2 MR (5; 3) ;
6 7
6 7
6 1:53 62:69 25 7
4 5
1:68 58:00 21
Si les données ont été recueillies d’un tirage aléatoire, alors les probabilités de ces n individus
1
ont toutes la même importance i.e égale à , or ceci n’est pas toujours le cas. Dans le cas
n
contraire, il est utile de travailler avec des poids qu’on note par pi pour les di¤érents individus
où ces derniers sont regroupés dans une matrice diagonale de taille n notée D appelée matrice
des poids. Elle est dé…nit comme suit :
2 3
6 p1 : : : 0 7
6 7
6 : : 7 X
n
6 7
D=6 7 ; avec pi 0 et pi = 1:
6 : : 7
6 7 i=1
4 5
0 : : : pn
5
Chapitre 1. Preliminaires
1
D= In :
n
Preuve.
P
n
Comme on a p1 = p2 = :::pi = ::: = pn et pi = 1 alors
i=1
P
n P
n
pi = p1
i=1 i=1
P
n
= p1 1
i=1
= p1 n
= 1:
Par conséquent
1
p1 = pi = :
n
Et2 1 3 2 3
::: 0
6 n 7 6 1 ::: 0 7
6 7 6 7
6 : : 7 16 : : 7
6 7 6 7 1
D=6 7= 6 7 = In :
6 : 7
: 7 n 6 : : 7 n
6 6 7
4 5 4 5
1
0 ::: 0 ::: 1
n
C’est le vecteur des moyennes arithmétiques de chaque variable, on le note par g qu’on appelle
aussi individu moyen ou point moyen. Il est dé…nit par :
g = (x1 ; x2 ; :::; xp )t 2 Rp ;
1P n
où xj = xij :
n i=1
La forme matricielle :
g = X t D1n :
6
Chapitre 1. Preliminaires
Preuve. 2 32 32 3
6 x11 : : : xn1 7 6 p1 : : : 0 76 1 7
6 76 76 7
6 : : 7 6 : 7 6 : 7
6 76 : 76 7
X t D1n =6 76 76 7
6 : : : 7 6 : 7 6 : 7
6 76 : 76 7
4 54 54 5
x1p : : : xnp 0 ::: pn 1
2 Pn 3 2 3
px
6 i=1 i i1 7 6 x1 7
6 7 6 7
6 7 6
6 : 7 6 : 7 7
=6
6
7=6
7 6 7 = g:
6 : 7 6 : 7 7
6 7 4 5
4 Pn 5
pi xip xp
i=1
Dans l’analyse en composantes principales les variables sont souvent normalisées. Ceci est
particulièrement recommandé lorsque les variables sont mesurées dans di¤érentes unités par
exemple : (kilogrammes, kilomètres, centimètres, ...ect) ; sinon, le résultat de l’analyse obtenue
sera fortement a¤ecté.
L’objectif est de rendre les variables comparables. Généralement, les variables sont normali-
sées de manière à ce qu’elles aient au …nal
yij = xij xj :
La forme matricielle :
Y =X 1n g t :
7
Chapitre 1. Preliminaires
Preuve. 2 3 2 3
6 x11 : : : x1p 7 6 1 7
6 7 6 7
6 : : 7 6 : 7
6 7 6 7
X 1n g t =6 7 6 7 (x1 ; x2 ; :::; xp )
6 : : 7 6 : 7
6 7 6 7
4 5 4 5
xn1 : : : xnp 1
2 3 2 3
6 x11 x1 : : : x1p xp 7 6 y11 : : : y1p 7
6 7 6 7
6 : : 7 6 : : 7
6 7 6 7
=6 7=6 7 = Y:
6 : : 7 6 : 7
6 7 6 : 7
4 5 4 5
xn1 x1 : : : xnp xp yn1 : : : ynp
yij
Z= :
sj
1P n
Avec : s2j = (xij xj )2 .
n i=1
La forme matricielle :
Z = Y D1=s :
Avec : 2 3
6 1=s1 : : : 0 7
6 7
6 : : 7
6 7
D1=s =6 7:
6 : : 7
6 7
4 5
0 : : : 1=sp
8
Chapitre 1. Preliminaires
Preuve. 2 32 3
6 y11 : : : y1p 7 6 1=s1 : : : 0 7
6 76 7
6 : : 76 : : 7
6 76 7
Y D1=s =6 76 7
6 : 7 6
: 76 : : 7
6 7
4 54 5
yn1 : : : ynp 0 : : : 1=sp
2 3 2 3
6 y11 =s1 : : : y1p =sp 7 6 z11 : : : z1p 7
6 7 6 7
6 : : 7 6 : : 7
6 7 6 7
=6 7=6 7 = Z:
6 : : 7 6 : : 7
6 7 6 7
4 5 4 5
yn1 =s1 : : : ynp =sp zn1 : : : znp
C’est l’ensemble des variances et des covariances, regroupées dans un tableau noté S de terme
général :
X
n
S
jj 0 = cov(xj ; x ) =
j0 pi (xij xj )(xij 0 xj 0 ); pour j; j 0 = 1; p:
i=1
2 3
6 s21
: : : s1p 7
6 7
6 : : 7
6 7
S=6 7:
6 : : 7
6 7
4 5
2
sp1 : : : sp
La forme matricielle :
S = Y t DY = X t DX gg t :
1 t 1
S= Y Y = X tX gg t :
n n
9
Chapitre 1. Preliminaires
Preuve.
On a
Y =X 1n g t ; alors
t
S = (X 1n g t ) D (X 1n g t )
= X t DX X t D1n g t g1tn DX + g1tn D1n g t
P
n
= X t DX gg t gg t + gg t ; car 1tn D1n = pi = 1
i=1
= X t DX gg t :
C’est l’ensemble des coe¢ cients de corrélation, regroupés dans un tableau noté par R dont
les termes diagonaux valent 1: Chaque élément rjj 0 est dé…ni par :
sjj 0
rjj 0 = :
sj sj 0
2 3
6 1 : : : r1p
7
6 7
6 : : 7
6 7
R=6 7:
6 : : 7
6 7
4 5
rp1 : : : 1
La forme matricielle :
R = D1=s SD1=s = Z t DZ:
Preuve.
On montre d’abord que R = D1=s SD1=s On a
10
Chapitre 1. Preliminaires
2 32 32 3
2
6 1=s 1 : : : 0 76 1 s : : : s1p
7 6 1=s1 ::: 0 7
6 76 76 7
6 : : 7 6 : 7 6 7
6 76 : 76 : : 7
D1=s SD1=s =6 76 76 7
6 : : 7 6 : 7 6 7
6 76 : 76 : : 7
4 54 54 5
0 : : : 1=sp sp1 : : : s2p 0 : : : 1=sp
2 3 2 3
6 1 : : : s1p =s1 sp 7 6 1 : : : r1p 7
6 7 6 7
6 : : 7 6 : : 7
6 7 6 7
=6 7=6 7 = R:
6 : : 7 6 : : 7
6 7 6 7
4 5 4 5
sp1 =sp s1 : : : 1 rp1 : : : 1
Ensuite, on montre que Z t DZ = R: On a
t
Z t DZ = Y D1=s D Y D1=s
= D1=s Y t DY D1=s
= D1=s SD1=s
= R:
Remarque 1.1.1
R et S sont des matrices carrées symétriques d’ordre p. Comme il ya p variables cela nous
p (p 1)
conduit donc à calculer corrélations.
2
Chaque individu étant un point dé…ni par p coordonnées est considéré comme un vecteur
d’un espace vectoriel dé…ni dans Rp appelé l’espace des individus. L’ensemble des n individus
est un nuage de points appelé nuage des individus.
Deux individus se ressemblent d’autant plus qu’ils possèdent des valeurs proches pour l’en-
semble des variables. On exprime la ressemblance par la distance qui est égale à :
p
X
2
d (ei ; ei0 ) = (xij xi0 j )2 ; pour i; i0 = 1; n:
j=1
11
Chapitre 1. Preliminaires
1.2.2 Métrique
En physique, la distance entre deux points dans l’espace se calcule facilement par la formule
de Pythagore : le carré de la distance est la somme des carrées des di¤érences des coordonnées,
car les dimensions sont de même nature (unité). Mais en statistique il n’en est pas de même,
car chaque dimension correspond à un caractère qui s’exprime avec sa propre unité.
On particulier, pour résoudre ce problème on dé…nie la distance entre deux individus ei et
ei0 sous la forme quadratique suivante :
Les métriques les plus utilisées sont les métriques diagonale qui sont Ip et D1=s2 .
Ip : représente la matrice identité d’ordre p, et
2 3
6 1=s21 ::: 0 7
6 7
6 : : 7
6 7
D1=s2 =6 7:
6 : : 7
6 7
4 5
0 : : : 1=s2p
Ce qui revient à diviser chaque caractère par son écart-type. Ceci a pour avantage que la
distance entre deux individus ne dépend plus des unités de mesure ce qui est très utile lorsque
les variables ne s’expriment pas avec les mêmes unités.
Remarque 1.2.1
On utilise la métrique D1=s2 pour le tableau Y et la métrique Ip pour le tableau Z:
12
Chapitre 1. Preliminaires
Preuve.
On a
Le ieme individu du tableau Y est eyi = (yi1 ; :::; yip )t 2 Rp :
Le ieme individu du tableau Z est ezi = (zi1 ; :::; zip )t 2 Rp :
heyi ; eyi iD1=s2 = (eyi )t D1=s2 eyi
2 2
yi1 yip
= s1
+ ::: + sp
P
p
yij
2
= sj
j=1
Pp
= (zij )2
j=1
Pp
zij 2
= 1
j=1
= (ezi )t Ip ezi
= hezi ; ezi iIp :
1.2.3 Inertie
On appelle inertie totale du nuage de points, la moyenne des carrées des distances des n
points au centre de gravité g. Elle est exprimée comme ceci :
X
n
Ig = pi d2M (ei ; g):
i=1
X
n X
n X
n
Ig = pi kei gk2M = pi hei g; ei giM = pi (ei g)t M (ei g) :
i=1 i=1 i=1
Remarque 1.2.2
X
n
Ia = pi d2M (ei ; a):
i=1
13
Chapitre 1. Preliminaires
2. Si g = 0; on a
X
n X
n
Ig = pi kei k2M = pi eti M ei :
i=1 i=1
3. Formule de huyghens :
Ia = Ig + kg ak2M :
4.
Ig = tr (M S) = tr (SM ) :
P
n
Démonstration de la 3ieme remarque. Puisque Ia = pi hei a; ei aiM alors
i=1
= 0:
14
Chapitre 1. Preliminaires
P
n
= tr(pi M (ei g)(ei g)t ); car tr (AB) = tr (BA)
i=1
P
n
= tr M pi (ei g)(ei g)t
i=1
= tr (M S) :
Proposition 1.2.1
p
X
Ig = Sj2 :
j=1
Ig = p:
Chaque variable est associée à une suite de n nombres, elle peut être représentée comme un
vecteur d’un espace dé…ni dans Rn appelé espace des variables. L’ensemble des p variables
constitue un nuage de points appelé nuage des variables.
Le coe¢ cient rjj 0 de corrélation mesure la liaison entre deux variables xj et xj 0 , qui prend ses
valeurs dans [ 1; 1]
!
1X
n
cov (xj ; xj 0 ) xij xj xij 0 xj 0
r (xj ; xj 0 ) = p = ; pour j; j 0 = 1; p:
var (xj ) var (xj 0 ) n i=1 sj sj 0
Avec :
P
n P
n
cov (xj ; xj 0 ) = (xij xj ) xij 0 xj 0 , xj = 1
n
xij et s2j = 1
n
(xij xj )2 .
i=1 i=1
15
Chapitre 1. Preliminaires
Pour étudier la proximité des caractères entre eux, il faut munir cet espace d’une métrique,
i.e trouver une matrice symétrique d’ordre n dé…nie positive. Ici il n’y a pas d’hésitation
comme pour l’espace des individus et le choix se porte sur la matrice diagonale des poids D
pour les raisons suivantes :
X
n
0
hxj ; x iD =
j0 xtj Dxj 0 = pi xij xij 0 , pour j; j = 1; p:
i=1
n’est autre que la matrice de covariance Sjj 0 ; car les caractères sont centrés.
k xj k2D = Sj2 :
3. Dans un espace euclidien on dé…nit l’angle jj 0 entre deux vecteurs par son cosinus qui
est égal au quotient du produit scalaire par le produit des normes des deux vecteurs :
hxj ; xj 0 iD Sjj 0
cos jj 0 = = = r (xj ; xj 0 ) :
k xj k D k xj 0 k D Sj Sj 0
Remarque 1.3.1
1. Dans l’espace des individus on s’intéresse aux distances entre points par contre, dans
l’espace des variables on s’intéresse aux l’angle entre vecteurs.
2. Pour les données du tableaux standard Z le nuage des variables se trouve sur une hyper
sphère de rayon égale à 1 car k zj kD = sjj 0 = 1; pour j = 1; p:
16
Chapitre 2
L’analyse en composantes principales notée ACP est une méthode d’analyse statistique mul-
tivariée, qui a pour but d’étudier simultanément un nombre important de variables quantita-
tives. L’ACP permet d’obtenir des représentations graphique des distances entre les individus
et des corrélations entre les variables.
On cherche une représentation des n individus (e1 ; e2 ; :::; en ) dans un espace Fk de Rp tel
que k soit le plus petit possible (k p) i.e, on cherche à dé…nir k nouvelles variables dites
combinaison linéaire des p variables initiales contenant le plus d’informations possible.
Nuage projeté
Le critère du choix de l’espace de projection s’e¤ectue tel que la moyenne des carrées des
distances entre les projections et leur centre de gravité soit la plus grande possible. Ce qui
implique qu’il faut que l’inertie du nuage projeté sur ce sous espace soit maximale.
17
Chapitre 2. Analyse en composantes principales
On note Fk le sous espace de projection. Pour cela on dé…nit P une matrice (operateur) de
projection M -orthogonal sur l’espace Fk ; elle véri…e les deux conditions suivantes :
1. P 2 = P (P est idempotente).
2. M P = P t M (P est M symétrique).
Dé…nition 2.1.1 Soit fi la projection d’un individu ei tel que fi = P ei d’où fit = eti P t
c’est la ieme ligne du tableau XP t :
On écrit
Xproj = XP t : (1)
Proposition 2.1.1
Sproj = P SP t : (2)
Preuve.
1. Matrice de covariance :
t t
Sproj = Xproj DXproj gproj gproj
= P X t DXP t P gg t P t ; de (1)
= P (X t DX gg t ) P t
= P SP t :
2. Inertie :
Iproj = tr (Sproj M )
18
Chapitre 2. Analyse en composantes principales
= tr (P SP t M ) ; de (2)
= tr (SM P 2 )
3. Centre de gravité :
t
gproj = Xproj D1n
t
= (XP t ) D1n ; de (1)
= P (X t D1n )
= P g:
Construction de sous-espace Fk
On cherche dans Rp la droite 1 de dimension 1 qui passe par le centre de gravite g et qui
maximise l’inertie de nuage projeté sur cette droite.
Soit a1 2 Rp un vecteur directeur de 1. L’opérateur de projection M -orthogonale sur 1
19
Chapitre 2. Analyse en composantes principales
est
1 a1 at1 M
P1 = a1 at1 M a1 at1 M = ; car at1 M a1 2 R:
at1 M a1
I 1 = tr (SM P1 )
= tr SM a1 at1 M =at1 M a1
= tr at1 M SM a1 =at1 M a1
= at1 M SM a1 =at1 M a1 :
at1 M SM a1
I = tr (SM P1 ) = :
1
at1 M a1
at1 M SM a1
On pose = f (a1 ) ; où f est une fonction (forme quadratique) dé…nie sur Rp .
at1 M a1
Elle atteint son maximum en la dérivant par rapport à a1 , puis en résolvant cette dernière
en l’annulant.
En appliquant la règle de dérivation d’une forme quadratique par rapport à un vecteur, on
obtient
at1 M SM a1
SM a1 = a1 :
at1 M a1
at1 M SM a1
On pose = 2 R; alors
at1 M a1
SM a1 = a1 :
Donc a1 est un vecteur propre de la matrice SM associée à la plus grande valeur propre :
20
Chapitre 2. Analyse en composantes principales
Proposition 2.1.2
La meilleure droite 1 est engendré par les k vecteurs propres de la matrice SM associée
aux k plus grandes valeurs propres.
Remarque 2.1.1
1. Comme la matrice SM est M symétrique alors ces vecteurs propres sont deux à
deux M orthogonaux, ce qui implique que les droites 1; 2 ; :::; K sont deux à deux
M orthogonaux.
2. Le premier axe est celui qui aura la plus grande valeur propre 1. Le deuxième axe sera
celui de la deuxième valeur propre 2 et ainsi de suite.
M normé à 1 i.e : 8
>
< SM aj = j aj :
(3)
>
: ka k2 = 1:
j M
Preuve.
21
Chapitre 2. Analyse en composantes principales
haj ; aj 0 iS 1 = atj S 1
aj 0
= 1= j (SM aj )t S 1
aj 0
= 1= j atj M SS 1
aj 0
= 1= j atj M aj 0
= 1= j haj ; aj 0 iM
8
>
< 1= j si j = j 0:
=
>
: 0 si non
Soit aj un axe principal, le facteur principal noté uj est un vecteur propre de la matrice M S
1
associé à la valeurs propre j; M -normé à 1 i.e :
8
>
< M Suj = j uj :
(4)
>
: kuj k2 1 = 1:
M
où uj = M aj 2 Rp :
1. uj sont S orthogonaux.
1
2. uj sont M orthonormé.
Preuve.
= atj M SM aj 0
= atj M j 0 aj 0
t
= j 0 aj M a j 0
= j 0 haj ; aj 0 iM
22
Chapitre 2. Analyse en composantes principales
8
>
< j0 si j = j 0:
=
>
: 0 si non
2. huj ; uj 0 iM 1 = utj M 1
uj 0
= atj M M 1
M aj 0
= atj M aj 0
= haj 0 ; aj 0 iM
8
>
< 1 si j = j 0:
=
>
: 0 si non
M SM aj = j M aj
M Suj = j uj :
Chaque axe aj est associé à une variable appelée composante principale. Ce sont de nouvelles
variables cj = (c1j ; c2j ; :::; cnj ) 2 Rn , dé…nies en fonction des facteurs principaux i.e :
cj = XM aj = Xuj : (5)
cj = Zuj :
Chaque cj contient des coordonnés (c1 ; c2 ; :::; cn ) qui sont les mesures algébriques des projec-
tions des individus ei sur ces axes.
23
Chapitre 2. Analyse en composantes principales
1. Les composantes principales sont non corrélées deux à deux, car les axes associés sont
orthogonaux i.e :
cov (cj ; cj 0 ) = 0:
2. La variance d’une composante principale cj est égale à l’inertie apportée par l’axe
principal dont il est associé i.e :
var (cj ) = j:
XM X t Dcj = j cj :
Preuve.
= utj (X t DX gg t ) uj 0
= huj ; uj 0 iS
= 0:
XM X t Dcj = XM X t DXuj
= XM Suj
24
Chapitre 2. Analyse en composantes principales
=X j uj ; de (4)
= j Xuj
= j cj :
Remarque 2.2.1
1. Les composantes principales cj sont des combinaisons linéaires des variables centrées et
réduites. On a :
p
X
cj = ukj xk :
k=1
2. La variance d’une composante principale est égale à l’inertie portée par l’axe principal
qui lui est associé.
L’ACP, toujours centrée est souvent également réduite ; on parle alors d’ACP centrée réduite
ou ACP normée. Cela revient à travailler sur la matrice Z pour accorder la même importance
à chaque variable. C’est préférable si les variances associées à chaque variable sont trop
di¤érentes et c’est impératif si les unités de mesure sont di¤érentes, c’est pourquoi on utilise la
métrique triviale Ip . Dans ce cas la matrice de covariance est égale a la matrice de corrélation,
il n’ya pas de distinction entre les facteurs principaux ou les axes principaux i.e que :
uj = M aj = Ip aj = aj ;
qui sont les vecteurs propres de la matrice de corrélation R associées aux valeurs propres de
la même matrice R où ces valeurs propres sont d’ordre décroissant i.e :
Ruj = j uj ;
avec 1 2 ::: p:
25
Chapitre 2. Analyse en composantes principales
Le rôle de l’ACP est de construire de nouvelles variables dites arti…cielles et de les représenter
graphiquement a…n de permettre à visualiser les relations qui existent entre elles et de décrire
l’existence d’éventuels groupes d’individus et de groupes de variables.
C’est le pourcentage d’inertie d’information sur chaque axe, s’il existe l’indépendance entre
les variables. Ce pourcentage nous permet de déterminer le nombre d’axes retenus on calcul.
Elle est dé…nie comme suit
1+ 2 + ::: + k 1 + 2 + ::: + k
QLT (Fk ) = = ;
1+ 2 + ::: + p Ig
On mesure la qualité de la projection d’un individu i sur l par le carré du cosinus de l’angle
avec
c2il
cos2 ( il ) = :
k zi k2
26
Chapitre 2. Analyse en composantes principales
En général, on mesure la qualité de la projection d’un individu i sur deux axes l et l0 par le
carré du cosinus de l’angle i(l;l0 ) entre le vecteur zi et sa projection orthogonale sur (l; l0 ) :
avec :
c2il + c2il0
cos2 ( i(l;l0 ) ) = :
k zi k2
On peut donc dire que : QLTl;l0 (i) = QLTl (i) + QLTl0 (i) :
Plus la valeur du cos2 est proche de 1, plus la représentation graphique de l’individu est de
meilleure qualité.
pi c2il
CT Rl (ei ) = ;
l
avec :
P
n
l = pi c2il :
i=1
cil : valeur de la composante cl pour le ieme individu.
Remarque 2.4.1
27
Chapitre 2. Analyse en composantes principales
Pour donner une signi…cation à la composante principale cl , il faut la relier aux variables
initiales xj , en calculant le coe¢ cient de corrélation r(xj ; cl ) et on s’intéresse au plus fort
coe¢ cient en valeur absolue.
Chaque variable représentée par les coordonnées : (r(c1 ; xj ); r(c2 ; xj )) est dans un cercle de
corrélation de rayon 1:
On exprime la qualité de représentation d’une variable quantitative xj sur le lieme axe factoriel,
par le coe¢ cient de corrélation linéaire r(cl ; xj ) entre la variable initiale xj et la composante
principale cl tel que :
p
r(cl ; xj ) = l ujl :
Preuve.
cov(zj ; cl ) 1
Comme r(cl ; xj ) = r(cl ; zj ) =
s cl s zj
Alors
cov(zj ; cl ) = zjt Dcl
= zjt Dzul ; car cl = Zul
= Rul ; car Zjt DZ = R
= l ul ; car Rul = l ul :
Donc
l ul
r(cl ; zj ) =
s cl s zj
l ul
=p
l
p
= l ujl :
1
scl et szj : écarts types de Scl et Szj respectivement.
28
Chapitre 2. Analyse en composantes principales
r2 (cl ; xj )
CT Rl (xj ) = :
P
p
2
r (cl ; xj )
j=1
P
p
Puisque l = r2 (cl ; xj ), on peut aussi dé…nir la contribution comme suit :
j=1
CT Rl (xj ) = u2jl :
Les éléments supplémentaires ou illustratifs peuvent être des variables ou des individus.
Les individus et les variables supplémentaires permettent d’enrichir l’interprétation des axes
sans avoir a participer ni a leurs constructions ni a leurs déterminations des axes.
Pour faire la représentation des individus supplémentaires dans les plans dé…nis par les nou-
veaux axes, il su¢ t de calculer les coordonnées des individus dans le système des axes prin-
cipaux.
On note par y = (y1; y2; :::; yp )t 2 Rp un nouvel individu appelé individu supplémentaire. On
a le calcul suivant :
y t u1 ; y t u2 ; :::; y t uk :
Pour faire la représentation des variables supplémentaires dans les plans dé…nis par les nou-
veaux axes, il su¢ t de calculer les coordonnées des variables dans le système des axes prin-
cipaux.
29
Chapitre 2. Analyse en composantes principales
On note par t = (t1 ; t2; :::; tn )t 2 Rn une nouvelle variable appelée variable supplémentaire.
On a le calcul suivant :
tt Dcl
p = r (t; cl ) :
l
Remarque 2.5.1
Un exemple d’application est faite dans la partie "Annexe B" sous logiciel R voir "Annexe
A", où on va étudier les températures mensuelles de 15 villes de France sur 30 ans. Les
données sont prisent du Quid 1986, page 507 (éditions Robert La¤ont).
30
Conclusion
D
ans ce travail, on a présenté l’Analyse en composantes principales ACP comme
une méthode de base en statistique exploratoire multidimensionnelle. L’objectif de
cette méthode est d’obtenir une représentation simple du nuage des données plus proche de
la réalité dans un espace de dimension faible, permettant ainsi l’étude de la ressemblance
entre les individus et la corrélation entre les variables, ou ces informations pertinentes sont
résumées et visualisées tableau des données.
L’ACP et ses variantes sont utilisées dans divers domaines à savoir en …nance, marketing,
économie, ingénierie, biologie, ...ect. Ces techniques sont originales pour mesurer par exemple
la respiration, la position...ect.
31
Annexe A : Logiciel R
32
Annexe B : Exemple d’application
Pour 15 villes de France, on dispose des moyennes des températures mensuelles calculées
sur 30 ans (entre 1931 et 1960). Elles sont rassemblées dans le tableau (2:1), qui croise ces
15 villes en lignes (individus) et les 12 mois de l’année en colonnes (variables). Di¤érents
packages et fonctions utilisés sont disponibles dans les bibliothèques standard de R:
Tableau des données :
Janv Févr Mars Avri Mai Juin Juil Aoû Sept Octo Nove Déce
Bordeaux 5:6 6:6 10:3 12:8 15:8 19:3 20:9 21:0 18:6 13:8 9:1 6:2
Brest 6:1 5:8 7:8 9:2 11:6 14:4 15:6 16:0 14:7 12:0 9:0 7:0
Clermont 2:6 3:7 7:5 10:3 13:8 17:3 19:4 19:1 16:2 11:2 6:6 3:6
Grenoble 1:5 3:2 7:7 10:6 14:5 17:8 20:1 19:5 16:7 11:4 6:5 2:3
Lille 2:4 2:9 6:0 8:9 12:4 15:3 17:1 17:1 14:7 10:4 6:1 3:5
Lyon 2:1 3:3 7:7 10:9 14:9 18:5 20:7 20:1 16:9 11:4 6:7 3:1
Marseille 5:5 6:6 10:0 13:0 16:8 20:8 23:3 22:8 19:9 15:0 10:2 6:9
Montpellier 5:6 6:7 9:9 12:8 16:2 20:1 22:7 22:3 19:3 14:6 10:0 6:5
Nantes 5:0 5:3 8:4 10:8 13:9 17:2 18:8 18:6 16:4 12:2 8:2 5:5
Nice 7:5 8:5 10:8 13:3 16:7 20:1 22:7 22:5 20:3 16:0 11:5 8:2
Paris 3:4 4:1 7:6 10:7 14:3 17:5 19:1 18:7 16:0 11:4 7:1 4:3
Rennes 4:8 5:3 7:9 10:1 13:1 16:2 17:9 17:8 15:7 11:6 7:8 5:4
Strasbourg 0:4 1:5 5:6 9:8 14:0 17:2 19:0 18:3 15:1 9:5 4:9 1:3
Toulouse 4:7 5:6 9:2 11:6 14:9 18:7 20:9 20:9 18:3 13:3 8:6 5:5
Vichy 2:4 3:4 7:1 9:9 13:6 17:1 19:3 18:8 16:0 11:0 6:6 3:4
Packages :
33
Annexe B : Exemple d’application
ade4, FactoMineR.
Fonctions :
[Link], colMeans, cov, cor, scale, [Link], sum, barplot, abline, symbols, [Link].
Programmation :
3:973 4:833 8:233 10:980 14:433 17:833 19:833 19:567 16:987 12:320 7:927 4:847
34
Annexe B : Exemple d’application
2 3
6 0:810 0:946 1:352 1:286 0:908 ::: : 7
6 7
6 1:059 0:517 0:283 1:258 1:883 : 7
6 7
6 7
6 7
6 0:684 0:607 0:480 0:481 0:421 : 7
Z=6
6
7:
7
6 1:232 0:874 0:349 0:269 0:044 : 7
6 7
6 7
6 0:784 1:035 1:461 1:470 1:351 : 7
6 7
4 5
: : ::: : : ::: :
9:582 2:276 0:070 0:040 0:014 0:008 0:006 0:002 0:001 0:000 0:000 0:000
79:848 18:970 0:583 0:331 0:117 0:067 0:050 0:015 0:012 0:004 0:002 0:000
35
Annexe B : Exemple d’application
60
tie
%d'iner
40
20
0
79.848 18.97 0.583 0.331 0.117 0.067 0.05 0.015 0.012 0.004 0.002 0
Commentaire :
L’inertie expliquée par la 1ere dimension est de 79:848%, la 2ieme dimension est de 18:970%...ect.
En assemblant ces deux premiers pourcentage on obtient environ 98:818% d’inertie totale
égale à 12 = Ig i.e une bonne qualité sur ce plan.
c1 =acp$co[,1] # 1ere composante principale c1 :
round(c1 ; 3)
c2 =acp$co[,2] # 2ieme composante principale c2 :
round(c2 ; 3)
contribc=contrib$[Link] # Contribution CT Rl (xj ) :
round(contribc,3)
plot(c1 ,c2 ,type="n",ylab="comp1 :79.848%",xlab="comp2 :18.970%",main="les mois",
xlim=c(-1,1),ylim=c(-1,1),col=1)
abline(h=0,v=0)
text(c1 ,c2 ,[Link](acp$co),col=1) # Tracer le graphe des deux composantes cj et cj 0 .
symbols(0,0,circles=1,ylab="comp1 :79.848%",xlab="comp2 :18.970%",inches=F,add=T)
for(i in 1 :12){
arrows(0,0,c1 [i],c2 [i],angle=20,length=0.15)}
[Link](acp$co) # Cercle des correlations.
36
Annexe B : Exemple d’application
Coordonnées Contribution
Mois c1 c2 c1 c2
Janv 0:761 0:644 6.048 18.238
Févr 0:880 0:469 8.090 9.666
Mars 0:969 0:156 9.795 1.069
Avri 0:969 0:204 9.806 1.822
Mai 0:873 0:475 7.950 9.899
Juin 0:864 0:499 7.783 10.953
Juil 0:842 0:531 7.391 12.406
Aoû 0:899 0:430 8.427 8.120
Sept 0:974 0:208 9.901 1.902
Octo 0:980 0:170 10.026 1.276
Nove 0:904 0:414 8.524 7.527
Déce 0:774 0:624 6.258 17.121
J an
D éc e v
F é vr
No ve
Oc
Martos
Sep
A tv r i
Aoû
Mai
J Juin
uil
Commentaire :
On observe que tout les coordonnées sur le 1ere axe proche de 1 en valeur absolue i.e la valeur
de corrélation entre ces variables et cet axe est fortement et positivement donc les variables ce
bien représent sur cet axe. Sur le même tableau (2:2), on observe que la valeur de corrélation
entre ces variables et ce 2ieme axe est faible.
On conclue on peut dire que les variables sont bien représentes sur le 1ere plan principal
[Voir la représentation des variables] :
37
Annexe B : Exemple d’application
6:007 4:217
2:172 4:093
Coordonnées Contribution
villes co1 co2 co1 co2
Bordeaux 3:121 0:109 6:776 0:035
Brest 2:268 4:093 3:579 49:069
Clermont 1:726 0:593 2:073 1:028
Grenoble 1:529 1:688 1:627 8:344
Lille 4:217 0:595 12:372 1:037
Lyon 0:835 1:788 0:485 9:365
Marseille 4:833 0:829 16:250 2:012
Montpellier 4:147 0:435 11:967 0:555
Nantes 0:281 1:115 0:055 3:638
Nice 6:007 0:789 25:106 1:825
Paris 1:242 0:156 1:073 0:072
Rennes 1:439 1:671 1:440 8:178
Strasbourg 4:106 2:172 11:728 13:819
Toulouse 1:736 0:136 2:097 0:054
Vichy 2:201 0:575 3:372 0:969
38
Annexe B : Exemple d’application
4
2 Brest
Rennes
ax e1:79.848%
Nantes
Nice Lille
Bordeaux
0
T oulouse P ar is
Montpellier Vich y
Cler mont
Marseille
Grenob
L y on le
-2
Str asbourg
-4
-6 -4 -2 0 2 4 6
ax e2:18.970%
Commentaire :
On compare les coordonnées de la 1ere composante principale à la racine carrée de la 1ere vp,
p p
i.e : 1 = 9:582 = 3:095; où on prend seulement les individus qui ont des coordonnées
p
supérieurs ou égales à 1 en valeur absolue, puis on regroupe d’après ces signes.
Le tableau suivant contient six villes devisées sur 2 groupes qui sont bien représentées sur
première axe
+
Bordeaux Lille
Marseille Strasbourg
Montpellier
Nice
On a Lille, Strasbourg, Bordeaux, Marseille, Montpellier, Nice sont bien représentées sur
l’axe 1.
De la même manière on compare les coordonnées des individus par la 2ieme composante
p p
principale à la racine carrée de la 2ieme vp i.e : 2 = 2:276 = 1:509 ou on prend seulement
p
les individus qui ont des coordonnées supérieur ou égale à 2 en valeur absolue puis on
39
Annexe B : Exemple d’application
Grenoble Brest
Lyon Rennes
Strasbourg
On a Brest, Rennes, Grenoble, Lyon, Strasbourg sont bien représentées sur l’axe 2, [Voir la représentation
Remarque 2.5.2
Clermont, Nantes, Paris, Toulouse et Vichy sont bien représentées sur le plan principal.
40
Annexe C : Abréviations et Notations
Les di¤érentes abréviations et notations utilisées tout au long de ce mémoire sont expliquées
ci-dessous :
41
Annexe C : Abréviations et Notations
l : l eme droite.
h; i : produit scalaire.
QLT (Fk ) : qualité sur Fk :
QLTl (ei ) : qualité de ei sur l’axe l:
QLT(l;l0 ) (ei ) : qualité de ei sur plan (l; l0 ) :
CT Rl (xj ) : contribution de xj sur l’axe l:
CT Rl (ei ) : contribution sur l’axe l de ei :
CT Rl (ei ; ei0 ) : contribution sur l’axe l de couple (ei ; ei0 ) :
MR (n; p) : L’ensemble des matrices de type (n; p) à coe¤cients dans R:
vps : valeurs propres.
i.e : c’est-à-dire.
42
Bibliographie
[1] Baccini, A., Besse, P. (septembre 2005) Data mining I Exploration Statistique, Unversité
Paul Sabatier — 31062. Toulouse.
[2] Boumaza, R. (2007) Analyse des données-ACP, AFC et ACM-Mise en œuvre avec R.
CPU.
[3] Bouroche, J.-M., Saporta, G. (Novembre 1992) L’analyse des données (5 éme édition),
collection que sais-je ? PUF, Paris.
[4] Duby, C., Robin, S. (10 Juillet 2006) Analyse en composantes principales. INA. Paris-
Grignon.
[5] Esco…er, B., Pagés, J. (2008) Analyse factorielle simples et multiples. Objectif, méthodes
et interprétation. Dunod.
[6] Ihaka, R., Gentleman, R. (1996) R : A language for Data Analysis and Graphics. Journal
of Computational and Graphical Statistics 5 : 299-314.
[7] Merad, M. (22 Octobre 2015) Méthodes ACP et AFC en statistiques et leurs applications.
UAB. Tlemcen.
[9] Saporta, G. (2010). Probabilités, analyse des données et statistiques (2 éme édition).
Technip, Paris.
43