0% ont trouvé ce document utile (0 vote)
87 vues8 pages

Introduction à l'Analyse en Composantes Principales

L'analyse en composantes principales (ACP) est une technique statistique multidimensionnelle utilisée pour réduire un grand ensemble de données. L'ACP transforme les variables corrélées en nouvelles variables décorrélées appelées composantes principales. Le but est de projeter les données sur de nouveaux axes qui capturent la plus grande variance possible.

Transféré par

chakrellah imane
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
87 vues8 pages

Introduction à l'Analyse en Composantes Principales

L'analyse en composantes principales (ACP) est une technique statistique multidimensionnelle utilisée pour réduire un grand ensemble de données. L'ACP transforme les variables corrélées en nouvelles variables décorrélées appelées composantes principales. Le but est de projeter les données sur de nouveaux axes qui capturent la plus grande variance possible.

Transféré par

chakrellah imane
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Chapitre 2 : l’Analyse en Composantes Principales

(ACP)

2023/2024

1 Introduction
Problème ?

— La description des liaisons entre deux variables par des techniques statistiques bidi-
mensionnelles conduisent à se poser la question de la représentation simultanées de
données en dimension plus grande que 2. Quelle graphique permettrait de “généra-
liser” le nuage de points tracé dans le cas de deux variables permettant d’aborder
la structure de corrélation présente entre plus de 2 variables. L’outil utilisé est alors
l’analyse en composantes principales.
— Mathématiquement, l’analyse en composantes principales est un simple changement
de base : passer d’une représentation dans la base canonique des variables initiales
à une représentation dans la base des facteurs définis par les vecteurs propres de la
matrice des corrélations.
Solution

L’analyse en composantes principales (ACP), permet de projeter le nuage de points


des individus sur des sous espaces de dimensions petit (2 ou 3), tel que on retient le plus
d’informations possible, en respectant au mieux :
— Les distances entre individus, (on regroupe ceux qui sont proches les uns des autres).
— La structure des corrélations entre variables.
Les distances dans l’espace projeté entre les points doivent être les plus proches des
distances réelles dans l’espace d’origine. Les nouveaux axes sont appelées facteurs ou bien
composantes principales et doivent être non corrélées.
Principe de l’ ACP :

Ce sont des techniques exploratoires d’analyse de données multidimensionnelles. D’une


manière générale, elles sont utilisées pour synthétiser l’information contenue dans un tableau
de données. Ces techniques vont chercher à résumer un vaste ensemble de valeurs nu-
mériques en un ensemble plus petit d’informations pertinentes rendant compte
des associations principales entre variables et individus statistiques de l’ensemble
de départ.
Définition :

— ACP est une méthode d’analyse de données numériques quantitatives.


— ACP est une technique multivariées qui a pour but principal de réduire et de résu-
mer les données.
— ACP une technique d’interdépendance dans laquelle toutes les variables sont consi-
dérées simultanément.

Partant d’une base de données à "n" observations et "p" variables, toute quantitatives,
on cherche à résumer l’information disponible à l’aide de quelques variables synthétiques
qu’on appelle facteurs ou composantes principales. Nous devons les interpréter pour
comprendre les principales idées forces que recèlent les données.

1
Objectifs :
Les objectifs de l’ACP se résument en :
— Former des groupes homogènes d’unités statistiques..
— Construire un petit nombre de variables synthétiques (Facteurs), résumant l’en-
semble des variables prises en compte dans l’analyse.
— Visualiser le positionnement des individus les uns par rapport aux autres.
— Analyser les liaisons entre les variables.
— Interpréter les facteurs.

2 Analyse en Composantes Principales :


2.1 Tableau individu/variables X
On observe p variables X1 , . . . , Xp quantitatives sur n individus ind1 , . . . , indn . On
note xij la valeur de la variable Xj observée sur l’individu indi .

Individu X1 X2 ... Xj ... Xp


ind1 x11 x12 ... x1j ... x1p
ind2 x21 x22 ... x2j ... x2p
.. .. .. .. ..
. . . ... . ... .
indi xi1 xi2 ... xij ... xip
.. .. .. .. ..
. . . ... . ... .
indn xn1 xn2 ... xnj ... xnp
Moyenne x̄j x̄1 x̄2 ... x̄j ... x̄p
Écart-type σXj σ X1 σX2 ... σXj ... σXp
— Le tableau peut être mis sous forme matricielle
 
x11 x12 . . . x1j ... x1p
 x21 x22 . . . x2j ... x2p 
 .. .. .. ..
 

 . . ... . ... . 
X=  xi1 xi2 . . . xij

 ... xip 

 .
 .. ... ... .. 
... ... . 
xn1 xn2 . . . xnj ... xnp

— Chaque individu est décrit par p variables, formant un vecteur de dimension p, appelé
vecteur individu.
indi = (xi1 , xi2 , . . . , xij , . . . , xip )t
Dans l’espace Rp à p dimensions, on a : la distance euclidienne entre deux individus
s’écrit : v
u p
uX
d(indk , indℓ ) = t (xkj − xℓj )2
j=1

où indk = (xk1 , xk2 , . . . , xkp ) et indℓ = (xℓ1 , xℓ2 , . . . , xℓp )t


t

— Chaque variable peut être représentée par un vecteur de dimension n, appelé vecteur
variable, correspondant aux valeurs prises par cette variable sur les n individus.
 
x1j
 .. 
 . 
n
 
 xij  ∈ R
Xj =  ∀j = 1, 2, . . . , p

 . 
 .. 
xpj

2
2.2 Centre de gravité et Inertie totale du nuage :
Le centre de gravité du nuage d’individus :
Un vecteur contenant les valeurs moyennes de chacune de nos variables, notons ce centre de
gravité g, nous avons ici

g = (x̄1 , x̄2 , . . . , x̄j , . . . , x̄p )t


qui représente en quelque sorte "l’individu moyen".

Inertie totale du nuage : L’inertie totale est la dispersion de notre nuage d’individus
autour de son centre de gravité, quantité qui sera telle que :
n
1X 2
Itot (g) = d (indi , g)
n i=1

où d2 représente tout simplement le carré de la distance des points indi du centre de gravité
g.
Xp
2
d (indi , g) = (xij − x̄j )2
j=1

Ainsi, nous obtenons :


n p
1X 2 X
2
Itot (g) = d (indi , g) = σX
n i=1 j=1
j

c’est-à-dire que l’inertie totale est égale à la somme des variances des p variables.

2.3 Exemple d’application : (Partie 1)


Supposons qu’on a observé le jeu de données suivant :

Restaurant Service (X1 ) Qualité (X2 ) Prix (X3 )


R1 -2 3 -1
R2 -1 1 0
R3 2 -1 -1
R4 1 -3 2

Analyse des individus :

1. Chercher le restaurant le plus proche au restaurant R1 .


2. Calculer le centre de gravité des individus.
3. Calculer l’inertie (dispersion) totale des individus.

3 Les étapes de l’algorithme :


3.1 Centrage et Réduction :
Le centrage et réduction permet de mettre à la même échelle les valeurs des différentes
variables qui composent notre dataset.

3
Individu X∗1 X∗2 ... X∗j ... X∗p
ind1 z11 z12 ... z1j ... z1p
ind2 z21 z22 ... z2j ... z2p
.. .. .. .. .. .. ..
. . . . . . .
indj zj1 zj2 ... zjj ... zjp
.. .. .. .. .. .. ..
. . . . . . .
indn zn1 zn2 ... znj ... znp
Moyenne : x¯∗ j 0 0 ... 0 ... 0
Écart-type : σ(Xj∗ ) 1 1 ... 1 ... 1
Mathématiquement, cette opération se réalise en soustrayant la moyenne et en divisant par
l’écart-type pour chaque valeur de chaque variable :

Xj − x̄j
Xj∗ =
σ Xj

xij − x̄j
zij = , x¯∗ j = 0, et σXj∗ = 1,
σ Xj
pour tout j = 1, 2, . . . , p.
Le tableau peut être mis sous forme matricielle

z11 z12 ... z1j ... z1p


 
 z21 z22 ... z2j ... z2p 
.. .. .. ..
 
 .. .. 
 . . . . . . 
Z= 

 zj1 zj2 ... zjj ... zjp 

 .. .. .. .. .. .. 
 . . . . . . 
zn1 zn2 ... znj ... znp

La matrice Z est appelée la matrice centrée réduite.

Remarque 3.1 Quand les variables sont centrées et réduites, on a :


— Centre de gravité est : g = (0, 0, . . . , 0)
p
X 2
— Inertie totale est : Itot (g = 0) = σX ∗ = 1 + 1 + ··· + 1 = p
j | {z }
j=1
p fois

3.1.1 Matrice de corrélation :


Calcul de la matrice R : Cette matrice permet de détecter les variables qui sont fortement
liées ou pas. La corrélation est calculée sur chaque paire des variables contenues dans notre base de
données.
1 r12 r13 ... r1p
 
 r21 1 r23 ... r2p 
 
 .. .. 
R=  r 31 r 32 . . r 3p


 . . .. .. .
 .. .. .. 

. .
rp1 rp2 ... rp,p−1 1
La matrice R est une matrice carrée d’ordre p, symétrique et dont la diagonale contient des 1. Avec
les rij sont calculées comme suit :
— Coefficient de corrélation :
Cov(Xi , Xj )
rij = r(Xi , Xj ) = , i, j = 1, . . . , p
σXi σXj

De plus : rij = r(Xi , Xj ) = r(Xj , Xi ) = rji et rii = r(Xi , Xi ) = 1


Si on utilise le tableau des données centrées réduites Z, on a deux manières pour calculer la
matrice de corrélation :
1. En utilisant le fait que les moyennes sont égales à 0 et les écart-types sont égales à 1, alors
le coefficient de corrélation devient :
n
1X
r(Xk∗ , Xℓ∗ ) = zik ziℓ , pour tout k, ℓ = 1, 2, . . . , p
n i=1

4
2. Ou bien, on utilise la matrice Z alors :

z11 z21 ... zn1


 
 z12 z22 ... zn2  z z12 ... z1j ... z1p

11
 .. .. ..
 
 z z22 ... z2j ... z2p
1 t 1 . . ... .   21 
R = (Z )(Z) =   . 
 . .. .. ..
n  z1j
n z2j ... znj

 . . ... . ... . 
 . .. ..
 ..

. ... .  zn1 zn2 ... znj ... znp
z1p z2p ... znp

3.2 Exemple d’application (Suite) : (Partie 2)


Analyse des variables :

1. Calculer les moyennes des quatre variables.


2. Donner la matrice centrée réduite Z.
3. Calculer la matrice de corrélation R.
4. Interpréter les résultats obtenus.

3.3 Calcul des valeurs et vecteurs propres :


Ils permettent de déterminer les composantes principales de notre dataset.

Définition 3.1 — On dit que λj est une valeur propre de la matrice R si et seulement si il
existe un vecteur non nul vj t.q Rvj = λj vj
— Le vecteur vj est le vecteur propore associé à λj
— Les valeurs propres s’obtiennent en résolvant le système d’équations det(R − λj Ip ) = 0

Remarque 3.2 — La somme des valeurs propres de R est égale à la variance contenue dans
l’ensemble des données. C’est-à-dire :
p
X 2
λ1 + λ2 + · · · + λp = 1 + 1 + · · · + 1 = p = σX ∗ = Itot (g = 0)
j
| {z }
j=1
p fois

— Trie des valeurs propres : On les trie dans l’ordre décroissant.

3.4 Calcul des Composantes Principales :


Les composantes principales s’écrivent :

Yj = v1j X1∗ + v2j X2∗ + · · · + vpj Xp∗

c’est-à-dire que Yj est une combinaison linéaire des variables initiales X1∗ , X2∗ , . . . , Xp∗ avec v1j , v2j , . . . , vpj
 j 
v1
 v2j 
sont les coordonnées du vecteur propre vj =  .  pour tout j = 1, 2, . . . , p.
 
 .. 
vpj
ème
Ou d’une manière équivalente, la j composante principale Yj est donnée par :

Yj = Zvj ; j = 1, 2, . . . , p

Ainsi, on trouve toutes le composantes principales :




 Y1 = Zv1 ;
 Y2 = Zv2 ;

..


 .

Yp = Zvp

tel que : v1 , v2 , . . . , vp sont les vecteurs propres de la matrice de corrélation R.

Remarque 3.3 — Moyenne de Yj : ȳj = 0, j = 1, 2, . . . , p


— Variance de Yj : V (Yj ) = λj ; j = 1, 2, . . . , p

En répétant, ce calcul à l’ensemble des individus, nous obtenons :

5
Individu/Composante Principale Y1 Y2 ... Yj ... Yp
ind1 y11 y12 ... y1j ... y1p
ind2 y21 y22 ... y2j ... y2p
.. .. .. .. ..
. . . ... . ... .
indi yi1 yi2 ... yij ... yip
.. .. .. .. ..
. . . ... . ... .
indn yn1 yn2 ... ynj ... ynp
Moyenne : ȳj 0 0 ... p0 ... p0
√ √
Écart-type : σYj λ1 λ2 ... λj ... λp

3.5 Choix des composantes principales :


Combien de composantes à retenir ?
La Régle : Extraire les facteurs de façon à expliquer au moins 80% de la variance totale.

Le taux d’inertie expliquée par une composante principale Yj est égal à

V (Yj ) λj
× 100 = × 100
Itot (g = 0) p

En répétant ce processus pour toutes les composantes principales (facteurs), nous obtenons le ta-
bleau ci-dessous

Valeurs propores Inertie expliquée (% ) Inertie cumulée (% )


λ1 λ1
λ1 × 100 × 100
p p
λ2 λ1 λ2
λ2 × 100 ( + ) × 100
p p p
.. .. ..
. . .
λp λ1 λp
λp × 100 ( + ··· + ) × 100 = 100%
p p p

3.6 Représentation des variables-Cercle des corrélations


— Corrélations entre composantes principales (Yj ) et les variables initiales (Xl ) :

Soit r(Yj , Xl ) le coefficient de corrélation linéaire entre Yj et Xl , on utilise la formule suivante


pour le calculé :
p
r(Yj , Xl )= élement l du vecteur propre vj * λj

Exemples
— la corrélation entre Y1 et X1 , √
r(Y1 , X1 ) = v11 λ1
— la corrélation entre Y1 et X2 , √
r(Y1 , X2 ) = v21 λ1
 1 
v1
 v21 
— avec λ1 est la première valeur propre et v1 =  .  est le vecteur propre associé à λ1 .
 
 .. 
vp1
— la corrélation entre Y2 et X1 , √
r(Y2 , X1 ) = v12 λ2
— la corrélation entre Y2 et X2 , √
r(Y2 , X2 ) = v22 λ2
v12
 
 v22 
— alors, j’utilise cette fois λ2 et les coordonnées du deuxième vecteur propre v2 =  .
 
..
 . 
vp2

6
3.7 Cercle des corrélations
Le cercle des corrélations est la projection du nuage des variables sur le plan des composantes
principales.

Soient r(Y1 , X1 ) et r(Y2 , X1 ) les corrélations de la variable X1 avec les composantes principales
choisies.

Si on représente toutes les variables du tableau initiale, on obtient le résultat suivant :

Interprétation : Les variables bien représentées sont celles qui sont proches du
cercle, celles qui sont proches de l’origine sont mal représentées.

3.8 Validité des représentations


Qualité de représentation des individus par les composantes principales :
Pour calculer la qualité de représentation de l’individu i par la composante principales j en utilise

le critère suivant :
2
yij
QLT (indi , Yj ) = 2 2 2 2
yi1 + yi2 + · · · + yij + · · · + yip
Plus la valeur est proche de 1, donc on a une meilleure qualité de représentation

3.9 Exemple d’application (Suite) : (Partie 3)


Sachant que les valeurs propres et les vecteurs propres de R sont

λ1 = 2.24, λ2 = 0.75, λ3 = 0.03

et      
0.55 −0, 63 0, 53
v1 =  −0, 66  , v2 =  0, 04  , v3 =  0, 74 
0, 49 0, 76 0, 40
1. Calculer les composantes principales.
2. Calculer l’inertie expliquée par chaque composante principale et les inerties cumulées, puis
expliquez le nombre de composantes principales à retenir.

7
3. Représenter les individus dans le plan principal.
4. D’après la réponse de 2), tracer le cercle de corrélation dans le plan choisi.

Vous aimerez peut-être aussi