0% ont trouvé ce document utile (0 vote)

383 vues50 pages

Analyse en Composantes Principales

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

383 vues50 pages

Analyse en Composantes Principales

Transféré par

Hanae el imrani

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

République Algérienne Démocratique et Populaire

Ministère de l’Enseignement Supérieur et de la Recherche Scienti…que

UNIVERSITÉ MOHAMED KHIDER, BISKRA
FACULTÉ des SCIENCES EXACTES et des SCIENCES de la NATURE et de la VIE

DÉPARTEMENT DE MATHÉMATIQUES

Mémoire présenté en vue de l’obtention du Diplôme :

MASTER en Mathématiques
Option : Statistique
Par
MANSOURI Hanane

Titre :
Analyse en Composantes Principales
(ACP)
Membres du Comité d’Examen :

Dr. BENELMIR Imen UMKB Encadreur

Dr. BENAMEUR Sana UMKB Président

Dr. DHIABI Samra UMKB Examinateur

Juin 2019
Dédicace

Au nom du Dieu clément et misécordieux

A mon cher père

Pour l’amour et l’éducation qu’il m’a donnée

A ma chère mère

Pour son grand amour, ses sacri…ces et toute l’a¤ection qu’elle m’a toujours o¤erte

A mes sœurs
Fouzia Chahinaz Hadjer Ahlam Narimane

A mon cher frère

Imade Eddine

En leurs souhaitant tout le succès...tout le bonheur

A mes chères amies
Amani Ilham Yousra

A tous les étudiants de mathématique, surtout 2eme master groupe de statistique

et tous les étudiants de l’université Mohammed Khieder.

Mansouri Hanane.

i
Remerciements

Je tiens tout d’abord à remercier bien ALLAH le tout puissant et miséricordieux

qui m’a donné la force et la patience d’accomplir
ce modeste travail.

Je tiens à remercier avec ma plus grande gratitude mon encadreur : Benelmir Imen pour
la suivi et l’aide qu’elle m’a apporté pour l’élaboration et pour ses précieux conseils et ses
aides durant toute la période du [Link] ce mémoire.
Je tiens aussi remerciement à l’ensemble des enseignants de département de mathématique
Je remercie les membres du jury :
Benameur Sana et Dhiabi Samra

En…n, je tiens également à remercier toutes les personnes qui ont participé de prés ou de
loin à la réalisation de ce travail.

Merci à Tous.

ii
Table des matières

Dédicace i

Remerciements ii

Table des matières iii

Liste des …gures v

Liste des tableaux vi

Introduction 1

1 Préliminaires 3
1.1 Données et leurs caractéristiques . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.1 Tableau des données . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.2 Individus et variables . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.3 Types de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.4 Matrice des poids . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.5 Centre de gravité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.1.6 Standardisation du tableau . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.7 Matrice de variance-covariance . . . . . . . . . . . . . . . . . . . . . . 9
1.1.8 Matrice de corrélation . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2 Nuage de points (individus) . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2.1 Ressemblance entre deux individus . . . . . . . . . . . . . . . . . . . 11

iii
Table des matières

1.2.2 Métrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.2.3 Inertie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.3 Nuage de points (variables) . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.3.1 Liaison entre deux variables . . . . . . . . . . . . . . . . . . . . . . . 15
1.3.2 Métrique des variables . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2 Analyse en composantes principales 17

2.1 Principe de l’ACP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.1.1 Projection des individus . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2 Eléments de l’ACP et ces propriétés . . . . . . . . . . . . . . . . . . . . . . . 21
2.2.1 Axes principaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2.2 Facteurs principaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2.3 Composantes principales . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.3 ACP sur les données centrées réduites . . . . . . . . . . . . . . . . . . . . . . 25
2.4 Interprétation des résultats de l’ACP . . . . . . . . . . . . . . . . . . . . . . 26
2.4.1 Interprétation des individus . . . . . . . . . . . . . . . . . . . . . . . 26
2.4.2 Interprétation des variables . . . . . . . . . . . . . . . . . . . . . . . 27
2.5 Représentation d’élément supplémentaire . . . . . . . . . . . . . . . . . . . . 29
2.5.1 Représentation des individus supplémentaire . . . . . . . . . . . . . . 29
2.5.2 Représentation des variables supplémentaire . . . . . . . . . . . . . . 29

Conclusion 31

Annexe A : Logiciel R 32

Annexe B : Exemple d’application 33

Annexe C : Abréviations et Notations 41

Bibliographie 43

iv
Table des …gures

2.1 Eboulis des valeurs propres en %. . . . . . . . . . . . . . . . . . . . . . . . . 36

2.2 Représentation des variables. . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.3 Représentation de nuage des individus. . . . . . . . . . . . . . . . . . . . . . 39

v
Liste des tableaux

2.1 Températures mensuelles de 15 villes de France. . . . . . . . . . . . . . . . . 33

2.2 Composantes et Contribution des variables. . . . . . . . . . . . . . . . . . . 37
2.3 Composantes et Contribution des individus. . . . . . . . . . . . . . . . . . . 38

vi
Introduction

L
’analyse des données est un sous domaine des statistiques qui se préoccupe de la
description des données conjointes. On cherche par ces méthodes à donner les liens
pouvant exister entre les di¤érents données ainsi qu’à en tirer une information statistique qui
sert à décrire les principales informations contenues dans ces dernières.
L’analyse en composantes principales est un grand classique de l’analyse des données qu’on
note par la suite ACP ou principal component analysis (PCA) en anglai. C’est une méthode
statistique multivariée proposée sous forme d’un tableau rectangulaire des données compor-
tant les valeurs des variables quantitatives pour un ensemble individus qui sont utilisés pour
résumer et visualiser l’information contenue dans ces données procurant ainsi des représen-
tations géométriques de ces individus et de ces variables.
L’objectif de l’Analyse en Composantes Principales est de réduire la dimension d’un espace
en essayant de déformer le moins possible les critères à la réalité. Il s’agit donc d’obtenir le
résumé le plus pertinent possible des données initiales.
Le but de ce travail est de présenter et de faire une description de l’ACP, toutes expliquant
comment résoudre le problème de la représentation des données étudier les relations existantes
entre les individus par l’évaluation de leurs ressemblances, ainsi que les relations entre les
variables par l’évaluation de leurs liaisons. Ce travail ce devise en deux chapitres :
chapitre1 : On va présenter quelques dé…nitions, proposition, propriétés...ect. En d’autres
termes, on va faire une description des données et leurs caractéristiques, les données traitées
sont des individus et des variables quantitatives.
chapitre2 : On va traiter l’ACP en expliquant le principe de cette méthode avec ces éléments
et ces caractéristiques. On a aussi essayé d’interprète les résultats de l’ACP.

1
Introduction

On achève ce travail par une application faite est sur des données réelles "La température
mensuelle de 15 villes de France sur 30 ans" sous logiciel R.

2
Chapitre 1

Préliminaires

L’analyse des données (aussi appelée analyse exploratoire des données ou AED) est une famille
de méthodes statistiques dont les principales caractéristiques sont d’être multidimensionnelles
et descriptives permettant de traiter un nombre très important de données et de dégager les
aspects les plus intéressants de la structure de celles-ci. Dans ce chapitre, on s’intéresse
d’abord à la description de ces données ainsi qu’à leurs caractéristiques comme le tableau
des données, puis on dé…nit les individus, les variables, la matrice des poids, le centre de
gravité...ect.

1.1 Données et leurs caractéristiques

Avant tout travail, on doit procéder au préliminaires, dont le tableau des données les individus
les variables et autres.

1.1.1 Tableau des données

Chaque tableau contient des lignes qui représentent les individus et des colonnes qui re-
présentent les variables. Ce tableau rectangulaire (matrice) qu’on note par X possède des

3
Chapitre 1. Preliminaires

observations à n individus et p variables. Il a la forme suivante :

2 3
x11 : : : x1p
6 7
6 7
6 : : 7
6 7
6 7
X=6
6 : xij :
7 2 MR (n; p) ;
7
6 7
6 7
6 : : 7
4 5
xn1 : : : xnp

où xij est la valeur prise par la variable j sur l’individu i:

1.1.2 Individus et variables

Les individus et les variables sont dé…nit ci-dessous.

Dé…nition 1.1.1 (Individu) Le ieme individu est un vecteur à p composantes réelles qu’on
le note par ei tel que
ei = (xi1 ; xi2 ; :::; xip )t 2 Rp ; pour i = 1; n:

Dé…nition 1.1.2 (Variable) La j eme variable est la liste des n valeurs qui elle prend sur n
individus, on la note par xj tel que

xj = (x1j ; x2j ; :::; xnj )t 2 Rn ; pour j = 1; p:

1.1.3 Types de variables

Il existe deux types des variables : les variables quantitatives (ce qui est dans notre cas) et
les variables qualitatives.

Dé…nition 1.1.3 (Variable quantitative) En statistique, une variable quantitative est une
variable qui re‡ète une notion de grandeur, c’est-à-dire (i.e) si les valeurs qu’elle peut prendre
sont des nombres. Une grandeur quantitative est souvent exprimée avec une unité de mesure
qui sert de référence.

4
Chapitre 1. Preliminaires

Dé…nition 1.1.4 (Variable qualitative) En statistique, une variable qualitative est une
variable catégorielle (facteur) qui prend pour valeur des modalités (catégories, niveaux), par
opposition aux variables quantitatives qui mesurent sur chaque individu une quantité.

Exemple 1.1.1 Les observations suivantes représente les mesurés quotidiennes de trois va-
riables indicatrices : la taille, le poids et l’âge de cinq personnes dans une certaine ville. Les
résultats sont représentés dans le tableau X avec n = 5 et p = 3

2 3
1:69 77:85 22
6 7
6 7
6 1:53 55:10 21 7
6 7
6 7
6
X = 6 1:62 76:55 19 7
7 2 MR (5; 3) ;
6 7
6 7
6 1:53 62:69 25 7
4 5
1:68 58:00 21

où x1 représente la taille, x2 le poids et x3 l’âge.

Par exemple pour le quatrième individu et la troisième variable on a :
e4 = (1:53; 62:69; 25)t 2 R3 :
x3 = (22; 21; 19; 25; 21)t 2 R5 :

1.1.4 Matrice des poids

Si les données ont été recueillies d’un tirage aléatoire, alors les probabilités de ces n individus
1
ont toutes la même importance i.e égale à , or ceci n’est pas toujours le cas. Dans le cas
n
contraire, il est utile de travailler avec des poids qu’on note par pi pour les di¤érents individus
où ces derniers sont regroupés dans une matrice diagonale de taille n notée D appelée matrice
des poids. Elle est dé…nit comme suit :

2 3
6 p1 : : : 0 7
6 7
6 : : 7 X
n
6 7
D=6 7 ; avec pi 0 et pi = 1:
6 : : 7
6 7 i=1
4 5
0 : : : pn

5
Chapitre 1. Preliminaires

Dans le cas usuel des poids égaux, on a

1
D= In :
n

Preuve.
P
n
Comme on a p1 = p2 = :::pi = ::: = pn et pi = 1 alors
i=1
P
n P
n
pi = p1
i=1 i=1
P
n
= p1 1
i=1

= p1 n
= 1:
Par conséquent
1
p1 = pi = :
n

Et2 1 3 2 3
::: 0
6 n 7 6 1 ::: 0 7
6 7 6 7
6 : : 7 16 : : 7
6 7 6 7 1
D=6 7= 6 7 = In :
6 : 7
: 7 n 6 : : 7 n
6 6 7
4 5 4 5
1
0 ::: 0 ::: 1
n

1.1.5 Centre de gravité

C’est le vecteur des moyennes arithmétiques de chaque variable, on le note par g qu’on appelle
aussi individu moyen ou point moyen. Il est dé…nit par :

g = (x1 ; x2 ; :::; xp )t 2 Rp ;

1P n
où xj = xij :
n i=1
La forme matricielle :
g = X t D1n :

6
Chapitre 1. Preliminaires

Preuve. 2 32 32 3
6 x11 : : : xn1 7 6 p1 : : : 0 76 1 7
6 76 76 7
6 : : 7 6 : 7 6 : 7
6 76 : 76 7
X t D1n =6 76 76 7
6 : : : 7 6 : 7 6 : 7
6 76 : 76 7
4 54 54 5
x1p : : : xnp 0 ::: pn 1
2 Pn 3 2 3
px
6 i=1 i i1 7 6 x1 7
6 7 6 7
6 7 6
6 : 7 6 : 7 7
=6
6
7=6
7 6 7 = g:
6 : 7 6 : 7 7
6 7 4 5
4 Pn 5
pi xip xp
i=1

1.1.6 Standardisation du tableau

Dans l’analyse en composantes principales les variables sont souvent normalisées. Ceci est
particulièrement recommandé lorsque les variables sont mesurées dans di¤érentes unités par
exemple : (kilogrammes, kilomètres, centimètres, ...ect) ; sinon, le résultat de l’analyse obtenue
sera fortement a¤ecté.
L’objectif est de rendre les variables comparables. Généralement, les variables sont normali-
sées de manière à ce qu’elles aient au …nal

1. Un écart type égale à un.

2. Une moyenne égale à zéro.

Tableau centré associé à X

Le centrage des données nous permet de ramener toutes les colonnes de X à la même origine
zéro dans une matrice notée par Y de terme général :

yij = xij xj :

La forme matricielle :
Y =X 1n g t :

7
Chapitre 1. Preliminaires

Preuve. 2 3 2 3
6 x11 : : : x1p 7 6 1 7
6 7 6 7
6 : : 7 6 : 7
6 7 6 7
X 1n g t =6 7 6 7 (x1 ; x2 ; :::; xp )
6 : : 7 6 : 7
6 7 6 7
4 5 4 5
xn1 : : : xnp 1
2 3 2 3
6 x11 x1 : : : x1p xp 7 6 y11 : : : y1p 7
6 7 6 7
6 : : 7 6 : : 7
6 7 6 7
=6 7=6 7 = Y:
6 : : 7 6 : 7
6 7 6 : 7
4 5 4 5
xn1 x1 : : : xnp xp yn1 : : : ynp

Tableau réduit associé à X

La réduction des données nous permet de ramener toutes les variables à un même écart-type
1, d’après le tableau Y on construit un tableau standard noté par Z de terme général :

yij
Z= :
sj

1P n
Avec : s2j = (xij xj )2 .
n i=1
La forme matricielle :
Z = Y D1=s :

Avec : 2 3
6 1=s1 : : : 0 7
6 7
6 : : 7
6 7
D1=s =6 7:
6 : : 7
6 7
4 5
0 : : : 1=sp

8
Chapitre 1. Preliminaires

Preuve. 2 32 3
6 y11 : : : y1p 7 6 1=s1 : : : 0 7
6 76 7
6 : : 76 : : 7
6 76 7
Y D1=s =6 76 7
6 : 7 6
: 76 : : 7
6 7
4 54 5
yn1 : : : ynp 0 : : : 1=sp
2 3 2 3
6 y11 =s1 : : : y1p =sp 7 6 z11 : : : z1p 7
6 7 6 7
6 : : 7 6 : : 7
6 7 6 7
=6 7=6 7 = Z:
6 : : 7 6 : : 7
6 7 6 7
4 5 4 5
yn1 =s1 : : : ynp =sp zn1 : : : znp

1.1.7 Matrice de variance-covariance

C’est l’ensemble des variances et des covariances, regroupées dans un tableau noté S de terme
général :
X
n
S
jj 0 = cov(xj ; x ) =
j0 pi (xij xj )(xij 0 xj 0 ); pour j; j 0 = 1; p:
i=1

La matrice de variance-covariance est donnée par

2 3
6 s21
: : : s1p 7
6 7
6 : : 7
6 7
S=6 7:
6 : : 7
6 7
4 5
2
sp1 : : : sp

La forme matricielle :
S = Y t DY = X t DX gg t :

Dans le cas ou les poids sont égaux, la forme matricielle devient :

1 t 1
S= Y Y = X tX gg t :
n n

9
Chapitre 1. Preliminaires

Preuve.
On a
Y =X 1n g t ; alors
t
S = (X 1n g t ) D (X 1n g t )
= X t DX X t D1n g t g1tn DX + g1tn D1n g t
P
n
= X t DX gg t gg t + gg t ; car 1tn D1n = pi = 1
i=1

= X t DX gg t :

1.1.8 Matrice de corrélation

C’est l’ensemble des coe¢ cients de corrélation, regroupés dans un tableau noté par R dont
les termes diagonaux valent 1: Chaque élément rjj 0 est dé…ni par :

sjj 0
rjj 0 = :
sj sj 0

La matrice de corrélation est donnée par

2 3
6 1 : : : r1p
7
6 7
6 : : 7
6 7
R=6 7:
6 : : 7
6 7
4 5
rp1 : : : 1

La forme matricielle :
R = D1=s SD1=s = Z t DZ:

Preuve.
On montre d’abord que R = D1=s SD1=s On a

10
Chapitre 1. Preliminaires

2 32 32 3
2
6 1=s 1 : : : 0 76 1 s : : : s1p
7 6 1=s1 ::: 0 7
6 76 76 7
6 : : 7 6 : 7 6 7
6 76 : 76 : : 7
D1=s SD1=s =6 76 76 7
6 : : 7 6 : 7 6 7
6 76 : 76 : : 7
4 54 54 5
0 : : : 1=sp sp1 : : : s2p 0 : : : 1=sp
2 3 2 3
6 1 : : : s1p =s1 sp 7 6 1 : : : r1p 7
6 7 6 7
6 : : 7 6 : : 7
6 7 6 7
=6 7=6 7 = R:
6 : : 7 6 : : 7
6 7 6 7
4 5 4 5
sp1 =sp s1 : : : 1 rp1 : : : 1
Ensuite, on montre que Z t DZ = R: On a
t
Z t DZ = Y D1=s D Y D1=s
= D1=s Y t DY D1=s
= D1=s SD1=s
= R:

Remarque 1.1.1
R et S sont des matrices carrées symétriques d’ordre p. Comme il ya p variables cela nous
p (p 1)
conduit donc à calculer corrélations.
2

1.2 Nuage de points (individus)

Chaque individu étant un point dé…ni par p coordonnées est considéré comme un vecteur
d’un espace vectoriel dé…ni dans Rp appelé l’espace des individus. L’ensemble des n individus
est un nuage de points appelé nuage des individus.

1.2.1 Ressemblance entre deux individus

Deux individus se ressemblent d’autant plus qu’ils possèdent des valeurs proches pour l’en-
semble des variables. On exprime la ressemblance par la distance qui est égale à :

p
X
2
d (ei ; ei0 ) = (xij xi0 j )2 ; pour i; i0 = 1; n:
j=1

11
Chapitre 1. Preliminaires

1.2.2 Métrique

En physique, la distance entre deux points dans l’espace se calcule facilement par la formule
de Pythagore : le carré de la distance est la somme des carrées des di¤érences des coordonnées,
car les dimensions sont de même nature (unité). Mais en statistique il n’en est pas de même,
car chaque dimension correspond à un caractère qui s’exprime avec sa propre unité.
On particulier, pour résoudre ce problème on dé…nie la distance entre deux individus ei et
ei0 sous la forme quadratique suivante :

hei ; ei0 iM = (ei ei0 )t M (ei ei0 );

où M est une matrice carrée symétrique d’ordre p dé…nie positive.

La formule de Pythagore revient à dé…nir le produit scalaire de deux individus ei et ei0 de la
façon suivante :
hei ; ei0 iM = eti M ei0 :

Les métriques les plus utilisées sont les métriques diagonale qui sont Ip et D1=s2 .
Ip : représente la matrice identité d’ordre p, et

2 3
6 1=s21 ::: 0 7
6 7
6 : : 7
6 7
D1=s2 =6 7:
6 : : 7
6 7
4 5
0 : : : 1=s2p

Ce qui revient à diviser chaque caractère par son écart-type. Ceci a pour avantage que la
distance entre deux individus ne dépend plus des unités de mesure ce qui est très utile lorsque
les variables ne s’expriment pas avec les mêmes unités.

Remarque 1.2.1
On utilise la métrique D1=s2 pour le tableau Y et la métrique Ip pour le tableau Z:

12
Chapitre 1. Preliminaires

Preuve.
On a
Le ieme individu du tableau Y est eyi = (yi1 ; :::; yip )t 2 Rp :
Le ieme individu du tableau Z est ezi = (zi1 ; :::; zip )t 2 Rp :
heyi ; eyi iD1=s2 = (eyi )t D1=s2 eyi
2 2
yi1 yip
= s1
+ ::: + sp
P
p
yij
2
= sj
j=1
Pp
= (zij )2
j=1
Pp
zij 2
= 1
j=1

= (ezi )t Ip ezi
= hezi ; ezi iIp :

1.2.3 Inertie

On appelle inertie totale du nuage de points, la moyenne des carrées des distances des n
points au centre de gravité g. Elle est exprimée comme ceci :

X
n
Ig = pi d2M (ei ; g):
i=1

On peut aussi l’écrire comme :

X
n X
n X
n
Ig = pi kei gk2M = pi hei g; ei giM = pi (ei g)t M (ei g) :
i=1 i=1 i=1

Remarque 1.2.2

1. L’inertie en un point quelconque est dé…nie par :

X
n
Ia = pi d2M (ei ; a):
i=1

13
Chapitre 1. Preliminaires

2. Si g = 0; on a
X
n X
n
Ig = pi kei k2M = pi eti M ei :
i=1 i=1

3. Formule de huyghens :
Ia = Ig + kg ak2M :

4.
Ig = tr (M S) = tr (SM ) :

P
n
Démonstration de la 3ieme remarque. Puisque Ia = pi hei a; ei aiM alors
i=1

hei a; ei aiM = hei g+g a; ei g+g aiM

= hei g; ei giM + hei g; g aiM + hg a; ei giM + hg a; g aiM
= kei gk2M + 2hei g; g aiM + kg ak2M :
D’où
P
n
Ia = pi (kei gk2M + 2hg a; ei giM + kg ak2M )
i=1
P
n
= Ig + 2 pi hg a; ei giM + kg ak2M :
i=1
P
n
Il reste à montrer que pi hg a; ei giM = 0: En e¤et
i=1
P
n P
n
pi hg a; ei giM = pi (g a)t M (ei gi
i=1 i=1
P
n
= (g a)t M pi (ei g)
i=1
Pn P
n
= (g a)t M ( pi e i pi g)
i=1 i=1
P
n
= (g a)t M (g g); car g = pi ei
i=1

= 0:

Démonstration de la 4ieme remarque. On a

P
n
Ig = pi (ei g)t M (ei g)
i=1
P
n
= tr pi (ei g)t M (ei g)
i=1
P
n
= tr (pi (ei g)t M (ei g))
i=1

14
Chapitre 1. Preliminaires

P
n
= tr(pi M (ei g)(ei g)t ); car tr (AB) = tr (BA)
i=1
P
n
= tr M pi (ei g)(ei g)t
i=1

= tr (M S) :

Proposition 1.2.1

1. Si M = Ip ; l’inertie est égale à la somme des variances des p variables :

p
X
Ig = Sj2 :
j=1

2. Si M = D1=S 2 ; l’inertie est égale au nombre de variables :

Ig = p:

1.3 Nuage de points (variables)

Chaque variable est associée à une suite de n nombres, elle peut être représentée comme un
vecteur d’un espace dé…ni dans Rn appelé espace des variables. L’ensemble des p variables
constitue un nuage de points appelé nuage des variables.

1.3.1 Liaison entre deux variables

Le coe¢ cient rjj 0 de corrélation mesure la liaison entre deux variables xj et xj 0 , qui prend ses
valeurs dans [ 1; 1]

!
1X
n
cov (xj ; xj 0 ) xij xj xij 0 xj 0
r (xj ; xj 0 ) = p = ; pour j; j 0 = 1; p:
var (xj ) var (xj 0 ) n i=1 sj sj 0

Avec :
P
n P
n
cov (xj ; xj 0 ) = (xij xj ) xij 0 xj 0 , xj = 1
n
xij et s2j = 1
n
(xij xj )2 .
i=1 i=1

15
Chapitre 1. Preliminaires

1.3.2 Métrique des variables

Pour étudier la proximité des caractères entre eux, il faut munir cet espace d’une métrique,
i.e trouver une matrice symétrique d’ordre n dé…nie positive. Ici il n’y a pas d’hésitation
comme pour l’espace des individus et le choix se porte sur la matrice diagonale des poids D
pour les raisons suivantes :

1. Le produit scalaire des variables xj et xj 0 qui est dé…nie comme suit :

X
n
0
hxj ; x iD =
j0 xtj Dxj 0 = pi xij xij 0 , pour j; j = 1; p:
i=1

n’est autre que la matrice de covariance Sjj 0 ; car les caractères sont centrés.

2. La norme d’un caractère xj est alors :

k xj k2D = Sj2 :

3. Dans un espace euclidien on dé…nit l’angle jj 0 entre deux vecteurs par son cosinus qui
est égal au quotient du produit scalaire par le produit des normes des deux vecteurs :

hxj ; xj 0 iD Sjj 0
cos jj 0 = = = r (xj ; xj 0 ) :
k xj k D k xj 0 k D Sj Sj 0

Remarque 1.3.1

1. Dans l’espace des individus on s’intéresse aux distances entre points par contre, dans
l’espace des variables on s’intéresse aux l’angle entre vecteurs.

2. Pour les données du tableaux standard Z le nuage des variables se trouve sur une hyper
sphère de rayon égale à 1 car k zj kD = sjj 0 = 1; pour j = 1; p:

16
Chapitre 2

Analyse en composantes principales

L’analyse en composantes principales notée ACP est une méthode d’analyse statistique mul-
tivariée, qui a pour but d’étudier simultanément un nombre important de variables quantita-
tives. L’ACP permet d’obtenir des représentations graphique des distances entre les individus
et des corrélations entre les variables.

2.1 Principe de l’ACP

On cherche une représentation des n individus (e1 ; e2 ; :::; en ) dans un espace Fk de Rp tel
que k soit le plus petit possible (k p) i.e, on cherche à dé…nir k nouvelles variables dites
combinaison linéaire des p variables initiales contenant le plus d’informations possible.

2.1.1 Projection des individus

Dans cette partie on va parler sur la construction de sous-espace Fk à savoir le nuage de

projection et les droites appelées aussi axes.

Nuage projeté

Le critère du choix de l’espace de projection s’e¤ectue tel que la moyenne des carrées des
distances entre les projections et leur centre de gravité soit la plus grande possible. Ce qui
implique qu’il faut que l’inertie du nuage projeté sur ce sous espace soit maximale.

17
Chapitre 2. Analyse en composantes principales

On note Fk le sous espace de projection. Pour cela on dé…nit P une matrice (operateur) de
projection M -orthogonal sur l’espace Fk ; elle véri…e les deux conditions suivantes :

1. P 2 = P (P est idempotente).

2. M P = P t M (P est M symétrique).

Dé…nition 2.1.1 Soit fi la projection d’un individu ei tel que fi = P ei d’où fit = eti P t
c’est la ieme ligne du tableau XP t :
On écrit
Xproj = XP t : (1)

Proposition 2.1.1

1. La matrice de covariance associée au nuage projeté :

Sproj = P SP t : (2)

2. L’inertie du nuage projeté :

Iproj = tr (SM P ) :

3. Le centre de gravité projeté :

gproj = P g:

Preuve.

1. Matrice de covariance :
t t
Sproj = Xproj DXproj gproj gproj

= P X t DXP t P gg t P t ; de (1)

= P (X t DX gg t ) P t

= P SP t :

2. Inertie :

Iproj = tr (Sproj M )

18
Chapitre 2. Analyse en composantes principales

= tr (P SP t M ) ; de (2)

= tr (P SM P ) ; car P est M symétrique

= tr (SM P 2 )

= tr (SM P ) ; car P est idempotente.

3. Centre de gravité :
t
gproj = Xproj D1n
t
= (XP t ) D1n ; de (1)

= P (X t D1n )

= P g:

Construction de sous-espace Fk

La détermination du sous espace de projection Fk revient a trouver la matrice de projection

P M orthogonale de rang k qui maximise tr(SM P ):
Le sous espace Fk peut être construit de proche en proche en cherchant d’abords le sous espace

1 de dimension 1 d’inertie maximal puis le sous espace 2 de dimension 1 M orthogonale

à 1 et d’inertie maximal, ...ect. La somme directe de ces sous espaces de dimension 1 est
Fk tel que
Fk = 1 2 ::: k:

On peut alors dire que

IFk = I 1 I 2 ::: I k
:

Construction de la première droite 1

On cherche dans Rp la droite 1 de dimension 1 qui passe par le centre de gravite g et qui
maximise l’inertie de nuage projeté sur cette droite.
Soit a1 2 Rp un vecteur directeur de 1. L’opérateur de projection M -orthogonale sur 1

19
Chapitre 2. Analyse en composantes principales

est
1 a1 at1 M
P1 = a1 at1 M a1 at1 M = ; car at1 M a1 2 R:
at1 M a1

En remplaçant le projecteur P1 par sa formule dans la dé…nition de l’inertie totale du nuage

projeté, on obtient :

I 1 = tr (SM P1 )

= tr SM a1 a1 at1 M=at1 M a1 ; car P = a1 at1 M=at1 M a1

= tr SM a1 at1 M =at1 M a1

= tr at1 M SM a1 =at1 M a1

= at1 M SM a1 =at1 M a1 :

L’inertie du nuage projeté sur 1 est

at1 M SM a1
I = tr (SM P1 ) = :
1
at1 M a1

at1 M SM a1
On pose = f (a1 ) ; où f est une fonction (forme quadratique) dé…nie sur Rp .
at1 M a1
Elle atteint son maximum en la dérivant par rapport à a1 , puis en résolvant cette dernière
en l’annulant.
En appliquant la règle de dérivation d’une forme quadratique par rapport à un vecteur, on
obtient
at1 M SM a1
SM a1 = a1 :
at1 M a1
at1 M SM a1
On pose = 2 R; alors
at1 M a1

SM a1 = a1 :

Donc a1 est un vecteur propre de la matrice SM associée à la plus grande valeur propre :

20
Chapitre 2. Analyse en composantes principales

Proposition 2.1.2
La meilleure droite 1 est engendré par les k vecteurs propres de la matrice SM associée
aux k plus grandes valeurs propres.

Remarque 2.1.1

1. Comme la matrice SM est M symétrique alors ces vecteurs propres sont deux à
deux M orthogonaux, ce qui implique que les droites 1; 2 ; :::; K sont deux à deux
M orthogonaux.

2. Le premier axe est celui qui aura la plus grande valeur propre 1. Le deuxième axe sera
celui de la deuxième valeur propre 2 et ainsi de suite.

2.2 Eléments de l’ACP et ces propriétés

L’ACP repose essentiellement sur trois éléments qui sont :

2.2.1 Axes principaux

Ce sont les p vecteurs propres a1 ; :::; ap de la matrice SM associée à la valeur propre j;

M normé à 1 i.e : 8
>
< SM aj = j aj :
(3)
>
: ka k2 = 1:
j M

Propriétés des axes principaux

1
1. Les axes principaux aj sont S orthogonaux.

2. Les axes principaux aj sont M orthonormé.

Preuve.

1. Soit aj ; aj 0 deux axes principaux tel que

21
Chapitre 2. Analyse en composantes principales

haj ; aj 0 iS 1 = atj S 1
aj 0
= 1= j (SM aj )t S 1
aj 0
= 1= j atj M SS 1
aj 0
= 1= j atj M aj 0
= 1= j haj ; aj 0 iM
8
>
< 1= j si j = j 0:
=
>
: 0 si non

2.2.2 Facteurs principaux

Soit aj un axe principal, le facteur principal noté uj est un vecteur propre de la matrice M S
1
associé à la valeurs propre j; M -normé à 1 i.e :

8
>
< M Suj = j uj :
(4)
>
: kuj k2 1 = 1:
M

où uj = M aj 2 Rp :

Propriétés des facteurs principaux

1. uj sont S orthogonaux.
1
2. uj sont M orthonormé.

3. uj sont aussi les vecteurs propres de la matrice M S:

Preuve.

1. huj ; uj 0 iS = utj Suj 0

= atj M SM aj 0

= atj M j 0 aj 0

t
= j 0 aj M a j 0

= j 0 haj ; aj 0 iM

22
Chapitre 2. Analyse en composantes principales

8
>
< j0 si j = j 0:
=
>
: 0 si non
2. huj ; uj 0 iM 1 = utj M 1
uj 0

= atj M M 1
M aj 0

= atj M aj 0

= haj 0 ; aj 0 iM
8
>
< 1 si j = j 0:
=
>
: 0 si non

3. Comme aj est un vecteur propre de la matrice SM; de (3) on a

SM aj = j aj

M SM aj = j M aj

M Suj = j uj :

2.2.3 Composantes principales

Chaque axe aj est associé à une variable appelée composante principale. Ce sont de nouvelles
variables cj = (c1j ; c2j ; :::; cnj ) 2 Rn , dé…nies en fonction des facteurs principaux i.e :

cj = XM aj = Xuj : (5)

Si on travailler avec le tableau centré réduit deviennent :

cj = Zuj :

Chaque cj contient des coordonnés (c1 ; c2 ; :::; cn ) qui sont les mesures algébriques des projec-
tions des individus ei sur ces axes.

23
Chapitre 2. Analyse en composantes principales

Propriétés des composantes principales

1. Les composantes principales sont non corrélées deux à deux, car les axes associés sont
orthogonaux i.e :
cov (cj ; cj 0 ) = 0:

2. La variance d’une composante principale cj est égale à l’inertie apportée par l’axe
principal dont il est associé i.e :
var (cj ) = j:

3. Les composantes principales sont les vecteurs propres de la matrice XM X t D i.e :

XM X t Dcj = j cj :

Preuve.

1. cov (cj ; cj 0 ) = ctj Dcj 0 gcj gctj0

= utj X t DXuj 0 ctj D1n 1tn Dcj 0 ; de (5)

= utj X t DXuj 0 utj X t D1n 1tn DXuj 0

= utj (X t DX gg t ) uj 0

= huj ; uj 0 iS

= 0:

2. Même démonstration que la précédente

var (cj ) = ctj Dcj gcj gctj
= huj ; uj iS
=k uj k2S
= j:

3. Dans le cas où g est centré.

XM X t Dcj = XM X t DXuj

= XM Suj

24
Chapitre 2. Analyse en composantes principales

=X j uj ; de (4)
= j Xuj

= j cj :

Remarque 2.2.1

1. Les composantes principales cj sont des combinaisons linéaires des variables centrées et
réduites. On a :
p
X
cj = ukj xk :
k=1

2. La variance d’une composante principale est égale à l’inertie portée par l’axe principal
qui lui est associé.

3. La première composante principale doit être de variance maximale.

2.3 ACP sur les données centrées réduites

L’ACP, toujours centrée est souvent également réduite ; on parle alors d’ACP centrée réduite
ou ACP normée. Cela revient à travailler sur la matrice Z pour accorder la même importance
à chaque variable. C’est préférable si les variances associées à chaque variable sont trop
di¤érentes et c’est impératif si les unités de mesure sont di¤érentes, c’est pourquoi on utilise la
métrique triviale Ip . Dans ce cas la matrice de covariance est égale a la matrice de corrélation,
il n’ya pas de distinction entre les facteurs principaux ou les axes principaux i.e que :

uj = M aj = Ip aj = aj ;

qui sont les vecteurs propres de la matrice de corrélation R associées aux valeurs propres de
la même matrice R où ces valeurs propres sont d’ordre décroissant i.e :

Ruj = j uj ;

avec 1 2 ::: p:

25
Chapitre 2. Analyse en composantes principales

2.4 Interprétation des résultats de l’ACP

Le rôle de l’ACP est de construire de nouvelles variables dites arti…cielles et de les représenter
graphiquement a…n de permettre à visualiser les relations qui existent entre elles et de décrire
l’existence d’éventuels groupes d’individus et de groupes de variables.

2.4.1 Interprétation des individus

On va essayer d’interpréter les résultats pour les individus :

Qualité de représentation du nuage des individus sur Fk

C’est le pourcentage d’inertie d’information sur chaque axe, s’il existe l’indépendance entre
les variables. Ce pourcentage nous permet de déterminer le nombre d’axes retenus on calcul.
Elle est dé…nie comme suit

1+ 2 + ::: + k 1 + 2 + ::: + k
QLT (Fk ) = = ;
1+ 2 + ::: + p Ig

avec 0 QLT (Fk ) 1:

Plus QLT (Fk ) est proche de 1 plus la représentation sur Fk est bonne.

Qualité de représentation d’un individu i par rapport à l’axe l ( l)

On mesure la qualité de la projection d’un individu i sur l par le carré du cosinus de l’angle

il formé entre le vecteur zi et l’axe l :

inertie de la projection de l’individu i sur l’axe l

QLTl (ei ) =
inertie initiale de l’individu i
= cos2 ( il );

avec
c2il
cos2 ( il ) = :
k zi k2

26
Chapitre 2. Analyse en composantes principales

En général, on mesure la qualité de la projection d’un individu i sur deux axes l et l0 par le
carré du cosinus de l’angle i(l;l0 ) entre le vecteur zi et sa projection orthogonale sur (l; l0 ) :

QLTl;l0 (ei ) = cos2 ( i(l;l0 ) );

avec :
c2il + c2il0
cos2 ( i(l;l0 ) ) = :
k zi k2

On peut donc dire que : QLTl;l0 (i) = QLTl (i) + QLTl0 (i) :
Plus la valeur du cos2 est proche de 1, plus la représentation graphique de l’individu est de
meilleure qualité.

Contribution d’un individu i par rapport à l’axe l

La contribution de l’individu i à la composante cl est dé…nie par :

pi c2il
CT Rl (ei ) = ;
l

avec :
P
n
l = pi c2il :
i=1
cil : valeur de la composante cl pour le ieme individu.

Remarque 2.4.1

1. La contribution d’un individu ei est importante si : CT Rl (ei ) pi :

2. Si on a un groupe d’individus, la contribution est égale à la somme des contributions

0
des individus i et i . Alors

pi c2il + pi0 c2i0 l

CT Rl (ei ; ei0 ) = :
l

2.4.2 Interprétation des variables

On va essayer l’interprétation des résultats pour les variables.

27
Chapitre 2. Analyse en composantes principales

Qualité de représentation du nuage des variables

Pour donner une signi…cation à la composante principale cl , il faut la relier aux variables
initiales xj , en calculant le coe¢ cient de corrélation r(xj ; cl ) et on s’intéresse au plus fort
coe¢ cient en valeur absolue.
Chaque variable représentée par les coordonnées : (r(c1 ; xj ); r(c2 ; xj )) est dans un cercle de
corrélation de rayon 1:
On exprime la qualité de représentation d’une variable quantitative xj sur le lieme axe factoriel,
par le coe¢ cient de corrélation linéaire r(cl ; xj ) entre la variable initiale xj et la composante
principale cl tel que :
p
r(cl ; xj ) = l ujl :

Preuve.
cov(zj ; cl ) 1
Comme r(cl ; xj ) = r(cl ; zj ) =
s cl s zj
Alors
cov(zj ; cl ) = zjt Dcl
= zjt Dzul ; car cl = Zul
= Rul ; car Zjt DZ = R
= l ul ; car Rul = l ul :

Donc
l ul
r(cl ; zj ) =
s cl s zj
l ul
=p
l
p
= l ujl :

1
scl et szj : écarts types de Scl et Szj respectivement.

28
Chapitre 2. Analyse en composantes principales

Contribution d’une variable j par rapport à l’axe l

La contribution de la variable j à la composante cl est dé…nie par :

r2 (cl ; xj )
CT Rl (xj ) = :
P
p
2
r (cl ; xj )
j=1

P
p
Puisque l = r2 (cl ; xj ), on peut aussi dé…nir la contribution comme suit :
j=1

CT Rl (xj ) = u2jl :

2.5 Représentation d’élément supplémentaire

Les éléments supplémentaires ou illustratifs peuvent être des variables ou des individus.
Les individus et les variables supplémentaires permettent d’enrichir l’interprétation des axes
sans avoir a participer ni a leurs constructions ni a leurs déterminations des axes.

2.5.1 Représentation des individus supplémentaire

Pour faire la représentation des individus supplémentaires dans les plans dé…nis par les nou-
veaux axes, il su¢ t de calculer les coordonnées des individus dans le système des axes prin-
cipaux.
On note par y = (y1; y2; :::; yp )t 2 Rp un nouvel individu appelé individu supplémentaire. On
a le calcul suivant :
y t u1 ; y t u2 ; :::; y t uk :

2.5.2 Représentation des variables supplémentaire

Pour faire la représentation des variables supplémentaires dans les plans dé…nis par les nou-
veaux axes, il su¢ t de calculer les coordonnées des variables dans le système des axes prin-
cipaux.

29
Chapitre 2. Analyse en composantes principales

On note par t = (t1 ; t2; :::; tn )t 2 Rn une nouvelle variable appelée variable supplémentaire.
On a le calcul suivant :
tt Dcl
p = r (t; cl ) :
l

Remarque 2.5.1

Un exemple d’application est faite dans la partie "Annexe B" sous logiciel R voir "Annexe
A", où on va étudier les températures mensuelles de 15 villes de France sur 30 ans. Les
données sont prisent du Quid 1986, page 507 (éditions Robert La¤ont).

30
Conclusion

D
ans ce travail, on a présenté l’Analyse en composantes principales ACP comme
une méthode de base en statistique exploratoire multidimensionnelle. L’objectif de
cette méthode est d’obtenir une représentation simple du nuage des données plus proche de
la réalité dans un espace de dimension faible, permettant ainsi l’étude de la ressemblance
entre les individus et la corrélation entre les variables, ou ces informations pertinentes sont
résumées et visualisées tableau des données.
L’ACP et ses variantes sont utilisées dans divers domaines à savoir en …nance, marketing,
économie, ingénierie, biologie, ...ect. Ces techniques sont originales pour mesurer par exemple
la respiration, la position...ect.

31
Annexe A : Logiciel R

Le langage R est un langage de programmation et un logiciel libre destiné aux statis-

tiques environnement mathématique utilisés pour le traitement de données. Il permet de
faire des analyses statistiques aussi bien simples que complexes comme des modèles linéaires
ou non-linéaires, des tests d’hypothèse, de la modélisation de séries chronologiques, de la
classi…cation, etc. Il dispose également de nombreuses fonctions graphiques très utiles et de
qualité professionnelle.
R a été créé par Ross Ihaka et Robert Gentleman en 1996 du département de statistique
de l’Université d’Auckland, en Nouvelle Zélande, et est maintenant développé par la R déve-
loppement Core Team. Il est conçu pour pouvoir être utilisé avec les système d’exploitation
Unix, Linux, Windows et MacOS.
Le R est un application n’o¤rant qu’une invite de commande il basé sur la notion de vecteur,
ce qui simpli…e les calculs mathématique et réduit considérablement le recours aux struc-
tures itératives (boucles for, ...ect). Programmes courts, en général quelques lignes de code
seulement. Temps de développement très court.

32
Annexe B : Exemple d’application

Pour 15 villes de France, on dispose des moyennes des températures mensuelles calculées
sur 30 ans (entre 1931 et 1960). Elles sont rassemblées dans le tableau (2:1), qui croise ces
15 villes en lignes (individus) et les 12 mois de l’année en colonnes (variables). Di¤érents
packages et fonctions utilisés sont disponibles dans les bibliothèques standard de R:
Tableau des données :

Janv Févr Mars Avri Mai Juin Juil Aoû Sept Octo Nove Déce
Bordeaux 5:6 6:6 10:3 12:8 15:8 19:3 20:9 21:0 18:6 13:8 9:1 6:2
Brest 6:1 5:8 7:8 9:2 11:6 14:4 15:6 16:0 14:7 12:0 9:0 7:0
Clermont 2:6 3:7 7:5 10:3 13:8 17:3 19:4 19:1 16:2 11:2 6:6 3:6
Grenoble 1:5 3:2 7:7 10:6 14:5 17:8 20:1 19:5 16:7 11:4 6:5 2:3
Lille 2:4 2:9 6:0 8:9 12:4 15:3 17:1 17:1 14:7 10:4 6:1 3:5
Lyon 2:1 3:3 7:7 10:9 14:9 18:5 20:7 20:1 16:9 11:4 6:7 3:1
Marseille 5:5 6:6 10:0 13:0 16:8 20:8 23:3 22:8 19:9 15:0 10:2 6:9
Montpellier 5:6 6:7 9:9 12:8 16:2 20:1 22:7 22:3 19:3 14:6 10:0 6:5
Nantes 5:0 5:3 8:4 10:8 13:9 17:2 18:8 18:6 16:4 12:2 8:2 5:5
Nice 7:5 8:5 10:8 13:3 16:7 20:1 22:7 22:5 20:3 16:0 11:5 8:2
Paris 3:4 4:1 7:6 10:7 14:3 17:5 19:1 18:7 16:0 11:4 7:1 4:3
Rennes 4:8 5:3 7:9 10:1 13:1 16:2 17:9 17:8 15:7 11:6 7:8 5:4
Strasbourg 0:4 1:5 5:6 9:8 14:0 17:2 19:0 18:3 15:1 9:5 4:9 1:3
Toulouse 4:7 5:6 9:2 11:6 14:9 18:7 20:9 20:9 18:3 13:3 8:6 5:5
Vichy 2:4 3:4 7:1 9:9 13:6 17:1 19:3 18:8 16:0 11:0 6:6 3:4

Tab. 2.1 –Températures mensuelles de 15 villes de France.

Janv : Janvier, Avri : Avril, Juil : Juillet, Octo : Octobre.

Févr : Février, Mai : Mai, Aoû : Août, Nove : Novembre.
Mars : Mars, Juin : Juin, Sept : Septembre, Déce : Décembre.

Packages :

33
Annexe B : Exemple d’application

ade4, FactoMineR.

Fonctions :

[Link], colMeans, cov, cor, scale, [Link], sum, barplot, abline, symbols, [Link].

Programmation :

library(ade4) # Il Contient des fonctions d’analyse des données.

library(FactoMineR) # Analyse exploratoire multidimensionnelle des données.
setwd("D :/TP/ACP")
X=[Link]("[Link]",h=T) # Importer le tableau a partir du logiciel "excel".
g =colMeans(X) # Centre de gravité g:
round(g; 3)

3:973 4:833 8:233 10:980 14:433 17:833 19:833 19:567 16:987 12:320 7:927 4:847

S = cov(X) # Matrice de covariance S:

round(S; 3)
2 3
6 4:029 7
6 7
6 3:651 3:491 7
6 7
6 7
6 7
6 2:564 2:660 2:338 7
S=6
6
7:
7
6 1:737 2:012 1:989 2:002 7
6 7
6 7
6 1:095 1:537 1:764 2:028 2:264 7
6 7
4 .. 5
. : ::: : : :

R =cor(X) # Matrice de corrélation R:

round(R; 3)
2 3
6 1:000 7
6 7
6 0:973 1:000 7
6 7
6 7
6 7
6 0:835 0:931 1:000 7
R=6
6
7:
7
6 0:611 0:761 0:920 1:000 7
6 7
6 7
6 0:363 0:547 0:767 0:953 1:000 7
6 7
4 .. 5
. . ... . . .

34
Annexe B : Exemple d’application

Z =scale(X) # Tableau standard Z:

round(Z; 3)

2 3
6 0:810 0:946 1:352 1:286 0:908 ::: : 7
6 7
6 1:059 0:517 0:283 1:258 1:883 : 7
6 7
6 7
6 7
6 0:684 0:607 0:480 0:481 0:421 : 7
Z=6
6
7:
7
6 1:232 0:874 0:349 0:269 0:044 : 7
6 7
6 7
6 0:784 1:035 1:461 1:470 1:351 : 7
6 7
4 5
: : ::: : : ::: :

acp=[Link](X,center=T,scale=T,nf=2,scannf=F) # Utilisation de l’ACP.

vp=acp$eig # Valeurs propres :
round(vp,3)

9:582 2:276 0:070 0:040 0:014 0:008 0:006 0:002 0:001 0:000 0:000 0:000

pvp=(vp/sum(vp))*100 # Pourcentage des vps.

round(pvp,3)

79:848 18:970 0:583 0:331 0:117 0:067 0:050 0:015 0:012 0:004 0:002 0:000

barplot(pvp,ylab="%d’inertie",[Link]=(round(pvp,3)),col=1) # Histogram des vps.

35
Annexe B : Exemple d’application

60
tie
%d'iner

40
20
0

79.848 18.97 0.583 0.331 0.117 0.067 0.05 0.015 0.012 0.004 0.002 0

Fig. 2.1 –Eboulis des valeurs propres en %.

Commentaire :

L’inertie expliquée par la 1ere dimension est de 79:848%, la 2ieme dimension est de 18:970%...ect.
En assemblant ces deux premiers pourcentage on obtient environ 98:818% d’inertie totale
égale à 12 = Ig i.e une bonne qualité sur ce plan.
c1 =acp$co[,1] # 1ere composante principale c1 :
round(c1 ; 3)
c2 =acp$co[,2] # 2ieme composante principale c2 :
round(c2 ; 3)
contribc=contrib$[Link] # Contribution CT Rl (xj ) :
round(contribc,3)
plot(c1 ,c2 ,type="n",ylab="comp1 :79.848%",xlab="comp2 :18.970%",main="les mois",
xlim=c(-1,1),ylim=c(-1,1),col=1)
abline(h=0,v=0)
text(c1 ,c2 ,[Link](acp$co),col=1) # Tracer le graphe des deux composantes cj et cj 0 .
symbols(0,0,circles=1,ylab="comp1 :79.848%",xlab="comp2 :18.970%",inches=F,add=T)
for(i in 1 :12){
arrows(0,0,c1 [i],c2 [i],angle=20,length=0.15)}
[Link](acp$co) # Cercle des correlations.

36
Annexe B : Exemple d’application

Coordonnées Contribution
Mois c1 c2 c1 c2
Janv 0:761 0:644 6.048 18.238
Févr 0:880 0:469 8.090 9.666
Mars 0:969 0:156 9.795 1.069
Avri 0:969 0:204 9.806 1.822
Mai 0:873 0:475 7.950 9.899
Juin 0:864 0:499 7.783 10.953
Juil 0:842 0:531 7.391 12.406
Aoû 0:899 0:430 8.427 8.120
Sept 0:974 0:208 9.901 1.902
Octo 0:980 0:170 10.026 1.276
Nove 0:904 0:414 8.524 7.527
Déce 0:774 0:624 6.258 17.121

Tab. 2.2 – Composantes et Contribution des variables.

J an
D éc e v

F é vr
No ve

Oc
Martos

Sep
A tv r i

Aoû
Mai
J Juin
uil

Fig. 2.2 –Représentation des variables.

Commentaire :

On observe que tout les coordonnées sur le 1ere axe proche de 1 en valeur absolue i.e la valeur
de corrélation entre ces variables et cet axe est fortement et positivement donc les variables ce
bien représent sur cet axe. Sur le même tableau (2:2), on observe que la valeur de corrélation
entre ces variables et ce 2ieme axe est faible.
On conclue on peut dire que les variables sont bien représentes sur le 1ere plan principal
[Voir la représentation des variables] :

37
Annexe B : Exemple d’application

co1=acp$li[,1] # 1ere composante principale co1:

round(co1; 3)
co2=acp$li[,2] # 2ieme composante principale co2:
round(co2,3)
contrib=[Link](acp,[Link]=T,[Link]=T)
contribl=contrib$[Link] # Contribution CT Rl (ei ) :
round(contribl,3)
plot(co1,co2,ylab="axe1 :79.848%",xlab="axe2 :18.970%",xlim=c(-7,7),ylim=c(-4.5,4.5),col=1)
abline(h=0,v=0)
text(co1,co2,[Link](acp$li),col=1,cex=1) # Tracer le graphe des villes celons les 2 axes.
range(co1) # Borne du 1er axe.

6:007 4:217

range(co2) # Borne du 2ieme axe.

2:172 4:093

Coordonnées Contribution
villes co1 co2 co1 co2
Bordeaux 3:121 0:109 6:776 0:035
Brest 2:268 4:093 3:579 49:069
Clermont 1:726 0:593 2:073 1:028
Grenoble 1:529 1:688 1:627 8:344
Lille 4:217 0:595 12:372 1:037
Lyon 0:835 1:788 0:485 9:365
Marseille 4:833 0:829 16:250 2:012
Montpellier 4:147 0:435 11:967 0:555
Nantes 0:281 1:115 0:055 3:638
Nice 6:007 0:789 25:106 1:825
Paris 1:242 0:156 1:073 0:072
Rennes 1:439 1:671 1:440 8:178
Strasbourg 4:106 2:172 11:728 13:819
Toulouse 1:736 0:136 2:097 0:054
Vichy 2:201 0:575 3:372 0:969

Tab. 2.3 – Composantes et Contribution des individus.

38
Annexe B : Exemple d’application

4
2 Brest

Rennes
ax e1:79.848%

Nantes
Nice Lille
Bordeaux
0

T oulouse P ar is
Montpellier Vich y
Cler mont
Marseille
Grenob
L y on le
-2

Str asbourg
-4

-6 -4 -2 0 2 4 6

ax e2:18.970%

Fig. 2.3 –Représentation de nuage des individus.

Commentaire :

On compare les coordonnées de la 1ere composante principale à la racine carrée de la 1ere vp,
p p
i.e : 1 = 9:582 = 3:095; où on prend seulement les individus qui ont des coordonnées
p
supérieurs ou égales à 1 en valeur absolue, puis on regroupe d’après ces signes.

Le tableau suivant contient six villes devisées sur 2 groupes qui sont bien représentées sur
première axe
+

Bordeaux Lille

Marseille Strasbourg

Montpellier

Nice

On a Lille, Strasbourg, Bordeaux, Marseille, Montpellier, Nice sont bien représentées sur
l’axe 1.
De la même manière on compare les coordonnées des individus par la 2ieme composante
p p
principale à la racine carrée de la 2ieme vp i.e : 2 = 2:276 = 1:509 ou on prend seulement
p
les individus qui ont des coordonnées supérieur ou égale à 2 en valeur absolue puis on

39
Annexe B : Exemple d’application

regrouper d’après ces signes.

Grenoble Brest

Lyon Rennes

Strasbourg

On a Brest, Rennes, Grenoble, Lyon, Strasbourg sont bien représentées sur l’axe 2, [Voir la représentation

Remarque 2.5.2
Clermont, Nantes, Paris, Toulouse et Vichy sont bien représentées sur le plan principal.

40
Annexe C : Abréviations et Notations

Les di¤érentes abréviations et notations utilisées tout au long de ce mémoire sont expliquées
ci-dessous :

X : tableau des données.

n : nombre des individus.
p : nombre des variables.
xj : j-éme variable.
xj : moyenne de la variable xj :
cov(:; :) : covariance.
var (:; :) : variance.
d (ei ; ei0 ) : distance entre ei et ei0 :
S : matrice de variance de tableau X:
D : matrice de poids.
R : matrice de corrélation.
Z : tableau des données centrés réduites.
Y : tableau des données centrés.
M : métrique.
Ig : inertie tatale.
P : matrice de projection.
Rn : espace des nombres réels de dimention n:
Sproj : matrice de variance de nuage projeté.
fi : projection de l’individu ei:

41
Annexe C : Abréviations et Notations

Rp : espace des nombres réels de dimention p:

g : centre de gravité.
pi : poids.
r (xj ; xj 0 ) : co¢ cient de corrélation entre xj et xj 0 :
In : matrice d’identité de taille n.
1n : vecteur unitaire d’indentité de taille n:
tr : trace d’une matrice.
: valeur propre.
cil : i eme coordonnées de la composante principale cl :
ujl : j eme coordonnées de la facteur principal ul :
Fk : sous-espace de dimention k:

jj 0 : angle entre deux vecteurs.

proj : projection.
l : axe pricipale.

l : l eme droite.
h; i : produit scalaire.
QLT (Fk ) : qualité sur Fk :
QLTl (ei ) : qualité de ei sur l’axe l:
QLT(l;l0 ) (ei ) : qualité de ei sur plan (l; l0 ) :
CT Rl (xj ) : contribution de xj sur l’axe l:
CT Rl (ei ) : contribution sur l’axe l de ei :
CT Rl (ei ; ei0 ) : contribution sur l’axe l de couple (ei ; ei0 ) :
MR (n; p) : L’ensemble des matrices de type (n; p) à coe¤cients dans R:
vps : valeurs propres.
i.e : c’est-à-dire.

42
Bibliographie

[1] Baccini, A., Besse, P. (septembre 2005) Data mining I Exploration Statistique, Unversité
Paul Sabatier — 31062. Toulouse.

[2] Boumaza, R. (2007) Analyse des données-ACP, AFC et ACM-Mise en œuvre avec R.
CPU.

[3] Bouroche, J.-M., Saporta, G. (Novembre 1992) L’analyse des données (5 éme édition),
collection que sais-je ? PUF, Paris.

[4] Duby, C., Robin, S. (10 Juillet 2006) Analyse en composantes principales. INA. Paris-
Grignon.

[5] Esco…er, B., Pagés, J. (2008) Analyse factorielle simples et multiples. Objectif, méthodes
et interprétation. Dunod.

[6] Ihaka, R., Gentleman, R. (1996) R : A language for Data Analysis and Graphics. Journal
of Computational and Graphical Statistics 5 : 299-314.

[7] Merad, M. (22 Octobre 2015) Méthodes ACP et AFC en statistiques et leurs applications.
UAB. Tlemcen.

[8] Meraghni, D. (2018) Cours de master 1. UMK. Biskra.

[9] Saporta, G. (2010). Probabilités, analyse des données et statistiques (2 éme édition).
Technip, Paris.

[10] Tomalala, R.-R.(2007) Analyse en composantes [Link] 2.

Vous aimerez peut-être aussi

Cours PCA
Pas encore d'évaluation
Cours PCA
17 pages
Guide d'Analyse des Données Multivariées
100% (1)
Guide d'Analyse des Données Multivariées
59 pages
Cours de Probabilité MR LAKHAL Elhasan
0% (1)
Cours de Probabilité MR LAKHAL Elhasan
128 pages
TP Acp
Pas encore d'évaluation
TP Acp
12 pages
Réponses BTS Mathématiques 2025
Pas encore d'évaluation
Réponses BTS Mathématiques 2025
2 pages
Analyse en Composantes Principales
Pas encore d'évaluation
Analyse en Composantes Principales
5 pages
La Méthode SVD Et La Résolution de Poblèmes Inverses
Pas encore d'évaluation
La Méthode SVD Et La Résolution de Poblèmes Inverses
54 pages
Regression Polynomial
Pas encore d'évaluation
Regression Polynomial
26 pages
TP Statistique Descriptive Univarié
Pas encore d'évaluation
TP Statistique Descriptive Univarié
10 pages
Analyse de la complexité en Python
Pas encore d'évaluation
Analyse de la complexité en Python
22 pages
Théorème Central Limite: Leçons: 260 264
Pas encore d'évaluation
Théorème Central Limite: Leçons: 260 264
4 pages
Fonctions Speciales 2024
Pas encore d'évaluation
Fonctions Speciales 2024
13 pages
Résolution D'équations Différentielles Linéaires Du Premier Ordre Par La Méthode de Runge Kutta D'ordre 4 Et Application Sous Java
Pas encore d'évaluation
Résolution D'équations Différentielles Linéaires Du Premier Ordre Par La Méthode de Runge Kutta D'ordre 4 Et Application Sous Java
20 pages
Algorithme de Parcours en Largeur
Pas encore d'évaluation
Algorithme de Parcours en Largeur
4 pages
Acp Partie 2 FCF S3
Pas encore d'évaluation
Acp Partie 2 FCF S3
47 pages
Chapitre III - Analyse Des Données
Pas encore d'évaluation
Chapitre III - Analyse Des Données
14 pages
Acp
Pas encore d'évaluation
Acp
72 pages
Correction TD 2
Pas encore d'évaluation
Correction TD 2
4 pages
Corrigé 2020 Optimisation
Pas encore d'évaluation
Corrigé 2020 Optimisation
5 pages
Analyse Numérique : Matrices et Systèmes
Pas encore d'évaluation
Analyse Numérique : Matrices et Systèmes
13 pages
Cours Du Module M136-S3-MIP: Statistique Déscriptive Et Probabilité
Pas encore d'évaluation
Cours Du Module M136-S3-MIP: Statistique Déscriptive Et Probabilité
61 pages
Analyse Numérique: Concepts et Méthodes
Pas encore d'évaluation
Analyse Numérique: Concepts et Méthodes
161 pages
Cours de Collecte, Traitement Et Exploitation Technique de Statistiques
Pas encore d'évaluation
Cours de Collecte, Traitement Et Exploitation Technique de Statistiques
20 pages
Polyalgmatc PDF
Pas encore d'évaluation
Polyalgmatc PDF
215 pages
Cours 2-ACP
Pas encore d'évaluation
Cours 2-ACP
49 pages
Files D'attente
Pas encore d'évaluation
Files D'attente
39 pages
td5 Cor
Pas encore d'évaluation
td5 Cor
5 pages
Resume Afc
Pas encore d'évaluation
Resume Afc
4 pages
Analyse de Données pour M1 Info
Pas encore d'évaluation
Analyse de Données pour M1 Info
94 pages
Interpolation Polynomiale
100% (1)
Interpolation Polynomiale
15 pages
Projet 1 ACP
Pas encore d'évaluation
Projet 1 ACP
2 pages
Cours de Compexité !!utile
Pas encore d'évaluation
Cours de Compexité !!utile
6 pages
TP 03 - 01
Pas encore d'évaluation
TP 03 - 01
5 pages
Introduction à la régression linéaire
Pas encore d'évaluation
Introduction à la régression linéaire
71 pages
Cours d'Optimisation Numérique UNH
Pas encore d'évaluation
Cours d'Optimisation Numérique UNH
80 pages
Série 4 AFC - Correction
Pas encore d'évaluation
Série 4 AFC - Correction
11 pages
Exercice 1
Pas encore d'évaluation
Exercice 1
2 pages
Chap3 - Arbres Et Coarbres
Pas encore d'évaluation
Chap3 - Arbres Et Coarbres
8 pages
Graphe 2022 - 2023
Pas encore d'évaluation
Graphe 2022 - 2023
70 pages
Interprétation D'une ACP - Harti
Pas encore d'évaluation
Interprétation D'une ACP - Harti
25 pages
Présentation: Redis/Consul Apache Tez
Pas encore d'évaluation
Présentation: Redis/Consul Apache Tez
34 pages
Séries de Fourier Osmanov-Boudref
Pas encore d'évaluation
Séries de Fourier Osmanov-Boudref
41 pages
Introduction à l'analyse de données avec R
Pas encore d'évaluation
Introduction à l'analyse de données avec R
30 pages
TP FreeFem
100% (1)
TP FreeFem
15 pages
Rattrapage Analyse Fonctionnelle M1
Pas encore d'évaluation
Rattrapage Analyse Fonctionnelle M1
1 page
13 SVD
Pas encore d'évaluation
13 SVD
15 pages
Cours sur la Reconnaissance de Formes
Pas encore d'évaluation
Cours sur la Reconnaissance de Formes
42 pages
Séries Chronologiques: Modélisation et Prévisions
Pas encore d'évaluation
Séries Chronologiques: Modélisation et Prévisions
9 pages
Examen Data Warehousing Avance
Pas encore d'évaluation
Examen Data Warehousing Avance
2 pages
Exercice - Recherche Operatonnelle Controle Continu
100% (1)
Exercice - Recherche Operatonnelle Controle Continu
2 pages
00poly PDF
Pas encore d'évaluation
00poly PDF
130 pages
Interpolation et moindres carrés en mathématiques
Pas encore d'évaluation
Interpolation et moindres carrés en mathématiques
55 pages
Exam An1 Ratt1 2015
Pas encore d'évaluation
Exam An1 Ratt1 2015
2 pages
Exam Optim M1 Isfa 11
Pas encore d'évaluation
Exam Optim M1 Isfa 11
2 pages
Analyse en Composantes Principales
Pas encore d'évaluation
Analyse en Composantes Principales
74 pages
CH 3
Pas encore d'évaluation
CH 3
39 pages
Tuto 4-2 - ACP
Pas encore d'évaluation
Tuto 4-2 - ACP
40 pages
Analyse
Pas encore d'évaluation
Analyse
84 pages
Cours SGMP
100% (1)
Cours SGMP
14 pages
Chapitre 5
Pas encore d'évaluation
Chapitre 5
20 pages
Série D Applications PDF
Pas encore d'évaluation
Série D Applications PDF
1 page
Équation Droite: Étude Analytique
Pas encore d'évaluation
Équation Droite: Étude Analytique
13 pages
CentraleSupélec 1997 MP Mathématiques 2 Ea
Pas encore d'évaluation
CentraleSupélec 1997 MP Mathématiques 2 Ea
2 pages
1C Maths Leçon 08 Composée de Transformations Du Plan
100% (1)
1C Maths Leçon 08 Composée de Transformations Du Plan
13 pages
Geometrie Dans L'espace
Pas encore d'évaluation
Geometrie Dans L'espace
21 pages
Vecteurs de l'Espace: Concepts et Calculs
100% (1)
Vecteurs de l'Espace: Concepts et Calculs
7 pages
Activités
Pas encore d'évaluation
Activités
2 pages
Différentiabilité Slides
Pas encore d'évaluation
Différentiabilité Slides
42 pages
TD Agregation
Pas encore d'évaluation
TD Agregation
14 pages
TP1 MATLAB Calcul Mathematique Enspd 2025-1
Pas encore d'évaluation
TP1 MATLAB Calcul Mathematique Enspd 2025-1
8 pages
Ccinp 2019 MPM 2
Pas encore d'évaluation
Ccinp 2019 MPM 2
5 pages
TD - Série #1: Rappels Et Compléments Mathématiques Exercice 1
Pas encore d'évaluation
TD - Série #1: Rappels Et Compléments Mathématiques Exercice 1
2 pages
Produit Vectoriel Exercices 01
Pas encore d'évaluation
Produit Vectoriel Exercices 01
2 pages
1er Devoir Du 1er Semestre Mathematiques Tle C 2019-2020 Ceg Sekandji
Pas encore d'évaluation
1er Devoir Du 1er Semestre Mathematiques Tle C 2019-2020 Ceg Sekandji
2 pages
201-NYC-05 Dev 01C
Pas encore d'évaluation
201-NYC-05 Dev 01C
4 pages
Exercices de Vecteurs et Translations
Pas encore d'évaluation
Exercices de Vecteurs et Translations
6 pages
Séance7 MatricesAppliLin
Pas encore d'évaluation
Séance7 MatricesAppliLin
5 pages
Matrices Petites Mines
Pas encore d'évaluation
Matrices Petites Mines
2 pages
Chapitre 1 Matrices Et Déterminants
100% (1)
Chapitre 1 Matrices Et Déterminants
14 pages
Exercices sur les Espaces Vectoriels
Pas encore d'évaluation
Exercices sur les Espaces Vectoriels
5 pages
FCT Plusieur Var
100% (1)
FCT Plusieur Var
8 pages
Calcul Vectoriel pour Lycéens
Pas encore d'évaluation
Calcul Vectoriel pour Lycéens
3 pages
Valeurs Propres et Diagonalisation
Pas encore d'évaluation
Valeurs Propres et Diagonalisation
39 pages
Exercices Espaces Vectoriels Normés
Pas encore d'évaluation
Exercices Espaces Vectoriels Normés
2 pages
Vecteurs EXO Enoncés
Pas encore d'évaluation
Vecteurs EXO Enoncés
2 pages
Espavect Ex
Pas encore d'évaluation
Espavect Ex
18 pages
Vecteur 3 Corrige
Pas encore d'évaluation
Vecteur 3 Corrige
4 pages
Session 1 - Examen - Algebre 2
Pas encore d'évaluation
Session 1 - Examen - Algebre 2
3 pages
Espaces Vectoriels et Topologie
Pas encore d'évaluation
Espaces Vectoriels et Topologie
104 pages
Chapitre 0 Outils Math
Pas encore d'évaluation
Chapitre 0 Outils Math
7 pages