0% ont trouvé ce document utile (0 vote)

89 vues61 pages

Analyse des données et techniques avancées

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

89 vues61 pages

Analyse des données et techniques avancées

Transféré par

samirtetouani

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

1

Université Paris-Dauphine
M1
Année 2017

Analyse des données

Patrice Bertrand et Denis Pasquignon

2
Table des matières

1 Nuages de points 7
1.1 Tableau de données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2 Nuages des individus et nuages des variables . . . . . . . . . . . . . . . . . . . . . 7
1.3 Centre de gravité du nuage MX . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4 Support des nuages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.5 Métriques sur IRp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.6 Matrice Variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.7 Effet d’une transformation linéaire A du nuage des individus . . . . . . . . . . . 10
1.8 Inerties . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2 Analyse en Composantes Principales 17

2.1 Recherche du meilleur sous-espace de dimension k représentant N . . . . . . . . 17
2.2 Représentations des individus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.3 Représentation des variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.4 Décompositions de l’inertie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.4.1 Décomposition de l’inertie selon les individus . . . . . . . . . . . . . . . . 23
2.4.2 Décomposition de l’inertie selon les variables . . . . . . . . . . . . . . . . 24
2.4.3 Eléments supplémentaires . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.5 Analyse en composantes principales . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.5.1 ACP sur matrice variance . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.5.2 ACP sur matrice de corrélation ou ACP normée . . . . . . . . . . . . . . 25
2.6 Analyse factorielle d’un système de points munis de poids et de distances . . . . 26
2.7 Approche SVD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.7.2 Approximation par une matrice de rang inférieur . . . . . . . . . . . . . . 29
2.7.3 Application à l’ACP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.7.4 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3 Analyse Factorielle des Correspondances 35

3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.2 Définition des nuages étudiés par l’AFC . . . . . . . . . . . . . . . . . . . . . . . 35
3.2.1 Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.2.2 Nuages et métriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.3 Nuage N (J) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.3.1 Support . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.3.2 Centre de gravité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.3.3 Effet du non centrage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.3.4 Axes Factoriels, facteurs et composantes principales . . . . . . . . . . . . 39
3.4 Le nuage N (I) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

3
4 TABLE DES MATIÈRES

3.5 Inerties . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.5.1 Inertie totale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.5.2 Interprétation de l’inertie totale dans le cas d’un tableau de contingence . 42
3.5.3 Décomposition de l’inertie, Contributions . . . . . . . . . . . . . . . . . . 43
3.6 Principe d’équivalence distributionnelle . . . . . . . . . . . . . . . . . . . . . . . 44
3.7 Tableau de Burt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

4 ACM 47
4.1 Notations-Tableau disjonctif complet-tableau de Burt . . . . . . . . . . . . . . . 47
4.1.1 Notations et définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.1.2 Propriétés des tableaux disjonctifs complets . . . . . . . . . . . . . . . . . 48
4.2 Tableau de Burt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.3 Propriétés de l’AFC d’un questionnaire . . . . . . . . . . . . . . . . . . . . . . . 49
4.4 Contributions en ACM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

A Espace affine 53
A.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
A.2 Barycentre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
A.3 Applications affines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

B Endomorphisme symétrique 57

C Décomposition SVD 59
TABLE DES MATIÈRES 5

Introduction
L’analyse des données (AD), et plus généralement la fouille des données (FD), est constituée
d’un ensemble de techniques qui ont pour but de déterminer les structures possédées par l’en-
semble des données. Ces structures peuvent être de nature descriptive ( partition, hiérarchie,
plan factoriel,...) ou explicative ( arbre de décision, analyse factorielle discriminante,...). L’ana-
lyse de données peut être considérée comme une science expérimentale : propriétés démontrées
après avoir été observées, indice empirique pour l’interprétation des résultats, codages établis
de façon heuristique.
Par ailleurs, les premiers résultats fournis par une analyse factorielle sont généralement
évidents, alors que les résultats suivants ne sont pas triviaux et sont souvent intéressants.
Les données peuvent se présenter sous différentes formes : tableaux individus × variables
(dans un but descriptif, l’interprétation établira des liens entre variables et groupes d’individus
qui se ressemblent selon ces variables), tableaux de distances ( représentation des individus
dans un plan, sur une droite, etc ou partitionement de l’ensemble des individus), tableaux de
contingence ( ces tableaux croisent les ensembles de modalités de deux caractères qualitatifs),
tableaux de présence-absence (0/1), tableaux de notes, tableaux de pourcentage...
Les techniques d’analyse de données se différencient non seulement par les outils mathématiques
utilisés ( algèbre linéaire dans le cas de l’analyse factorielle, théorie des graphes et combina-
toire pour certaines méthodes de classification ) mais aussi par les buts poursuivis qui peuvent
être un but descriptif ou un but prévisionnel. Le but descriptif consiste à essayer d’obtenir
une représentation simplifiée aussi proche que possible des données initiales, le but prévisionnel
consiste à expliquer et prévoir une ou plusieurs variables en fonction d’autres variables. Dans
ce cours, nous présenterons les techniques suivantes :
— Analyse en composantes principales (ACP) : rechercher des axes d’inertie d’un système
de points affectés de poids, ce qui permet d’en déduire des sous-espaces de dimensions
réduites sur lesquels la projection des points est la moins déformante.
— Analyse des correspondances (AC) : double ACP ayant un but à la fois descriptif et
prévisionnel ( étude de liens existants entre lignes et colonnes d’un tableau).
6 TABLE DES MATIÈRES
Chapitre 1

Nuages de points

1.1 Tableau de données

On observe p variables quantitatives mesurées sur un échantillon de taille n. Les données
sont rassemblées en un tableau ou matrice de n lignes et p colonnes. On note X ce tableau de
données, son terme général xji , situé à la ième et jème colonne, désigne la valeur prise par le
ième individu pour la variable j.
On note I = [[1, n]] et J = [[1, p]] qui sont les ensembles d’indices désignant respectivement
les n individus et les p variables.

X = (xji )i∈I,j∈J ∈ Mn,p (IR).

Ainsi les valeurs prises par la variable xj pour les n individus se lisent sur la jème colonne
et les valeurs prise par l’individu i pour les p variables se lisent sur la ième ligne. On note xj la
jème variable et xi le ième individu :
 j  1
x1 xi
 ..   .. 
∀(i, j) ∈ [[1, n]] × [[1, p]], x =  .  ∈ IR et xi =  .  ∈ IRp .
j n

xjn xpi

Ainsi
x01
 

X = [x1 , · · · , xp ] =  ...  .
 

x0n

1.2 Nuages des individus et nuages des variables

On munit IRp de la base canonique, O étant l’origine de ce repère, on peut alors associé à
chaque individu i le point Mi tel que
−−→
∀i ∈ [[1, n]], OMi = xi .

Chaque axe représente une variable. L’ensemble des points MX = {Mi , 1 ≤ i ≤ n} est appelé
le nuage des individus et IRp est l’espace des individus.
De même, on munit IRn de la base canonique, on peut alors associé à chaque variable le
point N j tel que
−−−→
∀j ∈ [[1, p]], ON j = xj .

7
8 CHAPITRE 1. NUAGES DE POINTS

Chaque axe représente un individu. L’ensemble des points NX = {N j , 1 ≤ j ≤ p} est

appelé le nuage des variables et IRn est l’espace des variables.
Les ensembles Rn et IRp sont considérés comme des espaces affines. Dans l’annexe A, on
rappelle les principales notions à connaitre pour ce cours.

1.3 Centre de gravité du nuage MX

Chaque individu i est muni d’une masse, appelée aussi poids, notée pi et telle que
n
X
∀i ∈ I, pi > 0 et pi = 1.
i=1

On note Dp la matrice diagonale définie par

Dp = diag(p1 , · · · , pn ).

En général, les poids sont tous égaux à 1/n, mais ce n’est pas toujours le cas comme par exemple
en Analyse des Correspondances.
Le centre de gravité du nuage des individus Mi affecté du poids pi est le point G tel que
n
X
G= pi Mi .
i=1

La jème coordonnée de G est donnée par

n
X
gj = pi xji = xj .
i=1

Ainsi gj est la moyenne de la variable xj et les coordonnées du point G sont les p moyennes des
p variables.

Proposition 1.3.1 On note 1n le vecteur de IRn dont toutes les coordonnées sont égales à 1,
on a  
g1
−−→  .. 
g = OG =  .  = X 0 Dp 1n .
gp

preuve : On remarque que 0

∀j ∈ [[1, p]], gj = xj Dp 1n ,
ce qui donne le résultat.

On en déduit que gj est l’abscisse de la projection orthogonale pour la métrique Dp de xj

sur Vect(1n ).
Il est naturel de centrer le nuage des individus sur le centre de gravité G ce qui revient à
construire un nouveau tableau Y tel que

∀(i, j) ∈ [[1, n]] × [[1, p]], yij = xji − xj ,

1.4. SUPPORT DES NUAGES 9

soit
∀i ∈ [[1, n]], yi = Mi − G.
Ainsi dans ce nouveau tableau de données, toutes les variables y j , 1 ≤ j ≤ p, sont de
moyennes nulles.

Proposition 1.3.2 On a
Y = X − 1n g 0

Par ailleurs
y j = xj − gj 1n = (Id − PVect(1n ) )(xj ),
ce qui signifie que y j est la projection de xj sur l’hyperplan orthogonal à 1n .

1.4 Support des nuages

Définition 1.4.1 On appelle support d’un nuage le plus petit sous-espace affine contenant les
points du nuage. On note

SX = supp(MX ) et SY = supp(MY ).

Puisque le nuage MY est centré, le support SY contient l’origine et est assimilé à un sous-espace
vectoriel
SY = Vect(y1 , · · · , yn ) = Im Y 0 .
On en déduit que la dimension de SY est égale au rang de Y .

1.5 Métriques sur IRp

Pour étudier la proximité entre deux individus d’un même nuage de points, on introduit une
distance notée d entre les individus i et i0 égale à la norme du vecteur joignant ces deux points :
−−−−→
d(i, i0 ) = ||Mi Mi0 ||.

Cette norme provient d’un produit scalaire sur l’espace vectoriel IRp . Etant donnée la base
canonique (e1 , · · · , ep ) de IRp , le produit scalaire est caractérisée par la donnée d’une matrice
carrée d’ordre p dont le terme courant est pour tout 1 ≤ i, j ≤ p

mi,j = M (ei , ej ) =< ei , ej >M = e0i M ej = e0j M ei .

Cette matrice M est symétrique, définie et positive. Réciproquement, toute matrice d’ordre
p symétrique, définie positive permet de définir un produit scalaire dans IRp . Cette matrice
définit une métrique de l’espace IRp .
Dans la suite, nous noterons M la métrique de l’espace IRp et l’espace des individus IRn est
muni de la métrique Dp .
Si l’on suppose que la matrice M est diagonale M = diag(m1 , · · · , mp ), alors
v
u p
uX
d(yi , yi0 ) = t mj (yij − yij0 )2 .
j=1
10 CHAPITRE 1. NUAGES DE POINTS

0
De même, la distance entre deux variables y j et y j est donnée par
v
u n
0 uX 0
j j
d(y , y ) = t pi (yij − yij )2 .
i=1

1.6 Matrice Variance

Par définition, la matrice variance, notée V , des p variables pour les n individus est une
matrice carré d’ordre p et de terme courant vj,j 0 donné par
n
0 X 0 0
∀(j, j 0 ) ∈ [[1, p]], vj,j 0 = Cov(xj , xj ) = pi (xji − gj )(xji − gj 0 ) =< y j , y j >Dp .
i=1

Proposition 1.6.1 En notation matricielle, on a

V = Y 0 Dp Y = (X − 1n g 0 )0 Dp (X − 1n g 0 ) = X 0 Dp X − gg 0 .

Remarque 1.6.2 Si la matrice V est définie positive, elle fournit une métrique sur IRp , métrique
induite par Dp et Y . Si V n’est pas régulière, on aura seulement une pseudo métrique.

u1 v1
   
. .. 
Proposition 1.6.3 Soient u =  .
.  et v =  . de IRp , on définit deux nouvelles va-
up vp
riables z et t par
p
X Xp
z= uj xj et t = vj x j .
j=1 j=1

Alors la covariance entre z et t est donnée par

Cov(z, t) = u0 V v.

Si la matrice V est définie positive, V définit une métrique pour laquelle la covariance entre z
et t est le produit scalaire entre les vecteurs z et t et la variance de la variable z est le carré de
la norme de z soit
Cov(z, t) =< u, v >V et V(z) = ||u||2V .

preuve en TD

1.7 Effet d’une transformation linéaire A du nuage des

individus
Soit A une matrice carrée d’ordre p. On note

MZ = {z1 , · · · , zn } avec ∀i ∈ [[1, n]], zi = Axi .

On obtient ainsi une nouvelle matrice Z dont les lignes sont les z1 , · · · , zn soit

Z 0 = AX 0 donc Z = XA0 .
1.8. INERTIES 11

Proposition 1.7.1 Le centre de gravité de MZ affectés des poids p1 , · · · , pn noté gZ est

gZ = Ag.

La matrice de variance de Z noté V ar(Z) est

V ar(Z) = V ar(XA0 ) = AV A0 .

preuve : On a
n
X n
X
gZ = pi zi = pi Axi = Ag.
i=1 i=1

On note Zc la matrice centrée

0
Zc = Z − 1n gZ = XA0 − 1n g 0 A0 = Y A0 ,

donc
V ar(Z) = Zc0 Dp Zc = AY 0 Dp Y A0 = AV A0 .

1.8 Inerties
Inertie par rapport à un point

Définition 1.8.1 Soit A un point, l’inertie du nuage M = (xi )1≤i≤n par rapport au point A
est
Xn
IA (M) = pi ||xi − A||2M .
i=1

Si A = G le centre de gravité , IG (M) est appelée inertie totale du nuage :

IT (M) = IG (M).

Si l’on suppose que M = diag(m1 , · · · , mn ) alors

n
X n
X p
X p
X
IT (M) = pi ||yi ||2M = pi mj (yij )2 = mj V(y j ),
i=1 i=1 j=1 j=1

où V(y j ) représente la variance de y j . L’inertie totale est ainsi la somme pondérée des variances
des variables initiales, elle mesure la dispersion du nuage autour du centre de gravité.

Proposition 1.8.2 théorème de Huyghens On a

IA (M) = IT (M) + ||A − G||2M .

12 CHAPITRE 1. NUAGES DE POINTS

preuve :

||xi − A||2M = ||xi − G + G − A||2M ,

= ||xi − G||2M + ||G − A||2M + 2 < xi − G, G − A >M .

On en déduit que

n
X
IA (M) = pi ||xi − A||2M ,
i=1
n
X n
X n
X
= pi ||xi − G||2M + pi ||G − A||2M + 2 < pi (xi − G), G − A >M ,
i=1 i=1 i=1
= IT (M) + ||G − A||2M .

Inertie par rapport à un sous-espace affine

Définition 1.8.3 Soit E un sous-espace affine de IRn et E le sous-espace vectoriel associé muni
de la métrique M . Soit A un point de E et B un point de IRn , la distance de B à E est
−−→
dM (B, E) = ||(Id − PE )(AB)||M ,

où PE est la projection orthogonale sur E.

On appelle inertie du nuage M = (Mi )1≤i≤n par rapport au sous-espace affine E
n
X
IE (M) = pi d2M (Mi , E).
i=1

Remarque 1.8.4 La définition de dM (B, E) ne dépend pas du point A de E.

Proposition 1.8.5 On a
−→
IE (M) = IEG (M) + ||(Id − pE )(AG)||2M ,

où EG est le sous-espace affine passant par G de direction E et A un point de E.

preuve :
n
X
IE (M) = pi d2M (Mi , E),
i=1
n
X −−→
= pi ||(Id − PE )(AMi )||2 ,
i=1
n
X −→ −−→
= pi ||(Id − PE )(AG + GMi )||2 ,
i=1
1.8. INERTIES 13

n n
X −→ X −−→
= pi ||(Id − PE )(AG)||2 + pi ||(Id − PE )(GMi ))||2
i=1 i=1
n
−→ X −−→
+2 < (Id − PE )(AG), pi (Id − PE )(GMi ) >M ,
i=1
−→
= ||(Id − PE )(AG)||2 + IEG (M).

Ce résultat montre que parmi tous les sous-espaces affine parallèles à E, celui qui possède une
inertie minimale est celui qui passe par le centre de gravité du nuage.
Par la suite, on recherche le ou les sous-espaces affine de dimension k donnée par rapport
auquel(s) le nuage a une inertie minimale : c’est l’objectif de l’ACP.
On voit donc que ces sous-espaces optimaux passent nécessairement par G. C’est la raison
pour laquelle on supposera, en général, par la suite que le tableau X est centré. Si ce n’est pas
le cas, on raisonnera sur Y .

Proposition 1.8.6 On note E ⊥ le sous espace affine passant par G et de direction E ⊥ , on a

IT = IE (M) + IE ⊥ (M).

On pose
JE (M) = IE ⊥ (M).
JE (M) est l’inertie totale de la projection de M sur E

preuve : On a la relation PE + PE ⊥ = Id, d’où en utilisant Pythagore

n n
X −−→ X −−→
IE (M) + IE ⊥ (M) = pi ||(Id − PE )(GMi )||2 + pi ||(Id − PE ⊥ )(GMi )||2 = IT .
i=1 i=1

Pour le dernier point, il suffit d’appliquer la définition :

n n
X −−→ X −−→
JE (M) = pi ||(Id − PE⊥ )(GMi )||2 = pi ||(PE )(GMi )||2 .
i=1 i=1

Ainsi la recherche de E qui minimise IE (M) est équivalent à rechercher E qui maximise
JE (M).

Inertie par rapport à une droite affine passant par G

Soit 1 un vecteur unitaire pour la métrique M de IRp . Soit E1 la droite affine passant par
G associée à Vect(1 ). Puisque pour tout vecteur u de IRp , on a

PVect(1 ) (u) =< u, 1 >M 1 .

On en déduit que
n
X −−→
JE1 (M) = pi ||(PE )(GMi )||2 ,
i=1
14 CHAPITRE 1. NUAGES DE POINTS

n
X
= pi < yi , 1 >2M ,
i=1
n
X
= pi 01 M yi yi0 M 1 ,
i=1
= 01 M V M 1 .

Décomposition de l’inertie

Proposition 1.8.7 Soit (1 , · · · , k ) une base orthonormale de E pour la métrique M , on

complète cette base en une base orthonormale de IRp soit (1 , · · · , k , k+1 , · · · , p ) une base
orthonormale de IRp . On a
Xp
IEG (M) = JEl (M),
l=k+1

où El est la droite affine passant par G de direction Vect(l ).

preuve : On a pour tout vecteur u

k
X
PE (u) = < u, i >M i ,
i=1

on en déduit que pour i fixé

p
−−→ X −−→
||(Id − PE )(GMi ))||2 = || < GMi , l >M l ||2 ,
l=k+1

ce qui donne
p
−−→ X −−→
||(Id − PE )(GMi ))||2 = < GMi , l >2M ,
l=k+1

et matriciellement
p
−−→ X
||(Id − PE )(GMi ))||2 = 0l M yi yi0 M l .
l=k+1

Par conséquent on obtient par interversion de somme

n
X p
X
IEG (M) = pi 0l M yi yi0 M l ,
i=1 l=k+1
Xp Xn
= 0l M pi yi yi0 M l ,
l=k+1 i=1
Xp
= 0l M V M l ,
l=k+1
Xp
= JEl (M).
l=k+1
1.8. INERTIES 15

Calcul de l’inertie totale

Proposition 1.8.8 On a
IT = tr(V M ).

preuve : On choisit comme base orthonormale une base constitué de vecteurs propres de
M V soit (u1 , · · · , up ), on a

IT = I(IRp )⊥ (M),
p
X
= u0j M V M uj ,
j=1
p
X
= λj ||uj ||2M ,
j=1
p
X
= λj ,
j=1
= tr(M V ) = tr(V M ).

On peut aussi raisonner directement : puisque la trace de AB est égal à la trace de BA, on
en déduit
n
X
IT = pi ||yi ||2M ,
i=1
n
X
= pi yi0 M yi ,
i=1
Xn
= tr( pi yi0 M yi ),
i=1
n
X
= pi tr(yi0 M yi ),
i=1
n
X
= pi tr(M yi yi0 ),
i=1
n
X
= tr(M pj yi yi0 ),
i=1
= tr(M V ) = tr(V M ).
16 CHAPITRE 1. NUAGES DE POINTS
Chapitre 2

Analyse en Composantes
Principales

Soit N = {xi , i ∈ I} ⊂ IRp un nuage de points p

Xde l’espace IR muni de la métrique M .
Chaque point xi est muni de la masse pi > 0 avec pi = 1.
i∈I

2.1 Recherche du meilleur sous-espace de dimension k

représentant N
L’objectif de l’ACP est de rechercher pour un entier k fixé le ou les sous-espaces affine de
dimension k par rapport auquel(s) le nuage a une inertie minimale. D’après ce qui précède, on
sait que le meilleur sous-espace Ek passe par G le centre de gravité de N . On peut donc prendre
l’origine en O = G et il est équivalent de rechercher un sous-espace vectoriel Ek de dimension
k tel que l’inertie In(Ek ) soit minimal. Comme

IT = IEk + JEk ,

il est équivalent de rechercher Ek tel que JEk soit maximale.

Le théorème suivant utilise la remarque suivante : soit E un sous-espace vectoriel de IRp de
dimension k, on considère une base orthonormale (1 , · · · , k ) de E, on a
k
X k
X
JE (N ) = 0j M V M j = q(k ),
j=1 j=1

en notant q la forme quadratique associée à V M , matrice M -symétrique.

Proposition 2.1.1 La matrice V M est une matrice M -symétrique, positive. On en déduit

que V M est diagonalisable, que ses valeurs propres sont des réels et il existe une base M -
orthonormale (u1 , · · · up ) constituée de vecteurs propres de V M associés aux valeurs propres
respectives
λ1 ≥ · · · ≥ λp ≥ 0.
Enfin on a
∀u ∈ IRp , λp ||u||2M ≤ q(u) ≤ λ1 ||u||2M .

17
18 CHAPITRE 2. ANALYSE EN COMPOSANTES PRINCIPALES

Preuve : On a pour tout vecteur u et v de IRp :

< u, V M v >M = u0 M V M v,
= (V M u)0 M v,
= < V M u, v >M .

donc la matrice V M est une matrice M -symétrique. De plus

< V M u, u >M = u0 M V M u = qV (M u),

or V en tant que matrice variance covariance est positive donc qV (M u) est positif. Ainsi la
matrice V M est une matrice M -symétrique, positive. Le reste du théorème est une application
du théorème sur les matrices symétriques.

Théorème 2.1.2 Soit (u1 , · · · up ) une base orthonormale de IRp constituée de vecteurs propres
de V M associés aux valeurs propres respectives

λ1 ≥ λ2 ≥ · · · ≥ λp ≥ 0,

on pose
∀k ∈ [[1, k]], Ek = Vect(u1 , · · · , uk ).
Alors on a
dim Ek = k,

E1 ⊂ E2 ⊂ · · · ⊂ Ep = IRp ,
et
k
X
∀k ∈ [[1, p]], JEk = λi = max (JE ).
Ee.v.dimE=k
i=1
k
X
Réciproquement si F est un sous-espace vectoriel de dimension k tel que JF = λi , alors
i=1
il existe une base orthonormale (v1 , · · · vp ) constituée de vecteurs propres de V M associé aux
valeurs propres respectives λ1 ≥ λ2 ≥ · · · ≥ λp ≥ 0, telle que

F = Vect(v1 , · · · , vk ).

Preuve : La première partie se démontre par récurrence sur k :

Le résultat est vrai pour k = 1 puisque pour tout vecteur unitaire u, on a

J(Vect(u)) = q(u) ≤ λ1 = q(u1 ) = J(E1 ).

On suppose le résultat vrai pour un entier k ≤ p − 1, Soit E un sous-espace vectoriel de

dimension k + 1, on pose
F = E ∩ Vect(u1 , · · · , uk )⊥ .
Avec la formule de Grassman, on a

p ≥ dim(E + Vect(u1 , · · · , uk )⊥ ) = dim E + dim Vect(u1 , · · · , uk )⊥ − dim F,

2.1. RECHERCHE DU MEILLEUR SOUS-ESPACE DE DIMENSION K REPRÉSENTANT N 19

d’où
dim F ≥ k + 1 + p − k − p = 1.
Ainsi la dimension de F est supérieure ou égale à 1, donc il existe un vecteur unitaire z dans
F , on construit une base orthonormale de E à partir de la famille libre (z) soit (1 , · · · , k , z),
on a
J(E) = J(Vect(1 , · · · , k )) + q(z).
D’après l’hypothèse de récurrence, on a
k
X
J(Vect(1 , · · · , k )) ≤ λi ,
i=1

de plus l’espace Vect(u1 , · · · , uk )⊥ est Vect(uk+1 , · · · , up ), on en déduit que

q(z) ≤ λk+1 .

Par conséquent
k+1
X
J(E) ≤ λi = J(Ek+1 ).
i=1

La réciproque se démontre aussi par récurrence :

— Le résultat est vrai pour k = 1. En effet soit v un vecteur unitaire tel que q(v) = λ1 .
Puisque M
Eλ1 ⊕ Eλi = IRp ,
λi 6=λ1

où Eλi est le sous-espace propre associé à λi , on peut décomposer v en

M
v = v1 + w où v1 ∈ Eλ1 , w ∈ Eλi .
λi 6=λ1

On a alors
λ1 = q(v) = q(v1 ) + q(w) = λ1 ||v1 ||2 + q(w).
Par ailleurs X
w= αi ui ,
2≤i≤p, λi 6=λ1

donc en notant i0 le plus petit indice i tel que λi 6= λ1

X
q(w) = αi2 λi ≤ λi0 ||w||2 ,
2≤i≤p, λi 6=λ1

d’où l’on déduit que

q(w) = λ1 ||w||2 ≤ λi0 ||w||2 .
Or λi0 < λ1 , donc w = 0 ainsi v = v1 . Donc v est un vecteur propre unitaire associé à
λ1 .
— On suppose que E est de dimension k + 1 et vérifie
k+1
X
JE = λi ,
i=1
20 CHAPITRE 2. ANALYSE EN COMPOSANTES PRINCIPALES

alors on reprend le raisonnement précédent : il existe une base orthonormale de E à

partir de la famille libre (z) soit (1 , · · · , k , z), on a

J(E) = J(Vect(1 , · · · , k )) + q(z).

Or on a
k
X
J(Vect(1 , · · · , k )) ≤ λi et q(z) ≤ λk+1 .
i=1

Etant donnée l’égalité, les deux inégalités sont des égalités. En utilisant l’hypothèse de
récurrence, la première montre que Vect(1 , · · · , k ) corresponds à Fk .
Par ailleurs, le vecteur unitaire z est combinaison linéaire de uk+1 , · · · , up

p
X p
X
z= αi ui et αi2 = 1.
i=k+1 i=k+1

La deuxième égalité donne donc

p
X
αi2 λi = λk+1 .
i=k+1

Soit i0 le plus petit indice supérieur à k + 1 tel que λi < λk+1 , on a

0 −1
iX p
X p
X
λk+1 αi2 + λi αi2 = λk+1 αi2 ,
i=k+1 i=i0 i=k+1

d’où
p
X p
X
λi αi2 = λk+1 αi2 ,
i=i0 i=i0

p
X
puisque λi < λk+1 , l’égalité n’est possible que si αi2 = 0. Ainsi z est dans Eλk+1 .
i=i0

On peut introduire les définition suivantes :

2.2. REPRÉSENTATIONS DES INDIVIDUS 21

Définition 2.1.3 Soit (u1 , · · · up ) une base orthonormale de vecteurs propres de V M associé
aux valeurs propres respectives
λ1 ≥ λ2 ≥ · · · ≥ λp ≥ 0,
pour tout entier 1 ≤ α ≤ p,
— l’axe Vect(uα ) est appelé le αième axe factoriel du nuage de points N .
— ϕα = M uα est appelé le αième facteur,
— ∀i ∈ [[1, n]], ψi,α =< yi , uα >M = yi0 M uα = yi0 ϕα est l’abscisse de la projection de yi sur
Vect(uα ) :
 
ψ1,α
ψα =  ...  = Y ϕα = Y M uα est appelée α ième composante principale.
 

ψn,α

— le taux d’inertie expliquée par le αième axe factoriel, noté τα , est la quantité
λα λα
τα = = p .
IT X
λi
i=1

— le taux d’inertie expliquée par Eα , noté τ1···α , est la quantité

α
λ1 + · · · + λα X
τ1···α = = τi .
IT i=1

2.2 Représentations des individus

Proposition 2.2.1 Si la matrice V est de rang r, alors le nuage N centré a pour support
Er = Vect(u1 , · · · , ur ).

Preuve : En effet V et V M ont même rang puisque M est inversible. Donc les valeurs
propres λr+1 , · · · , λp sont nulles. Or si un axe factoriel est trivial c’est-à-dire associé à une valeur
propre nulle alors le nuage N est inclus dans l’hyperplan orthogonal à cet axe.

Ainsi lorsque V est de rang r, un individu i a p − r coordonnées nulles donc est caractérisé
par r valeurs ψi,1 , · · · , ψi,r au lieu des p coordonnées initiales dans la base canonique.
Si le taux τ1,2 est proche de 1, on visualise le nuage N dans le plan Vect(u1 , u2 ), noté plan
1 × 2. Sinon on complète cette représentation par les projections sur les plans 1 × 3, 2 × 3, voire
si τ1,2,3 est trop faible, sur les plans 1 × 4, 2 × 4, etc.

Définition 2.2.2 Qualité de représentation La qualité de la représentation de l’individu i

sur Ek est
QLT (yi , Ek ) = cos2 (θi,Ek ),
où θi,Ek est l’angle entre yi et Ek .
22 CHAPITRE 2. ANALYSE EN COMPOSANTES PRINCIPALES

Proposition 2.2.3 On a
k k
X X ψi,α 2
QLT (yi , Ek ) = QLT (yi , Vect(uα )) = ( ) .
α=1 α=1
||yi ||M

Preuve : On note Π la projection orthogonale sur Ek , on a

k
X
Π(yi ) = < yi , uα > uα ,
α=1
donc
2 k
yi Π(yi ) X ψi,α 2
cos2 (θi,Ek ) = < , >M = ( ) .
||yi || ||Π(yi )|| α=1
||yi ||M

Plus ce facteur de qualité se rapproche de 1, mieux est représenté l’individu i. S’il vaut 1,
alors yi est dans Ek .
On note parfois sur les listings, CORα (i) pour désigner 1000 × cos2 (θi,Vect(uα ) ) et aussi
QLTEk (i) = 1000 × cos2 (θi,Ek ).

2.3 Représentation des variables

Les variables y j sont représentés par les vecteurs de l’espace IRn muni de la métrique Dp .
Pour cette métrique, la norme d’un vecteur est l’écart-type de la variable et le produit scalaire
entre deux vecteurs est la covariance entre les deux variables. La composante principale ψα est
un vecteur de IRn .
On suppose que r est le rang de V .

Proposition 2.3.1

2 λα si α = β,
∀(α, β) ∈ [[1, p]] , < ψα , ψβ >Dp =
0 6 β
si α =

On pose
ψα
∀α ∈ [[1, r]], vα = √ .
λα
On en déduit que pour tout 1 ≤ k ≤ r, (v1 , · · · , vk ) est une base Dp -orthonormale de
Vect(v1 , · · · , vk ) = Fk .
En particulier Vect(v1 , · · · , vr ) est une base orthonormale de Vect(y 1 , · · · , y p ) = Im Y , la αième
coordonnée de y j est donnée par
ψα
ηjα =< y j , √ >Dp .
λα
On a
η1α
 

η α =  ...  = λα uα et ||ηα ||2M = λα .

  p

ηrα
2.4. DÉCOMPOSITIONS DE L’INERTIE 23

Preuve On a

< ψα , ψβ >Dp = ψα0 Dp ψβ ,

= u0α M Y 0 Dp Y M uβ ,
= u0α M V M uβ ,
= λβ < uα , uβ >M .

D’où le premier résultat. Puis on a

1 0
ηjα = √ y j Dp Y 0 M uα
λα

donc
1 p
η α = √ Y 0 Dp Y M uα = λα uα .
λα

Définition 2.3.2 Qualité de représentation La qualité de la représentation de la variable

y j sur Fk = Vect(v1 , · · · , vk ), avec 1 ≤ k ≤ r est

QLT (y j , Fk ) = cos2 (θj,Fk ),

où θj,Fk est l’angle entre y j et Fk .

Proposition 2.3.3 On a
k k k
X X yj X
QLT (y j , Fk ) = QLT (y j , Vect(vα )) = < , vα > 2
D = 2
ri,α .
α=1 α=1
||y j || p
α=1

où rj,α désigne la correlation entre y j et vα puisque ces deux variables sont centrées.

2.4 Décompositions de l’inertie

2.4.1 Décomposition de l’inertie selon les individus
Puisque l’inertie totale IT est égale à la somme des valeurs propres et comme chaque valeur
propre λα est le carré de la norme de la composante principale associée ψα pour la métrique
Dp , on a
Xr X r r X
X n
IT = λα = ||ψα ||2Dp = pi (ψi,α )2 .
α=1 α=1 α=1 i=1

On en déduit la définition suivante :

24 CHAPITRE 2. ANALYSE EN COMPOSANTES PRINCIPALES

Définition 2.4.1 Contribution relative

La contribution relative de l’individu yi à l’inertie de l’axe α est

pi (< yi , uα >M )2 pi (ψi,α )2

CT Rα (i) = = ,
λα λα
De même la contribution relative de l’axe α à l’inertie de l’individu yi est

(ψi,α )2
CORα (i) = n = cos2 (θi,α ),
X
(ψk,α )2
k=1

où θi,α est l’angle entre yi et uα .

Sur les listings, CT Rα (i) et CORα (i) sont souvent multipliés par 1000.

2.4.2 Décomposition de l’inertie selon les variables

On suppose que la matrice M est diagonale :

M = diag(m1 , · · · , mp ) où les réels mj , 1 ≤ j ≤ p, sont strictement positifs..

Puisque l’inertie totale IT est égale à la somme des valeurs propres et comme chaque valeur
propre λα est le carré de la norme de ηα pour la métrique M , on a
r
X r
X p
r X
X
IT = λα = ||η α ||2M = mj (ηjα )2 .
α=1 α=1 α=1 j=1

On en déduit la définition suivante :

Définition 2.4.2 Contribution relative

La contribution relative de la variable y j à l’inertie de l’axe α est

mj (< y j , vα >Dp )2
CT Rα (j) = = mj u2j,α ,
λα
De même la contribution relative de l’axe α à l’inertie de la variable y j est
2
CORα (j) = ri,α = cos2 (θj,α ),
où θj,α est l’angle entre y j et vα .

Sur les listings, CT Rα (j) et CORα (j) sont souvent multipliés par 1000.
p
X
Pour tout 1 ≤ α ≤ p, le vecteur uα est unitaire pour la métrique M donc mj u2j,α = 1,
j=1
soit
p
X
λα = λα mj u2j,α .
j=1

On retrouve les formules de contributions relatives pour une variable y j .

2.5. ANALYSE EN COMPOSANTES PRINCIPALES 25

2.4.3 Eléments supplémentaires

Observation douteuse, élément aberrant, cas nouveau, centre de gravité d’un groupe (”homme”,
”femme”), éléments de nature différente ( opinion/CSP).
Individu supplémentaire : tout individu ys de IRp n’ayant pas participé à l’analyse. L’abscisse
ψs,α de sa projection sur Vect(uα )vérifie
0
ψs,α = y s M uα .

X
Il est clair que ψs,α s’obtient en effectuant l’analyse factorielle du tableau X1 = et en
x0s
donnant un poids nul à s. En effet dans ce cas, les seuls points ayant une inertie non nulle sont
les xi pour 1 ≤ i ≤ n.
Exercice : Montrer que l’on a
n
1 X
ψs,α = ws,i pi ψi,α avec ws,i =< ys , yj >M .
λα i=1

variable supplémentaire : toute variable xs de IRn n’ayant pas participé à l’analyse pourra
être représentée par ses projections sur les nouveaux axes vα , on note y s la variable centrée

ψα
ηsα =< y s , √ >M .
λα

2.5 Analyse en composantes principales

La recherche des axes factoriels, facteurs, composantes principales d’un nuage de points dans
IRp muni de la métrique M s’appelle Analyse en Composantes Principales (ACP).

2.5.1 ACP sur matrice variance

On suppose que
1
M = Ip et Dp = In .
n
Dans ce cas, la matrice V M est la matrice de variance-covariance.
On effectue souvent la représentation des variables dans le cercle de corrélations c’est-à-dire
au lieu de représenter les variables selon leurs covariances avec les facteurs, on les représente
par leurs corrélations avec les facteurs.
Si dans un plan, une variable est sur le cercle de corrélations, alors elle parfaitement
représentée, donc expliquée, par les deux facteurs associés.

2.5.2 ACP sur matrice de corrélation ou ACP normée

En divisant chaque variable par son écart-type, on obtient un nouveau tableau Z dont les
variables sont toutes centrées et réduites. On a
1 1
Z = Y ∆ où. ∆ = diag( √ , · · · , √ ).
v11 vpp

Dans ce cas, la matrice Z 0 Dp Z est la matrice de corrélations. On réalise l’ACP sur Z avec
M = Ip . L’inertie totale du nuage est alors égal à p, le nombre de variables.
26 CHAPITRE 2. ANALYSE EN COMPOSANTES PRINCIPALES

On obtient le même résultat en réalisant une ACP sur Y avec

1 1
M = ∆2 = diag( ,···, ).
v11 vpp

Dans ce cas, on diagonalise V M = Y 0 Dp Y M . Soit uα un axe factoriel associé à la valeur propre

λα , on a
Z 0 Dp Z = ∆V ∆.
Donc
Z 0 Dp Z∆uα = ∆V M uα = λα ∆uα ,
ainsi ∆uα est un axe factoriel dans l’analyse de Z associé à la valeur propre λα . Les composantes
principales des deux analyses sont égales car

Z∆uα = Y M uα .

2.6 Analyse factorielle d’un système de points munis de

poids et de distances
On considère un système de points Mi , i ∈ I, munis de poids pi dans un espace affine. On
identifie les points Mi à leurs vecteurs de coordonnées xi dans un espace euclidien muni de la
métrique M .

Théorème 2.6.1 La représentation du nuage NX des xi affectés des poids pi dans le système
des axes factoriels ne dépend que des poids pi et des distances entre Mi et Mi0 où

d2 (Mi , Mi0 ) = ||xi − xi0 ||2M .

preuve Soit ψα la composante principale associée au αième axe factoriel, on a

Y M Y 0 Dp ψα = λα ψα , où Y est le tableau centré associé à X.

Il est clair que

||yi − yi0 ||2M = ||xi − xi0 ||2M .
Pour démontrer le résultat, il suffit de prouver que la matrice Y M Y 0 Dp ne dépend que des
poids pi et des distances d2 (Mi , Mi0 ) et même que Y M Y 0 ne dépend que des poids pi et des
distances d2 (Mi , Mi0 ) = d(i, i0 ) . La matrice Y M Y 0 est la matrice de Gram associée à la famille
de vecteurs (yi )1≤i≤n qui vérifie
Xn
pi yi = 0.
i=1

On pose
n
X n
X
∀i ∈ [[1, n]], d(·, i) = pi0 d(i, i0 ), et d(·, ·) = pi d(·, i).
i0 =1 i=1

On a la première relation

2 −1
∀(i, i0 ) ∈ [[1, n]] , < yi , yi0 >M = (||yi − yi0 ||2M − ||yi ||2M − ||yi0 ||2M ).
2
2.7. APPROCHE SVD 27

On somme de i0 = 1 à n en pondérant par pi0 d’où

1−
0= (d(·, i) − ||yi ||2M − IT ) =⇒ ||yi ||2M = d(·, i) − IT ,
2
n
X
où IT est l’inertie totale : IT = pj ||yi ||2M .
i=1
Puis on somme de i = 1 à n en pondérant par pi d’où
1
0= (d(·, ·) − 2IT ).
2
De cette dernière relation, on déduit que
1
IT = d(·, ·).
2
Par conséquent
2 −1
∀(i, i0 ) ∈ [[1, n]] , < yi , yi0 >M = (d(i, i0 ) − d(·, i) + IT − d(·, i0 ) + IT ),
2
donc
2 −1
∀(i, i0 ) ∈ [[1, n]] , < yi , yi0 >M = (d(i, i0 ) − d(·, i) − d(·, i0 ) + d(·, ·)).
2

2.7 Approche SVD

2.7.1 Introduction
Soit X un tableau n − p et Y le tableau centré. On considère les métriques

Dp = diag(p1 , · · · , pn ) et M = diag(m1 , · · · , mp ).

On exprime l’inertie totale à l’aide de la norme de Frobénius sur les matrices

p
n X
X
0
∀A ∈ Mn,p (IR), ||A||2F = tr(A A) = a2ij .
i=1 j=1

On en déduit donc que

n
X p
n X
X
IT = pi ||yi ||2M = pi mj (yij )2 ,
i=1 i=1 j=1

soit
IT = ||Dp1/2 Y M 1/2 ||2F .
Soit r le rang de Y , soit 1 ≤ k ≤ r, le problème de l’ACP est de déterminer un sous-espace
vectoriel E de dimension inférieure ou égale à k tel que l’inertie totale du nuage Y projeté
orthogonalement sur E soit maximale. Or ce problème est équivalent à rechercher une matrice
1/2
B de rang inférieur à k qui approche le mieux Dp Y M 1/2 au sens de la norme de Frobenius,
c’est-à-dire en notant PE la projection orthogonale sur E

max IT (PE (Y )) = min IT (Y − PE (Y )) = min ||Dp1/2 Y M 1/2 − B||F .

dimE≤k dimE≤k rangB≤k
28 CHAPITRE 2. ANALYSE EN COMPOSANTES PRINCIPALES

On a alors E = Im B 0 .
En effet la matrice PE (Y ) est la matrice dont la ième ligne est la projection de yi sur E.
Ainsi toutes les lignes sont dans E donc le rang de PE (Y ) est inférieur à la dimension de E
1/2 1/2
soit k. De plus les matrices Dp et M 1/2 sont inversibles, donc Dp PE (Y )M 1/2 est de rang
inférieur à k. Ainsi
min IT (Y −PE (Y )) = min ||Dp1/2 Y M 1/2 −Dp1/2 PE (Y )M 1/2 ||2F ≥ min ||Dp1/2 Y M 1/2 −B||F .
dimE≤k dimE≤k rangB≤k

Réciproquement, soit B une matrice de rang inférieur à k, on considère la matrice B1 telle

1/2
que B = Dp B1 M 1/2 . On pose E = Im B10 . Puisque
∀i ∈ [[1, n]], ||yi − bi ||2M ≥ ||yi − pE (yi )||2M ,
on en déduit que
||Dp1/2 (Y − B1 )M 1/2 ||F = ||Dp1/2 Y M 1/2 − B||F ≥ ||Dp1/2 Y M 1/2 − Dp1/2 PE (Y )M 1/2 ||F .
Ainsi il y a égalité
min ||Dp1/2 Y M 1/2 − Dp1/2 PE (Y )M 1/2 ||2F = min ||Dp1/2 Y M 1/2 − B||F .
dimE≤k rangB≤k

Ce problème d’approximation d’une matrice par une matrice de rang inférieur est résolu par
la décomposition SVD. Nous rappelons cette décomposition démontrée en annexe :

Théorème 2.7.1 SVD Soit Y une matrice de format n × p à coefficients réels. On note r le
rang de Y , r ≤ s = min(n, p). Les espaces IRn et IRp sont munis d’une structure euclidienne
canonique. Alors il existe
1. (u1 , · · · , un ) une base orthonormale de IRn ,
2. (v1 , · · · , vp ) une base orthonormale de IRp ,
3. r réels positifs : σ1 ≥ σ2 ≥ · · · ≥ σr > 0,
tel que
r
X
Y = σi ui vi0 .
i=1

Les r réels σi sont uniques. On les appelle valeurs singulières de Y .

Matriciellement, on pose

U = [u1 , · · · , ur ] et V = [v1 , · · · , vr ], Σ = Diag(σ1 , · · · , σr ),

L’équation précédente s’écrit

Y = U ΣV 0 ,
ou encore on peut poser
U = [u1 , · · · , un ] et V = [v1 , · · · , vn ],
et Σ est une matrice n × p dont les coefficients diagonaux sont des réels positifs ou nuls et
tous les autres sont nuls. Les termes diagonaux de Σ sont rangés par ordre décroissant . Les
matrices U et V sont deux matrices orthogonales d’ordre respectif n et p ( U 0 U = U U 0 = In et
V V 0 = V 0 V = Ip )
Dans les deux cas, la matrice Σ est unique.
2.7. APPROCHE SVD 29

2.7.2 Approximation par une matrice de rang inférieur

Etant donné une matrice Y de format n × p, de rang r, on cherche à approcher Y par une
matrice Yk de rang inférieur ou égal à k. On utilise dans ce théorème la norme euclidienne
canonique.

Proposition 2.7.2 Soit Y une matrice de format n − p, de rang r, on a

r
X
Y = U ΣV 0 = σi ui vi0 .
i=1

Soit k un entier non nul inférieur ou égal à r, on pose

k
X
Yk = σi ui vi0 .
i=1

On a alors
k
X r
X
min ||Y − B||F = ||Y − σi ui vi0 ||F = σi2 .
B∈Mn,p (IR),rang(B)≤k
i=1 i=k+1

Yk est ainsi la meilleure approximation de Y par une matrice de rang inférieur ou égal à k.

preuve :
1. soit U et V des matrices orthogonales d’ordre respectifs p et n, on a pour toute matrice
A de format n − p
||V A||F = ||AU ||F = ||A||F .
en effet
||V A||2F = tr(A0 V 0 V A) = tr(A0 A) = ||A||2F .
et
||AU ||2F = tr(U 0 A0 AU ) = tr(A0 A) = ||A||2F .

2. On en déduit que
v
k
u r
X u X
0
||Y − σi ui vi ||F = t σi2 .
i=1 i=k+1

en effet en posant S = diag(0, · · · , 0, σk+1 , · · · , σr )

k
X r
X
||Y − σi ui vi0 ||2F = || σi ui vi0 ||2F ,
i=1 i=k+1

= ||U SV 0 ||2F ,
= ||S 2 ||F ,
0
= tr(SS ),
Xr
= σi2 .
i=k+1
30 CHAPITRE 2. ANALYSE EN COMPOSANTES PRINCIPALES

3. Soit B une matrice de Mn,p (IR) de rang inférieur ou égal à k. On a

||Y − B||F = ||Σ − V 0 BU ||F .

En effet

||Y − B||F = ||V ΣU 0 − B||F ,

= ||V (Σ − V 0 BU )U 0 ||F ,
= ||Σ − V 0 BU ||F ,
X r X n
X
= (σi − (V 0 BU )ii )2 + (V 0 BU )2ij + (V 0 BU )2ii .
i=1 i6=j i=r+1

On en déduit que pour réaliser le minimum, V 0 BU est diagonale de rang k et annule les
k plus grandes valeurs de σi .

Ce résultat peut s’étendre à d’autres normes de matrices.

Proposition 2.7.3 Soit Y une matrice de format n − p, de rang r, on a

r
X
0
Y = U ΣV = σi ui vi0 .
i=1

Soit k un entier non nul inférieur ou égal à r, on pose

k
X
Yk = σi ui vi0 .
i=1

On a alors
k
X
min ||Y − B||2 = ||Y − σi ui vi0 ||2 = σk+1 .
B∈Mn,p (IR),rang(B)≤k
i=1

où
||A||2 = sup (||AX||) et ||X|| est la norme euclidienne canonique.
||X||=1

Yk est ainsi la meilleure approximation de Y par une matrice de rang inférieur ou égal à k.

preuve :
1. On a
k
X r
X
||Y − σi ui vi0 ||2 = || σi ui vi0 ||2 ,
i=1 i=k+1
p
soit x ∈ IR de norme 1, on a
v
r r
u r
X X u X
|| σi ui vi0 x||2 = || σi vi0 x ui ||2 = t σi2 (vi0 x)2 ≤ σk+1 ||x||2 = σk+1 .
i=k+1 i=k+1 i=k+1
2.7. APPROCHE SVD 31

Cette valeur est atteinte pour x = vk+1 donc

k
X
||Y − σi ui vi0 ||2 = σk+1 .
i=1

2. Soit B une matrice quelconque de Mn,p (IR) de rang inférieur ou égal à k.

(a) En utilisant le théorème du rang, on a

dim Ker B ≥ p − k.

(b) Puisque
p ≥ dim(Ker B + Vect(v1 , · · · , vk+1 )) =
\
dim Ker B + dim Vect(v1 , · · · , vk+1 ) − dim(Ker B Vect(v1 , · · · , vk+1 )),
donc \
dim(Ker B Vect(v1 , · · · , vk+1 )) ≥ dim Ker B − p + k + 1 ≥ 1,
T
on en déduit que Ker B Vect(v1 , · · · , vk+1 ) n’est pas réduit au vecteur nul.
(c) Soit w un vecteur unitaire de Ker B ∩ Vect(v1 , · · · , vk+1 ), on a

||(Y − B)w||2 = ||Y w||2,

Xr
= || σi ui vi0 w||2 ,
i=1
k+1
X
= || σi ui vi0 w||2 ,
i=1
k+1
X
= σi2 (vi0 w)2 ,
i=1
k+1
X
≥ 2
σk+1 (vi0 w)2 ,
i=1
2
≥ σk+1 .

Ainsi
||Y − B||2 ≥ σk+1 .

2.7.3 Application à l’ACP

Etant donné un tableau de donnée X de format n × p, on commence par centrer ce tableau
comme dans l’ACP, on obtient la matrice Y . On commence par étudier la cas d’une ACP sur
matrice variance c’est-à-dire M = Ip et Dp = n1 In .
D’après la décomposition SVD de Y , si r est le rang de Y , il existe deux matrices orthogonales
F et U de formats respectifs n et p et r réels positifs σ1 > · · · > σr > 0 tels que

Y = F ΣU 0 ,

où Σ est une matrice de format n − p, vérifiant

32 CHAPITRE 2. ANALYSE EN COMPOSANTES PRINCIPALES

σi si 1 ≤ i = j ≤ r
∀(i, j) ∈ [[1, n]] × [[1, p]], Σi,j =
0 sinon
Les axes factoriels sont obtenus en diagonalisant la matrice V M = V , or on a

1 0 1
V M = V = Y 0 Dp Y = Y Y = U diag(σi2 ) U 0
n n
On en déduit que les axes factoriels sont les vecteurs colonnes de U et les valeurs propres
1 2
n σi .Pour les composantes principales, on diagonalise

1 1
Y M Y 0 Dp = Y Y 0 = F diag(σi2 ) F 0 .
n n
Ainsi la composante principale associé à l’axe α ψα est colinéaire à la αème colonne de F notée
Fα . De plus la norme de ψα pour la métrique Dp est √σin , on en déduit que

ψα = σα Fα .

Dans le cas plus général où M n’est pas l’identité et Dp n’est pas une matrice scalaire, on
suppose que M est une matrice diagonale : M = diag(m1 , · · · , mp ) et Dp = diag(p1 , · · · , pn ).
On se ramène au cas précédent de la manière suivante
1/2
— on transforme Y en Z = Dp Y M 1/2 .
— on applique la décomposition SVD à Z d’où

Z = F0 ΣU00

— puis on revient sur Y

Y = Dp−1/2 F0 Σ(M −1/2 U0 )0 = F ΣU 0 .
On peut conclure comme précédemment que

V M = U diag(σi2 )U 0 M.

Or on a
U 0 M U = U00 M −1/2 M M −1/2 U0 = U00 U0 = Ip .

Ce qui signifie que les vecteurs colonnes de U : u1 , · · · , up forment une base orthonormale
de IRp muni de la métrique M . Ainsi puisque

V M = U diag(σi2 )U −1 ,

u1 , · · · , up sont les p axes factoriels associées respectivement aux valeurs propres σ12 , · · · , σr2 , 0, · · · , 0
où r est le rang de Y .
De même les vecteurs colonnes de F : F1 , · · · , Fn forment une base orthonormale de IRn
muni de la métrique Dp constitués de vecteurs propres de Y M Y 0 Dp . La composante principale
associée à l’axe ui est
ψ i = σ i Fi .

2.7.4 Exemple
On considère le tableau de données suivant :
2.7. APPROCHE SVD 33

I \J x y z
1 1 6 0
2 2 5 1
3 3 4 2
4 4 3 2
5 5 2 1
6 6 1 0
associé aux résultats de trois variables x, y et z mesurées sur un échantillon I de six individus.
On suppose que chaque individu i de I (1 ≤ i ≤ 6) est muni de la masse 1/6 et M = I3 .
On note X le tableau associé. Le tableau centré est
−2.5 2.5 −1
 
 −1.5 1.5 0 
 −0.5 0.5 1 
 
Y =
 0.5 −0.5 1 

1.5 −1.5 0
 
2.5 −2.5 −1
34 CHAPITRE 2. ANALYSE EN COMPOSANTES PRINCIPALES

1/2
On applique la décomposition SVD à la matrice Dp Y = √16 Y , on ne donne que les trois
premières colonnes de U et de V puisque le rang r de Y ne peut dépasser 3 :

−0.5976143 −5.000000e − 01 −0.6210748

 
 −0.3585686 0.000000e + 00 0.2975208   
2.415229 0 0
1  −0.1195229

5.000000e − 01 −0.3769329  

√ Y = × 0 8.164966e − 01 0 
6  0.1195229 5.000000e − 01 −0.4863153 
0 0 1.470706e − 16
0.3585686 2.775558e − 17 −0.2975208
 
0.5976143 −5.000000e − 01 −0.2421734
 0
7.071068e − 01 −1.424533e − 16 −7.071068e − 01
×  −7.071068e − 01 −7.744525e − 17 −7.071068e − 01 
4.596760e − 17 1.000000e + 00 −1.554917e − 16
Donc
−0.5976143 −5.000000e − 01 −0.6210748
 
 −0.3585686 0.000000e + 00 0.2975208   
√  2.415229 0 0
 −0.1195229 5.000000e − 01 −0.3769329  

Y = 6 × 0 8.164966e − 01 0 
 0.1195229 5.000000e − 01 −0.4863153 
0 0 1.470706e − 16
0.3585686 2.775558e − 17 −0.2975208
 
0.5976143 −5.000000e − 01 −0.2421734
 0
7.071068e − 01 −1.424533e − 16 −7.071068e − 01
×  −7.071068e − 01 −7.744525e − 17 −7.071068e − 01 
4.596760e − 17 1.000000e + 00 −1.554917e − 16
Les valeurs propres sont alors les carrés des termes de la diagonale, les axes factoriels sont
donnés par les colonnes de U et les composantes principales se déduisent des colonnes de F . Dans
le tableau ci-dessous, on donne les valeurs propres, puis les axes factoriels, puis les composantes
principales :

λ1 λ2 λ3
5.833333e+00 6.666667e-01 2.664535e-15
7.071068e-01 -1.424533e-16 -7.071068e-01
-7.071068e-01 -7.744525e-17 -7.071068e-01
4.596760e-17 1.000000e+00 -1.554917e-16
-3.5355339 -1.000000e+00 -2.237410e-16
-2.1213203 0.000000e+00 1.071813e-16
-0.7071068 1.000000e+00 -1.357893e-16
0.7071068 1.000000e+00 -1.751941e-16
2.1213203 5.551115e-17 -1.071813e-16
3.5355339 -1.000000e+00 -8.724248e-17

Ces résultats ont été obtenus en utilisant la commande svd de R

Programme en R.

> X=matrix(c(1,2,3,4,5,6,6,5,4,3,2,1,0,1,2,2,1,0),6,3)
> moy=apply(X,MARGIN=2,mean)
> Y=1/sqrt(6)*(X-t(moy\%*\%matrix(c(1,1,1,1,1,1),1,6)))
> s=svd(Y)
Chapitre 3

Analyse Factorielle des

Correspondances

3.1 Introduction
L’analyse Factorielle des Correspondances (AFC) a été introduite pour analyser les tableaux
de contingence. Un tableau de contingence croise les ensembles I et J de deux variables quali-
tatives X et Y . Un tel tableau peut se noter kIJ et a alors pour terme général le nombre k(i, j)
d’individus qui ont pris simultanément la modalité i pour la variable X et la modalité j pour
la variable Y .
L’AFC consiste à effectuer deux ACP, l’une sur le tableau des profils lignes, l’autre sur celui
des profils colonnes de kIJ .
L’AFC peut être appliquée à des tableaux de nombres positifs de types divers : tableaux de
contingence, tableaux homogènes de nombres positifs, tableaux d’échanges, tableau de rangs,
tableaux de présence /absence, tableau disjonctifs complets,....

3.2 Définition des nuages étudiés par l’AFC

3.2.1 Notations
On étudie deux variables qualitatives X et Y , X a p modalités et Y q modalités. Le tableau
de contingence kIJ est une matrice de format p × q. On pose I = {1, · · · p} = [[1, p]] et J =
{1, · · · q} = [[1, q]].
On note
q
X
p
kI = (k(i, ·))i∈I ∈ IR avec k(i, ·) = k(i, j),
j=1
p
X
kJ = (k(·, j)j∈J ∈ IRq avec k(·, j) = k(i, j),
i=1
q X
X p
k= k(i, j).
j=1 i=1

On transforme les effectifs en fréquences : on obtient un nouveau tableau FIJ ou F de

terme courant
k(i, j)
∀(i, j) ∈ I × J, fi,j = .
k

35
36 CHAPITRE 3. ANALYSE FACTORIELLE DES CORRESPONDANCES

On a les lois marginales :

q
p
X k(i·)
fI = (fi· )i∈I ∈ IR avec fi· = fi,j = ,
j=1
k

p
q
X k(·j)
fJ = (f· j)j∈J ∈ IR avec f·j = fi,j = .
i=1
k

fI est la loi marginale sur I et fj sur J. Ainsi fI et fJ sont des distributions de probabilités
donc XX X X
fi,j = fi· = f·j = 1.
i∈I j∈J i∈I j∈J

On peut aussi introduire la loi conditionnelle sur I sachant j appelé profil de la colonne j :

fi,j k(i, j)
fIJ = (fij )i∈I,j∈J avec fij = = ,
f·j k(·, j)

Ainsi fIJ est une matrice de format p × q et fIj est le jième vecteur colonne de IRp .
De même on a la loi conditionnelle sur J sachant i appelé profil de la ligne i :

fi,j k(i, j)
fJI = (fji )i∈I,j∈J avec fji = = ,
fi· k(i, ·)
Ainsi fJI est une matrice de format q × p et fJi est le ième vecteur de IRq .
Puisque fIj et fJi sont des distributions de probabilités, on a
X X
fij = fji = 1.
i∈I j∈J

S’il n’y a pas d’ambiguité, on note fi pour fi· , fj pour f·j , k(i) pour k(i, ·) et k(j) pour
k(·, j).
On suppose qu’aucune ligne ou colonne de KI,J n’est nulle. Donc fi et fj sont non nulles
et fij et fji sont bien définies.

3.2.2 Nuages et métriques

L’AFC consiste à effectuer deux ACP sur deux nuages différents mais présentant une certaine
symétrie. On note

DfI = Diag(fi )i∈I ∈ Mp (IR) et DfJ = Diag(fj )j∈J ∈ Mq (IR).

On a
Df−1
I
= Diag(1/fi )i∈I = D1/fI et Df−1
J
= Diag(1/fj )j∈J = D1/fJ .
On dit que D1/fI (respectivement D1/fJ ) est la métrique du chi-deux de centre fI (respec-
tivement fJ ).
On considère les nuages suivants :
— N (J) = {fIj , j ∈ J}, appelé nuage des profils colonnes, où chaque point fIj de IRp
est muni du poids fj et IRp est muni de la métrique D1/fI .
— N (I) = {fJi , i ∈ I}, appelé nuage des profils lignes, où chaque point fJi de IRq est
muni du poids fi et IRq est muni de la métrique D1/fJ .
3.3. NUAGE N (J) 37

On note

F1 = fIJ = (fI1 , · · · , fIq ) et F2 = fJI = (fJ1 , · · · , fJp ).

F1 est le tableau des profils colonnes et F2 des profils lignes. On peut remarquer que F10 et F20
sont les matrices correspondantes à X.

Proposition 3.2.1 On a
F1 = F D1/fJ et F2 = F 0 D1/fI .
On en déduit que le rang de F est égal au rang de F1 et à celui de F2 .

preuve : Les matrices D1/fJ et D1/fI sont inversibles d’où le résultat.

3.3 Nuage N (J)

3.3.1 Support
Puisque l’on a pour tout j ∈ J X
fij = 1,
i∈I

on en déduit que tous les points du nuage N (J) sont dans l’hyperplan affine de IRp d’équation
X
xi = 1.
i∈I

3.3.2 Centre de gravité

Proposition 3.3.1 Le centre de gravité du nuage N (J) est fI .

Le support du nuage N (J) est inclus dans l’hyperplan affine passant par fI et D1/fI -orthogonal
à fI .

preuve : En effet soit GI ce centre de gravité, on a

GI = fIJ DfJ 1q = F 1q = fI .
Par ailleurs
< fIj − fI , fI >D1/fI = (fIj − fI )0 D1/fI fI = (fIj − fI )0 1p = 0.

3.3.3 Effet du non centrage

On effectue une ACP sur la matrice F10 avec les métriques M = D1/fI et Dp = DfJ . Le
centre de gravité des individus pondérés par Dp est fI , et la matrice de variance V est
V = (F1 − fI 10q )DfJ (F1 − fI 10q )0 = F1 DfJ F10 − fI fI0 .
X
Le support de N (J) est inclus dans l’hyperplan affine d’équation xi = 1, ce qui se traduit
i∈I
par
F10 1p = 1q .
38 CHAPITRE 3. ANALYSE FACTORIELLE DES CORRESPONDANCES

Proposition 3.3.2 La matrice V M = V D1/fI et la matrice F1 DfJ F10 D1/fI ont les mêmes
vecteurs propres et

Spectre(V D1/fI ) = {λp = 0 ≤ λp−1 · · · ≤ λ1 } et Spectre(V D1/fI ) = {1, λp−1 , · · · , λ1 }.

preuve : En effet on a

F1 DfJ F10 D1/fI fI = F1 DfJ F10 1p = F1 DfJ 1q = fI , et fI fI0 D1/fI fI = fI fI0 1p = fI .

On en déduit que fI est un vecteur propre associé à la matrice V D1/fI et à la matrice

F1 DfJ F10 D1/fI avec les valeurs propres 0 et 1 respectivement. Comme ces matrices représentent
des endomorphismes D1/fI -symétriques, l’orthogonal de Vect(fI ) est stable pour ces deux ma-
trices. Or soit u un vecteur de Vect(fI )⊥ , on a

fI fI0 D1/fI u =< fI , u >D1/fI fi = 0.

Ainsi

∀u ∈ Vect(fI )⊥ , V D1/fI u = F1 DfJ F10 D1/fI u,

par conséquent la restriction à Vect(fI )⊥ des endomorphismes représentés par V D1/fI et par
F1 DfJ F10 D1/fI sont identiques donc les deux matrices ont mêmes valeurs propres et même
vecteurs propres.

On en déduit que pour obtenir les axes factoriels de l’ACP, le centrage n’est pas nécéssaire.
Pour le calcul des composantes principales, il n’est pas nécessaire de centrer non plus :

Soit uI un axe factoriel orthogonal à fI , la composante principale ψ J associée à l’axe uI est

∀j ∈ J, ψ j =< (fIj − fI ), uI >=< fIj , uI > .

A l’axe factoriel trivial fI , on associe la composante triviale ψo = F10 D1/fI fI = 1q .

3.3. NUAGE N (J) 39

3.3.4 Axes Factoriels, facteurs et composantes principales

Proposition 3.3.3 L’ACP du nuage N (J) consiste à diagonaliser F1 F2 .

Les axes factoriels sont solutions de
 α α
 F1 F2 uI = λα uI ,
β
< uα
I , uI >D1/fI = δα,β ,
< uα
I , fI >D1/fI = 0.


Les facteurs ϕIα sont solutions de

 0 0 I
 F2 F1 ϕα = λα ϕIα ,
< ϕIα , ϕIβ >DfI = δα,β ,
< ϕIα , 1I >DfI = 0.


Les composantes principales ψαJ sont solutions de

 0 0 J
 F1 F2 ψα = λα ψαJ ,
< ψαJ , ψβJ >DfJ = λα δα,β ,
< ψαJ , 1J >DfJ = 0.


Toutes les valeurs propres λα sont positives et inférieures à 1.

preuve : Pour trouver les axes factoriels, on diagonalise

F1 DfJ F10 D1/fI ,
or F1 = F D1/fJ , on a
F1 DfJ F10 D1/fI = F1 DfJ D1/fJ F 0 D1/fI , = F1 F2 .
Les facteurs sont vecteurs propres de M V sans avoir besoin de centrer donc la matrice
D1/fI F1 DfJ F10 = F20 F10 puisque F2 = F 0 D1/fI .
Enfin les composantes principales sont vecteurs propres de
F10 D1/fI F1 DfJ = F10 F20 .
Enfin les valeurs propres sont positives. De plus le terme courant (j, k) de F10 F20 est
p
X
fij fki
i=1

donc l’égalité F10 F20 ψ = λψ devient

q X
X p
fij fki ψ(k) = λψ(j),
k=1 i=1

en notant ψ(j0 ) la plus grande coordonnée de ψ, on a

q X
X p
λψ(j) ≤ fij fki ψ(j0 ) = ψ(j0 ),
k=1 i=1

on en déduit que 0 ≤ λ ≤ 1.
40 CHAPITRE 3. ANALYSE FACTORIELLE DES CORRESPONDANCES

3.4 Le nuage N (I)

L’étude de N (I) se déduit de celle de N (J) en intervertissant les rôles de I et de J. Ainsi le
X de gravité de N (I) est fJ , le support de N (I) est inclus dans l’hyperplan affine d’équation
centre
xj = 1. On échange F1 et F2 , donc pour trouver les axes factoriels on diagonalise F2 F1 , les
j∈J
facteurs, on diagonalise F10 F20 et les composantes principales, on diagonalise F20 F10 . On a donc

Proposition 3.4.1 L’ACP du nuage N (I) consiste à diagonaliser F2 F1 .

Les axes factoriels sont solutions de
 α α
 F2 F1 uJ = λα uJ ,
α β
< uJ , uJ >D1/fJ = δα,β ,
< uα
J , fJ >D1/fJ = 0.


Les facteurs ϕJα sont solutions de

 0 0 J
 F1 F2 ϕα = λα ϕJα ,
< ϕJα , ϕJβ >DfJ = δα,β ,
< ϕJα , 1J >DfJ = 0.


Les composantes principales ψαI sont solutions de

 0 0 I
 F2 F1 ψα = λα ψαI ,
< ψαI , ψβI >DfI = λα δα,β ,
< ψαI , 1I >DfI = 0.


Toutes les valeurs propres λα sont positives et inférieures à 1.

La proposition suivante établit des relations entre les deux ACP :

Proposition 3.4.2 Formules de transition,

On a p p
ψαJ = F10 ϕIα = λα ϕJα , et ψαI = F20 ϕJα = λα ϕIα .

Ces relations sont appelées relations ou formules de transition.

preuve : Soit λα une valeur propre non nulle de F20 F10

F20 F10 ϕIα = λα ϕIα ,
en multipliant par F10 , on obtient que F10 ϕIα est non nul et est donc un vecteur propre de F10 F20 .
On normalise ce vecteur propre, pour cela on calcule sa norme

||F10 ϕIα ||2 = ϕIα F1 DfJ F10 ϕIα ,

0 I
= ϕI,
α F F1 ϕα ,
0 0 I
= ϕI,
α DfI F2 F1 ϕα ,
= λα ||ϕIα ||2 ,
= λα .
3.4. LE NUAGE N (I) 41

1
Par conséquent √ F10 ϕIα est un vecteur propre unitaire de F10 F20 associé à la valeur propre λα .
λα
De plus soit k et l deux indices distincts, on a
F 0 ϕI F 0 ϕI 1
< √1 k , √1 l > = √ ϕI, F1 DfJ F10 ϕIl ,
λk λl λk λl k
1
= √ ϕI, Df D1/fI F D1/fJ F 0 ϕIl ,
λk λl k I
1
= √ ϕI, Df F 0 F 0 ϕI ,
λk λl k I 2 1 l
= 0.
On note r le nombre de valeurs propres non nulles de F20 F10 , c’est-à-dire le rang de F20 F10 . Ainsi
l’image par F10 de la base orthonormale (ϕI1 , · · · , ϕIr , ϕIr+1 , · · · , ϕIp ) de IRp muni de la métrique
F 0 ϕI F 0 ϕI
DfI donne une famille orthogonale que l’on peut normaliser soit ( √1λ 1 , · · · , √1λ r ), ce qui donne
1 r
une famille orthonormale de IRq muni de la métrique DfJ constituée de vecteurs propres de
F10 F20 .
On en déduit que le rang de F10 F20 est supérieure à r. Par symétrie entre les deux analyses,
on en déduit que F10 F20 et F20 F10 ont même rang et donc les mêmes valeurs propres non nulles.
Par conséquent pour toute valeur propre non nulle, on a
p
F10 ϕIα = λα ϕJα ,
d’où les formules de transition.
Pour une valeur propre nulle, λα = 0, le calcul de la norme de F10 ϕIα montre que
F10 ϕIα = 0.
Les formules de transition sont encore satisfaites.

Remarque 3.4.3 Il existe diverses formulations des relations de transition. Par exemple si la
valeur propre λα est non nulle, on peut écrire
1
ψαJ = √ F10 ψαI .
λα
On en déduit
1 X j i
∀j ∈ J, ψαj = √ f ψ
λα i∈I i α
De même en inversant i et j, on a aussi
1 X i j
∀i ∈ I, ψαi = √ fj ψα .
λα j∈J

On a aussi les même relations de transition pour les facteurs.

Représentation simultanée. En AFC, on effectue une représentation simultanée des mo-
dalités i ∈ I et j ∈ J. Plus précisément, sur chaque axe α, on représente i ∈ I par le point
d’abscisse ψαi et j ∈ J par le point d’abscisse ψαj . Autrement dit, on superpose les représentations
des nuages N (I) et N (J) dans leurs systèmes d’axes respectifs. D’après les formules de transi-
tions, il en résulte qu’au facteur √1λ près, le point j est le barycentre des points i affectés des
α

poids fij . De même le point i est le barycentre des points j affectés des poids fji .
42 CHAPITRE 3. ANALYSE FACTORIELLE DES CORRESPONDANCES

3.5 Inerties
3.5.1 Inertie totale

Proposition 3.5.1 Les nuages N (I) et N (J) ont même inertie totale égale à
X X (fi,j − fi fj )2
IT = .
fi fj
i∈I j∈J

preuve : On a
X
IT = fj ||fIj − fI ||2D(1/fI ) ,
j∈J
X X 1 j
= fj (f − fi )2 ,
fi i
j∈J i∈I
X X fj fi,j
= ( − fi )2 ,
fi fj
j∈J i∈I
X X (fi,j − fi fj )2
= .
fi fj
i∈I j∈J

Remarque 3.5.2 En écrivant :

(fi,j − fi fj )2 = fi,j
2
− 2fi fj fi,j + fi2 fj2 ,
et en remarquant que
−2fi fj fi,j + fi2 fj2
= −2fi,j + fi fj ,
fi fj
on en déduit que
X X −2fi fj fi,j + fi2 fj2 XX X X
= −2 fi,j + fi fj = −2 + 1 = −1.
fi fj
i∈I j∈J i∈I j∈J i∈I j∈J

Par conséquent, on a
2
X X fi,j
IT = − 1.
fi fj
i∈I j∈J

3.5.2 Interprétation de l’inertie totale dans le cas d’un tableau de

contingence
On suppose que K est un tableau de contingence, et plus précisément que I (resp. J) est
l’ensemble des modalités d’une variable qualitative X (resp. Y). Ainsi K donne les effectifs
de co-occurence des couples de modalités (i, j) sur un échantillon de taille k. Donc F est un
estimateur de la mesure de probabilité théorique pI,J (loi jointe de (X, Y )). On sait alors que
asymptotiquement, i.e. pour k tendant vers l’infini, on a
X X (fi,j − pij )2
k → χ2pq−1 ,
pij
i∈I j∈J
3.5. INERTIES 43

où p = Card(I) et q = Card(J).

Lorsque l’on teste l’hypothèse :

H0 : pIJ = pI pJ ,

H0 représente l’hypothèse d’indépendance des variables aléatoires X et Y , on est amené à

estimer les lois marginales pI par fI et pJ par fJ . Pour pI , on estime p − 1 paramètres puisque
la somme des pi vaut 1, de même pour pJ on estime q − 1 paramètres. Il en résulte que
X X (fi,j − fi fj )2
k → χ2µ ,
fi fj
i∈I j∈J

avec
µ = pq − 1 − (p − 1) − (q − 1) = (p − 1)(q − 1).
On en conclut que la quantité
X X (fi,j − fi fj )2
kIT = k
fi fj
i∈I j∈J

permet de tester l’hypothèse d’indépendance des variables X et Y .

Dans le cas d’indépendance, kIT aura tendance à être faible (kIT ≤ cα ), et par conséquent,
puisque IT est la somme des valeurs propres, plus les valeurs propres sont faibles moins les
facteurs sont interprétables.
Si X et Y ne sont pas indépendants, l’AFC permet de voir comment fIJ s’écarte de
l’indépendance, les axes factoriels associés aux plus grandes valeurs propres traduisant les liai-
sons entre X et Y .

3.5.3 Décomposition de l’inertie, Contributions

On exprime IT en fonction des composantes principales des deux ACP, on note r le nombre
de valeurs propres non nulles, on a
r X
X r X
X
IT = fj (ψαj )2 = fi (ψαi )2 .
α=1 j∈J α=1 i∈I

De plus la norme d’une composante principale valant la valeur propre, on a

X X
λα = fj (ψαj )2 = fi (ψαi )2 .
j∈J i∈I

En intervertissant les sommes

X r
X X
IT = fj (ψαj )2 = fj ρ2 (j),
j∈J α=1 j∈J

où ρ2 (j) est la distance au carré entre fIj et fI .

De même
X X r X
IT = fi (ψαi )2 = fi ρ2 (i),
i∈I α=1 i∈I
2
où ρ (i) est la distance au carré entre fJi et fJ . On en déduit les définitions suivantes :
44 CHAPITRE 3. ANALYSE FACTORIELLE DES CORRESPONDANCES

Définition 3.5.3 La contribution de j et i à l’inertie de l’axe α sont respectivement :

fj (ψαj )2 fi (ψαi )2
CT Rα (j) = et CT Rα (i) = .
λα λα
La contribution de l’axe α à l’inertie de j et de i sont

(ψαj )2 2 (ψαi )2
CORα (j) = = cos (θ j,α ) et COR α (i) = = cos2 (θi,α ),
ρ2 (j) ρ2 (i)

où θi,α et θj,α désignent respectivement les angles formés entre fJi − fJ et uα
J d’une part et entre
fIj − fI et uα I d’autre part.

Exemple 3.5.4 Montrer que les relations suivantes sont vérifiées :

cos2 (θj,α ) = corr2 (fjI , ϕIα ) et cos2 (θi,α ) = corr2 (fiJ , ϕJα ),
où corr2 (fjI , ϕIα ) et corr2 (fiJ , ϕJα ) sont calculées respectivement avec les mesures de probabilté
fi et fJ .

3.6 Principe d’équivalence distributionnelle

Proposition 3.6.1 Si deux lignes i1 et i2 (resp. colonnes j1 et j2 ) du tableau fIJ ou kIJ

sont proportionnelles, alors on ne change pas les résultats de l’analyse des correspondances en
remplaçant ces deux lignes (resp. colonnes) par leur somme i0 (resp. j0 ) affectée de la somme
de leurs poids :
∀j ∈ J, fi0 j = fi1 j + fi2 j .

Preuve : On suppose que les deux lignes i1 et i2 du tableau fIJ ou kIJ sont proportionnelles,
alors il existe un réel a tel que
∀j ∈ J, fi1 j = a × fi2 j ,
on en déduit que X X
fi1 · = fi1 j = a × fi2 j = afi2 · .
j∈J j∈J

Ainsi dans le nuage N (I), les deux profils lignes i1 et i2 sont confondus :
fi1 j afi2 j
∀j ∈ J, fji1 = = = fji2 .
fi1 · afi2 ·
Par conséquent l’ACP du nuage N (I) n’est pas modifié si l’on réunit les deux individus i1 et
i2 en un individu i0 affecté du poids fi0 · = fi1 · + fi2 · :
fJi0 = fJi1 = fJi2 .
Ainsi pour tout j ∈ J,
fi0 j = fi0 · fji0 ,
= fi1 · fji0 + fi2 · fji0 ,
= fi1 · fji1 + fi2 · fji2 ,
= f i1 j + f i2 j .
3.7. TABLEAU DE BURT 45

Pour le nuage N (J) initial, les distances entre les colonnes j et j 0 sont
X 1 j 0
d2 (j, j 0 ) = (f − fij )2 ,
fi· i
i∈I

et pour le nuage en tenant compte du regroupement des lignes, on a

X 1 j 0 1 0
d2 (j, j 0 ) = (fi − fij )2 + (fij0 − fij0 )2 .
fi· fi0 ·
i∈I\{i1 ,i2 }

Or
0
1 0 f j − fij0 2
(fij0 − fij0 )2 = fi0 · ( i0 ) ,
f i0 · fi0 ·
fji0 − fji00
= (fi1 · + fi2 · )( )2 ,
f·j
fji0 − fji00 fji0 − fji00
= f i1 · ( ) 2 + f i2 · ( )2 ,
f·j f·j
fji1 − fji01 fji2 − fji02
= f i1 · ( ) 2 + f i2 · ( )2 .
f·j f·j

Par conséquent les distances entre les individus j et j 0 sont les mêmes dans les situations,
donc l’ACP de N (J) est identique dans les deux situations.

Remarque 3.6.2 Cette propriété garantit une invariance des résultats vis à vis du choix de la
momenclature pour la construction des modalités d’une variable, sous réserve de regrouper des
modalités aux profils similaires.

3.7 Tableau de Burt

Soit G = (gjj 0 )j,j 0 ∈J le tableau défini par

G = F 0 D1/fI F.

On a
X fij fij 0
∀(j, j 0 ) ∈ J 2 , gjj 0 = .
fi·
i∈I

On appelle tableau de Burt associé à kIJ le tableau B

X kij kij 0
∀(j, j 0 ) ∈ J 2 , bjj 0 = = kgjj 0 .
ki·
i∈I

La matrice G, appelée tableau de Burt, est symétrique donc les deux marges sont égales.
On note gJ cette marge commune, on a
X X fij fij 0
∀j ∈ J, g·j = gj· = = f·j .
0
fi·
i∈I j ∈J
46 CHAPITRE 3. ANALYSE FACTORIELLE DES CORRESPONDANCES

Donc gJ = fJ . Les matrices profil ligne et profil colonne, G1 et G2 sont

G1 = GD1/fJ = F 0 D1/fI F D1/fJ = F2 F1 et G2 = G0 D1/fJ = G1 .

On en déduit que l’AFC de gJJ donne les mêmes axes factoriels uα J et les mêmes facteurs de
variance 1 ϕJα que ceux obtenus dans l’AFC de kIJ . Les valeurs propres de l’AFC de G sont les
carrés des valeurs propres de L’AFC de kIJ .

Remarque 3.7.1 Si l’on veut représenter l’ensemble I, il suffit de rajouter fIJ en supplémentaire
au tableau gII = G. On obtient la même représentation que dans l’AFC de fIJ .
Chapitre 4

ACM

4.1 Notations-Tableau disjonctif complet-tableau de Burt

4.1.1 Notations et définitions

On note :

Q : ensemble de questions ou de variables qualitatives,

I : ensemble des individus qui ont répondu aux questions, avec n = | I |,
J : ensemble de toutes les modalités de réponse à toutes les questions, avec p = | J |,
Jq : ensemble de toutes les modalités de réponse à la question q,
kIJ : tableau de taille n × p défini par

1 si l’individu i a adopté la modalité j de J,
k(i, j) =
0 sinon.

Définition 4.1.1 Le tableau kIJ est dit disjonctif si chaque individu choisit au plus une mo-
dalité par question (deux modalités d’une même question s’excluent mutuellement). Le tableau
kIJ est dit complet si chaque individu choisit au moins une modalité par question.

Proposition 4.1.2 Un tableau kIJ est disjonctif complet (TDC) si et seulement si :

X
k(i, j) = 1 pour toute question q ∈ Q et tout individu i ∈ I.
j∈Jq

47
48 CHAPITRE 4. ACM

4.1.2 Propriétés des tableaux disjonctifs complets

Proposition 4.1.3 Pour tout individu i ∈ I, toute modalité j ∈ J et toute question q ∈ Q, on

a:
X XX
k(i) = k(i, j) = k(i, j) = Card Q,
j∈J q∈Q j∈Jq
X
k(j) = k(i, j) = nombre d’individus ayant choisi la modalité j,
i∈I
X
k(j) = n,
j∈Jq
XX X
k = k(i, j) = k(i) = n Card Q.
i∈I j∈J i∈I

Exemple 4.1.4 J1 J2 J3 total

1
..
.
i 0 1 0 0 1 0 0 1 0 k(i) = Card Q
..
.
n
total k(j) k = n Card Q

4.2 Tableau de Burt

Définition 4.2.1 Soit kIJ un tableau disjonctif complet, le tableau de Burt associé à kIJ , noté
BJJ , est défini pour tout j, j 0 ∈ J par :
X
B(j, j 0 ) = k(i, j) k(i, j 0 ) = nombre d’individus qui ont choisi les modalités j et j 0 .
i∈I

Si j, j 0 ∈ Jq , alors
si j 6= j 0

0
B(j, j 0 ) =
k(j) sinon.

Proposition 4.2.2 Pour toute modalité j ∈ J et toute question q ∈ Q, on a :

X
B(j, j 0 ) = k(j),
j 0 ∈Jq
X
B(j) = B(j, j 0 ) = k(j) Card Q,
j 0 ∈J
X X
B = B(j, j 0 ) = k(j) Card Q = k Card Q = n(Card Q)2 .
j∈J,j 0 ∈J j∈J
4.3. PROPRIÉTÉS DE L’AFC D’UN QUESTIONNAIRE 49

Exemple 4.2.3  J1  J2 J3 total

k(1) 0 0
J1  0 k(2) 0 
0 0 k(3)
J2
J3 B(i) = k(j) Card Q
total k = n(Card Q)2

On va établir que l’AFC de kIJ équivaut à celle de BJJ .

Remarquons tout d’abord que :

B(j) k(j) k(j)

= = .
B n Card Q k

La marge selon J du tableau kIJ est égale à la marge selon J du tableau BJJ .
Donc les métriques des AFC de kIJ et BJJ dans l’espace IRp sont identiques.

D’après le chapitre précédent, ces deux AFCs sont en fait équivalentes car on a :
X X k(i, j) k(i, j 0 )
B(j, j 0 ) = k(i, j) k(i, j 0 ) = Card Q = k (Card Q) gjj 0 .
k(i)
i∈I i∈I

4.3 Propriétés de l’AFC d’un questionnaire

1) Soit (ϕIα , ϕJα ) les deux facteurs issus de l’AFC de kIJ de rang α, et donc associés à la même
valeur propre λα . Alors ϕJα est le facteur issu de l’AFC de BJJ de rang α, et donc associé à la
valeur propre µα = (λα )2 .

2) Soit FαI (resp. GJα ) les projections des profils-lignes (resp. profils-colonnes) sur l’axe de rang
J
α issu de l’AFC de kIJ . Soit FBα (resp. GJBα ) les projections des profils-lignes (resp. profils-
colonnes) sur l’axe de rang α issu de l’AFC de BJJ . On a :
J √ p
FBα = GJBα = µα ϕJα = λα ϕJα = λα GJα .

Par ailleurs, les formules de transition entraı̂nent que, pour tout i ∈ I, on a :

1 X k(i, j) X k(i, j)
Fα (i) = √ Gα (j) = ϕj .
λα j∈J k(i) Card Q α
j∈J

En notant q(i) la modalité j de la question q ∈ Q choisie par l’individu i, on obtient :

q(i)
X ϕα
Fα (i) = .
Card Q
q∈Q

q(i) Gq(i)
Autrement dit, Fα (i) est égal à la moyenne des ϕα = √αλ , coordonnées ”normalisées”
α
des modalités qui ont été choisies par l’individu i. Autrement dit encore, sur chaque axe, la
représentation
√ de chaque individu coı̈ncide avec la moyenne des modalités qu’il a choisies à
1/ λα près.
50 CHAPITRE 4. ACM

3) Du fait de la structure en blocs des tableaux kIJ et BJJ , on a pour toute question q ∈ Q :
X
f·j ϕjα = 0,
j∈Jq

où ϕJα est un facteur non trivial de l’AFC de BJJ ou de kIJ . On en déduit donc :
X
f·j Gα (j) = 0.
j∈Jq

Autrement dit, lors de l’AFC de kIJ , le centre de gravité des profils fIj pour j ∈ Jq est confondu
avec le centre de gravité global. On a le même résultat pour les profils (lignes ou colonnes) du
tableau (symétrique) BJJ .

4) En pratique, on effectue l’AFC de BJJ et on met le tableau kIJ en supplémentaire. On a

alors :
p X k(i, j)
GBα (j) = λα Gα (j) = Fα (i)
k(j)
i∈I
X Fα (i)
GBα (j) = .
k(j)
q(i)=j

Autrement dit, pour tout axe factoriel, chaque modalité j ∈ J est représentée par le centre de
gravité des individus l’ayant choisie.

4.4 Contributions en ACM

On considère un tableau disjonctif complet. L’inertie totale est donnée par
X XX
IT = f·j ρ2 (j) = f·j ρ2 (j),
j∈J q∈Q j∈Jq

On pose X
CR(j) = f·j ρ2 (j), et CR(Jq ) = f·j ρ2 (j).
j∈Jq

On note p(j) la proportion des individus ayant adopté la modalité j, on a

k(j)
pj = .
n
On démontre alors que
1 − pj
ρ2 (j) = .
pj
k(j) pj
Comme f·j = k = Card Q , on a
1 − pj
CR(j) = ,
Card Q
d’où
Card Jq − 1
CR(Jq ) = ,
Card Q
4.4. CONTRIBUTIONS EN ACM 51

et
Card J
IT = − 1.
Card Q
Décompositions en fonction des axes
On a X XX X
IT = λα = f·j G2α (j),
α α q∈Q j∈Jq

on pose X
CRα (j) = f·j G2α (j), CRα (Jq ) = f·j G2α (j).
j∈Jq

On pose
CRα (Jq )
CT Rα (q) =
λα
est la contribution relative de Jq à l’inertie de l’axe α. On peut poser

CRα (Jq ) X
CORα (q) = , QLT (q) = CORα (q),
CR(Jq ) α

CR(Jq ) CR(Jq )
IN R(q) = = .
CR(J) IT
Règles d’interprétation
1. Proximité entre individus : deux individus se essemblent s’ils ont choisi les mêmes mo-
dalités.
2. Proximité entre deux modalités de variables différentes : ces modalités correspondent aux
points moyens des individus les ayany choisies et sont proches parce qu’elles concernent
les mêmes individus ou des individus semblables.
3. Proximité entre deux modalités d’une même variable : par construction, elles s’excluent.
Si elles sont proches, c’est que les groupes des individus les ayant choisies se ressemblent.
52 CHAPITRE 4. ACM
Annexe A

Espace affine

A.1 Définitions

Définition A.1.1 Soit E un espace vectoriel, on dit que E est un espace affine de direction E
si il existe une application f de E × E dans E notée
−−→
∀(A, B) ∈ E × E, f ((A, B)) = AB,

vérifiant les deux conditions suivantes

— A1 : Relation de Chasles
−−→ −−→ −→
∀(A, B, C) ∈ E × E × E, AB + BC = AC,

— A2 : Pour tout A ∈ E, l’application fA définie de E dans E par

−−→
∀M ∈ E, fA (M ) = AM est une bijection .

Les éléments de E sont appelés points et ceux de E vecteurs. On appelle dimension de E la

dimension de E.

Remarque A.1.2 Pour tout entier n non nul, IRn est un espace affine de direction IRn espace
x1
 
.. 
vectoriel. Ainsi la notation  . peut être vu comme un vecteur de IRn ou un point de l’espace
xn
affine IRn .

−−→
Notations : Soit A ∈ E et u ∈ E, A + u désigne l’unique point B de E tel que AB = u. Ainsi
−−→
∀(A, B) ∈ E × E, ∀u ∈ E, AB = u ⇐⇒ B = A + u ⇐⇒ B − A = u.

53
54 ANNEXE A. ESPACE AFFINE

Définition A.1.3 On considère E un espace affine de direction E, on dit que F est un sous-
espace affine si il existe un point A de E et un sous-espace vectoriel F de E tels que

F = A + F = {M ∈ E, ∃u ∈ F, M = A + u}.

La dimension de F est celle de F .

Exemple A.1.4 Une droite affine de E est un sous-espace affine de dimension 1. Dans ce cas
F = Vect(u) où u est non nul, soit A un point de la droite affine, on note DA,u la droite affine
passant par A de direction Vect(u). On dit encore que u est un vecteur directeur de la droite
affine DA,u , on a

DA,u = {M ∈ E, ∃t ∈ IR, M = A + t u}.

On peut aussi définir une droite affine par deux points distincts A et B, alors la droite affine
passant par A et B est D −−→
A,AB

Exemple A.1.5 Un plan affine de E est un sous-espace affine de dimension 2. Dans ce cas
F = Vect(u, v) où u et v sont des vecteurs non colinéaires, soit A un point du plan affine, on
note PA,(u,v) le plan affine passant par A de direction Vect(u, v). On a

PA,(u,v) = {M ∈ E, ∃(t, s) ∈ IR2 , M = A + t u + s v}.

On peut aussi définir un plan affine par trois points non alignés A, B et C, alors le plan
affine passant par A, B et C est P −−→ −→
A,(AB ,AC )

Exemple A.1.6 On considère le système linéaire

x1


.
AX = b où A ∈ Mn,p (IR), X =  ..  ∈ IRp , b ∈ IRn .
xp

On suppose qu’il existe une solution particulière X0 , alors l’ensemble des solutions du système
linéaire est le sous-espace affine X0 + Ker A de IRp , de dimension dim Ker A = p − rg(A), où
rg(A) est le rang de A.

Exemple A.1.7 Un hyperplan affine de E est un sous-espace affine de dimension dimE − 1.

Remarque A.1.8 Lorsque l’on fixe un point O dans un espace affine E de direction E, on
vectorialise l’espace affine, c’est-à-dire à l’aide de la fonction fO on construit une structure
−−→
d’espace vectoriel sur E, tout point M de E est assimilé au vecteur OM .
A.2. BARYCENTRE 55

A.2 Barycentre

Définition A.2.1 On considère E un espace affine de direction E, soit M1 , · · · , Mn n points

de E, et pour tout 1 ≤ i ≤ n, on affecte à chaque point Mi un coefficient ou poids pi qui est un
réel. Soit O une origine,
n n
X X −−→
— si pi = 0, alors le vecteur pi OMi est indépendant de O.
i=1 i=1
n
X
— si pi = p 6= 0, alors le point G défini par
i=1

n n
1X 1 X −−→
G= pi M i = O + pi OMi est indépendant de O.
p i=1 p i=1

On dit que g est le barycentre des (Mi , pi )1≤i≤n .

Exemple A.2.2 Le milieu de deux points A et B est le barycentre de A et B affectés des poids
1/2 et 1/2.

Définition A.2.3 On considère E un espace affine de direction E, soit M = {M1 , · · · , Mn }

un ensemble de n points de E, on note < M > l’ensemble des barycentres des points de M
affectés de poids quelconques. Alors < M > est un sous-espace affine de E. On dit que < M >
est le sous-espace affine engendré par M. C’est le plus petit sous-espace affine contenant M.

Proposition A.2.4 Le sous-espace affine engendre par M = {M1 , · · · , Mn } est associé au

−−−−→ −−−−→
sous-espace vectoriel Vect(M1 M2 , · · · , M1 Mn ). la dimension de < M > est au plus n − 1.

A.3 Applications affines

Définition A.3.1 On considère E un espace affine de direction E, soit f une application de E

dans E . On dit que f est une application affine si il existe un point O de E tel que l’application
f~ de E dans E qui à tout vecteur u de E associé le vecteur f (O)f (O + u) est linéaire. On
appelle f~ l’application linéaire associée à f .

Remarque A.3.2 Une application affine f est caractérisée par sa valeur en un point et son
application linéaire associée.

Exemple A.3.3 Une translation de vecteur u est une application affine telle que

∀M ∈ E, f (M ) = M + u.

Exemple A.3.4 Une projection orthogonale affine sur le sous-espace affine F est une appli-
cation affine telle qu’il existe un point O de F vérifiant

∀M ∈ E, f (M ) = O + p(OM ) où p est la projection orthogonale linéaire sur F.

56 ANNEXE A. ESPACE AFFINE

Proposition A.3.5 On considère E un espace affine de direction E, soit f une application de

E dans E . l’application f est une application affine si et seulement si f conserve les barycentres
c’est-à-dire pour tout entier n
n
X Xn n
X
∀(xi , ti ) ∈ E × IR, avec ti = 1, f ( t i xi ) = ti f (xi ).
i=1 i=1 i=1
Annexe B

Endomorphisme symétrique

Définition B.0.1 Soit E un espace euclidien muni d’une métrique M , et f un endomorphisme

de E, on dit que f est un endomorphisme symétrique si pour tous x et y de E, on a l’égalité

< x, f (y) >M =< f (x), y >M .

Proposition B.0.2 Tout endomorphisme symétrique est diagonalisable. De plus il existe une
base orthonormale de E constituées de vecteurs propres de f .

La matrice d’un endomorphisme symétrique dans une base orthomormale quelconque de

E est une matrice symétrique à coefficients réels. On en déduit le théorème suivant appelé
théorème spectral.

Proposition B.0.3 Soit A une matrice symétrique à coefficients réels de M(IR), alors A est
diagonalisable, il existe donc une matrice diagobale D et P une matrice inversible tels que

A = P DP −1 .

De plus il est possible de choisir P orthogonale dans ce cas, l’égalité devient

A = P DP 0 .

57
58 ANNEXE B. ENDOMORPHISME SYMÉTRIQUE
Annexe C

Décomposition SVD

Théorème C.0.1 SVD Soit Y une matrice de format n × p à coefficients réels. On note r le
rang de Y , r ≤ s = min(n, p). Les espaces IRn et IRp sont munis d’une structure euclidienne
canonique. Alors il existe
1. (u1 , · · · , un ) une base orthonormale de IRn ,
2. (v1 , · · · , vp ) une base orthonormale de IRp ,
3. r réels positifs : σ1 ≥ σ2 ≥ · · · ≥ σr > 0,
tel que
r
X
Y = σi ui vi0 .
i=1

Les r réels σi sont uniques. On les appelle valeurs singulières de Y .

Matriciellement, on pose

U = [u1 , · · · , ur ] et V = [v1 , · · · , vr ], Σ = Diag(σ1 , · · · , σr ),

L’équation précédente s’écrit

preuve
1. On montre que la matrice Y 0 Y est symétrique à coefficients réels et positive.
En effet Y 0 Y est symétrique à coefficients réels et de plus

∀u ∈ IRp , u0 Y 0 Y u = (Y u)0 Y u = ||Y u|| ≥ 0.

59
60 ANNEXE C. DÉCOMPOSITION SVD

La norme utilisée est la norme euclidienne canonique. Par conséquent Y 0 Y est symétrique,
positive.
2. On montre que le rang de Y 0 Y est égal au rang de Y , noté r.
En effet, d’après la relation précédente, on montre que
Ker Y = Ker Y 0 Y,
donc en utilisant le théorème du rang, on obtient le résultat.
3. D’après le théorème spectral, les valeurs propres de Y 0 Y sont r réels strictement positifs
λ1 ≥ λ2 ≥ · · · ≥ λr > 0 et 0 si r < p, et il existe une matrice orthogonale dont les
colonnes sont des vecteurs propres (v1 , · · · , vp ) de Y 0 Y telle que

D 0
V 0Y 0Y V = où D = diag(λ1 , · · · , λr ).
0 0
4. On pose
1
∀1 ≤ i ≤ r, ui = √ Y vi ;
λi
On montre que la famille (u1 , · · · , ur ) est une famille orthonormale de vecteurs propres
de Y Y 0 .
En effet pour tout 1 ≤ i ≤ r, on a
1 p
Y Y 0 ui = √ Y Y 0 Y vi = λi Y vi = λi ui ,
λi
et pour tout 1 ≤ i, j ≤ r, on a
p
1 λj 0 1 si i = j
< ui , uj >= u0i vj 0 0
= √ p vi Y Y v j = √ vi vj =
λi λj λ i 0 sinon

On complète cette famille orthonormale en une base orthonormale de IRn soit (u1 , · · · , un ).
√
5. On pose σi = λi , 1 ≤ i ≤ r et
X r
A= σi ui vi0 .
i=1
On montre que A est égal à Y . Pour cela il suffit de montrer que pour tout 1 ≤ j ≤ p,
Avj est égal à Y vj .
En effet on a
r
X
0 σj uj = Y vj si 1 ≤ j ≤ r
Avj = σi ui (vi vj ) =
0 sinon
i=1

Par conséquent
r
X
Y = σi ui vi0 .
i=1
6. Ecriture matricielle.
On a
v10
 

[u1 , · · · , ur ]diag(σ1 , · · · , σr )[v1 , · · · , vr ]0 = [σ1 u1 , · · · , σr ur ]  ...  ,

 

vr0
d’où en effectuant des produit par blocs
r
X
[u1 , · · · , ur ]diag(σ1 , · · · , σr )[v1 , · · · , vr ]0 = σi ui vi0 .
i=1
61

7. Les valeurs singulières sont uniques, en effet si Y = U ΣV 0 alors Y 0 Y = V Σ0 ΣV 0 , la

matrice Σ0 Σ est une matrice diagonale diag(σ12 , · · · , σp2 ). Ainsi les σi2 sont les valeurs
propres de Y 0 Y . On en déduit l’unicité.

Définition C.0.2 Etant donnée une valeur singulière σ, on dit que le vecteur unitaire u de
IRn et le vecteur unitaire v de IRp sont respectivement vecteur singulier à gauche et vecteur
singulier à droite pour σ si
Y v = σu et Y 0 u = σv.

Vous aimerez peut-être aussi

Introduction à l'analyse des données
Pas encore d'évaluation
Introduction à l'analyse des données
90 pages
Chapitre 4-Vecteur Aléatoire - Toufik Chaayra
Pas encore d'évaluation
Chapitre 4-Vecteur Aléatoire - Toufik Chaayra
34 pages
AFC pour Étudiants en Sciences Appliquées
Pas encore d'évaluation
AFC pour Étudiants en Sciences Appliquées
42 pages
BAMSIREPRINT04
Pas encore d'évaluation
BAMSIREPRINT04
80 pages
Exercices de révision IAQT
100% (1)
Exercices de révision IAQT
8 pages
Introduction aux chaînes de Markov
Pas encore d'évaluation
Introduction aux chaînes de Markov
58 pages
Introduction aux Probabilités
Pas encore d'évaluation
Introduction aux Probabilités
24 pages
Analyse Factorielle Discriminante en Mathématiques
Pas encore d'évaluation
Analyse Factorielle Discriminante en Mathématiques
78 pages
Introduction à la statistique descriptive
Pas encore d'évaluation
Introduction à la statistique descriptive
250 pages
Cours - Apprentissage Statistique
100% (1)
Cours - Apprentissage Statistique
24 pages
Corr TD Stat 3
100% (1)
Corr TD Stat 3
1 page
Loi Normale et Estimation Statistique
Pas encore d'évaluation
Loi Normale et Estimation Statistique
39 pages
Introduction à l'Algèbre Linéaire
Pas encore d'évaluation
Introduction à l'Algèbre Linéaire
72 pages
Mémoire de Master
Pas encore d'évaluation
Mémoire de Master
54 pages
Fonctions numériques à plusieurs variables
Pas encore d'évaluation
Fonctions numériques à plusieurs variables
83 pages
Théorie des Graphes: Cours et Concepts
100% (1)
Théorie des Graphes: Cours et Concepts
63 pages
Analyse de Composantes Multiples
Pas encore d'évaluation
Analyse de Composantes Multiples
15 pages
Applications du calcul stochastique en mathématiques
Pas encore d'évaluation
Applications du calcul stochastique en mathématiques
64 pages
Analyse des correspondances multiples
Pas encore d'évaluation
Analyse des correspondances multiples
15 pages
Introduction à la statistique descriptive
Pas encore d'évaluation
Introduction à la statistique descriptive
52 pages
Introduction aux réseaux de neurones CNN
Pas encore d'évaluation
Introduction aux réseaux de neurones CNN
19 pages
Variables Aléatoires Discrètes : Définitions et Propriétés
Pas encore d'évaluation
Variables Aléatoires Discrètes : Définitions et Propriétés
2 pages
Analyse en Composantes Principales: Concepts et Applications
Pas encore d'évaluation
Analyse en Composantes Principales: Concepts et Applications
53 pages
MSC Program GoMyCode IC
Pas encore d'évaluation
MSC Program GoMyCode IC
22 pages
Introduction aux SVM et Classification Binaire
Pas encore d'évaluation
Introduction aux SVM et Classification Binaire
50 pages
Introduction aux Processus Stochastiques
Pas encore d'évaluation
Introduction aux Processus Stochastiques
49 pages
Analyse Factorielle des Correspondances
Pas encore d'évaluation
Analyse Factorielle des Correspondances
88 pages
Cours Compléments Mathématiques 3
Pas encore d'évaluation
Cours Compléments Mathématiques 3
87 pages
Beamer Stat1 Article Draft 20180918 PDF
Pas encore d'évaluation
Beamer Stat1 Article Draft 20180918 PDF
45 pages
Introduction aux processus stochastiques
Pas encore d'évaluation
Introduction aux processus stochastiques
47 pages
Introduction aux réseaux de neurones artificiels
Pas encore d'évaluation
Introduction aux réseaux de neurones artificiels
47 pages
Exercices d'Analyse Numérique 2020-2021
Pas encore d'évaluation
Exercices d'Analyse Numérique 2020-2021
3 pages
Analyse des données sur les plantes
Pas encore d'évaluation
Analyse des données sur les plantes
20 pages
Cours-Stat DMPA1 N
Pas encore d'évaluation
Cours-Stat DMPA1 N
51 pages
Régression Logistique en Santé
Pas encore d'évaluation
Régression Logistique en Santé
8 pages
Modèles ARMA et Séries Temporelles
Pas encore d'évaluation
Modèles ARMA et Séries Temporelles
82 pages
Analyse Numérique à Sorbonne Univ.
Pas encore d'évaluation
Analyse Numérique à Sorbonne Univ.
197 pages
Classification des élèves par ACL
Pas encore d'évaluation
Classification des élèves par ACL
157 pages
Test - Hypoth - Ses TD
Pas encore d'évaluation
Test - Hypoth - Ses TD
2 pages
Statistiques des processus stochastiques
Pas encore d'évaluation
Statistiques des processus stochastiques
80 pages
Cours de Probabilités et Statistiques C.O.P.E.
Pas encore d'évaluation
Cours de Probabilités et Statistiques C.O.P.E.
32 pages
Intro Derpartielles
Pas encore d'évaluation
Intro Derpartielles
19 pages
Éléments d'Analyse et d'Algèbre
Pas encore d'évaluation
Éléments d'Analyse et d'Algèbre
55 pages
Polycopié
Pas encore d'évaluation
Polycopié
61 pages
Cours de Statistique Appliquée ENCG Oujda
Pas encore d'évaluation
Cours de Statistique Appliquée ENCG Oujda
27 pages
Statbayesiennes v4
Pas encore d'évaluation
Statbayesiennes v4
29 pages
Modèles d'Aide à la Décision Économétriques
Pas encore d'évaluation
Modèles d'Aide à la Décision Économétriques
17 pages
Corrigés d'optimisation convexe et quadratique
Pas encore d'évaluation
Corrigés d'optimisation convexe et quadratique
61 pages
TP Dichotomie Python
Pas encore d'évaluation
TP Dichotomie Python
2 pages
Cours de Probabilités 2024-2025
100% (1)
Cours de Probabilités 2024-2025
67 pages
Optimisation non linéaire : Théorie et méthodes
Pas encore d'évaluation
Optimisation non linéaire : Théorie et méthodes
52 pages
Master USTHB MF 2017 2018 1 - Removed 1
Pas encore d'évaluation
Master USTHB MF 2017 2018 1 - Removed 1
28 pages
Statap Processus
Pas encore d'évaluation
Statap Processus
153 pages
Analyse Des Donnees M1
Pas encore d'évaluation
Analyse Des Donnees M1
56 pages
Feuilletage 3448
Pas encore d'évaluation
Feuilletage 3448
34 pages
AnalyseDonnees PDF
Pas encore d'évaluation
AnalyseDonnees PDF
105 pages
Analyse en Composantes Principales
Pas encore d'évaluation
Analyse en Composantes Principales
74 pages
Feuilletage
Pas encore d'évaluation
Feuilletage
30 pages
(Sciences Sup) Brigitte Escofier, Jérôme Pagès-Analyses Factorielles Simples Et Multiples - Objectifs, Méthodes Et Interprétation - Dunod (2008)
100% (4)
(Sciences Sup) Brigitte Escofier, Jérôme Pagès-Analyses Factorielles Simples Et Multiples - Objectifs, Méthodes Et Interprétation - Dunod (2008)
328 pages
Cours 2017 Analysed Ed On Nees
Pas encore d'évaluation
Cours 2017 Analysed Ed On Nees
82 pages

Analyse des données et techniques avancées

Transféré par

Analyse des données et techniques avancées

Transféré par

1

Analyse des données

Patrice Bertrand et Denis Pasquignon

2 Analyse en Composantes Principales 17

3 Analyse Factorielle des Correspondances 35

1.1 Tableau de données

X = (xji )i∈I,j∈J ∈ Mn,p (IR).

1.2 Nuages des individus et nuages des variables

Chaque axe représente un individu. L’ensemble des points NX = {N j , 1 ≤ j ≤ p} est

1.3 Centre de gravité du nuage MX

On note Dp la matrice diagonale définie par

La jème coordonnée de G est donnée par

preuve : On remarque que 0

On en déduit que gj est l’abscisse de la projection orthogonale pour la métrique Dp de xj

∀(i, j) ∈ [[1, n]] × [[1, p]], yij = xji − xj ,

1.4 Support des nuages

1.5 Métriques sur IRp

mi,j = M (ei , ej ) =< ei , ej >M = e0i M ej = e0j M ei .

1.6 Matrice Variance

Proposition 1.6.1 En notation matricielle, on a

Alors la covariance entre z et t est donnée par

1.7 Effet d’une transformation linéaire A du nuage des

MZ = {z1 , · · · , zn } avec ∀i ∈ [[1, n]], zi = Axi .

Proposition 1.7.1 Le centre de gravité de MZ affectés des poids p1 , · · · , pn noté gZ est

La matrice de variance de Z noté V ar(Z) est

On note Zc la matrice centrée

Si A = G le centre de gravité , IG (M) est appelée inertie totale du nuage :

Si l’on suppose que M = diag(m1 , · · · , mn ) alors

Proposition 1.8.2 théorème de Huyghens On a

IA (M) = IT (M) + ||A − G||2M .

||xi − A||2M = ||xi − G + G − A||2M ,

Inertie par rapport à un sous-espace affine

où PE est la projection orthogonale sur E.

Remarque 1.8.4 La définition de dM (B, E) ne dépend pas du point A de E.

où EG est le sous-espace affine passant par G de direction E et A un point de E.

Proposition 1.8.6 On note E ⊥ le sous espace affine passant par G et de direction E ⊥ , on a

preuve : On a la relation PE + PE ⊥ = Id, d’où en utilisant Pythagore

Pour le dernier point, il suffit d’appliquer la définition :

Inertie par rapport à une droite affine passant par G

PVect(1 ) (u) =< u, 1 >M 1 .

Proposition 1.8.7 Soit (1 , · · · , k ) une base orthonormale de E pour la métrique M , on

où El est la droite affine passant par G de direction Vect(l ).

preuve : On a pour tout vecteur u

on en déduit que pour i fixé

Par conséquent on obtient par interversion de somme

Calcul de l’inertie totale

Soit N = {xi , i ∈ I} ⊂ IRp un nuage de points p

2.1 Recherche du meilleur sous-espace de dimension k

il est équivalent de rechercher Ek tel que JEk soit maximale.

en notant q la forme quadratique associée à V M , matrice M -symétrique.

Proposition 2.1.1 La matrice V M est une matrice M -symétrique, positive. On en déduit

Preuve : On a pour tout vecteur u et v de IRp :

donc la matrice V M est une matrice M -symétrique. De plus

< V M u, u >M = u0 M V M u = qV (M u),

Preuve : La première partie se démontre par récurrence sur k :

J(Vect(u)) = q(u) ≤ λ1 = q(u1 ) = J(E1 ).

On suppose le résultat vrai pour un entier k ≤ p − 1, Soit E un sous-espace vectoriel de

p ≥ dim(E + Vect(u1 , · · · , uk )⊥ ) = dim E + dim Vect(u1 , · · · , uk )⊥ − dim F,

de plus l’espace Vect(u1 , · · · , uk )⊥ est Vect(uk+1 , · · · , up ), on en déduit que

La réciproque se démontre aussi par récurrence :

où Eλi est le sous-espace propre associé à λi , on peut décomposer v en

donc en notant i0 le plus petit indice i tel que λi 6= λ1

d’où l’on déduit que

alors on reprend le raisonnement précédent : il existe une base orthonormale de E à

J(E) = J(Vect(1 , · · · , k )) + q(z).

La deuxième égalité donne donc

Soit i0 le plus petit indice supérieur à k + 1 tel que λi < λk+1 , on a

On peut introduire les définition suivantes :

— le taux d’inertie expliquée par Eα , noté τ1···α , est la quantité

2.2 Représentations des individus

Définition 2.2.2 Qualité de représentation La qualité de la représentation de l’individu i

Preuve : On note Π la projection orthogonale sur Ek , on a

2.3 Représentation des variables

η α =  ...  = λα uα et ||ηα ||2M = λα .

< ψα , ψβ >Dp = ψα0 Dp ψβ ,

D’où le premier résultat. Puis on a

PVect(1 ) (u) =< u, 1 >M 1 .

Proposition 1.8.7 Soit (1 , · · · , k ) une base orthonormale de E pour la métrique M , on

où El est la droite affine passant par G de direction Vect(l ).

J(E) = J(Vect(1 , · · · , k )) + q(z).