0% ont trouvé ce document utile (0 vote)
89 vues61 pages

Analyse des données et techniques avancées

Transféré par

samirtetouani
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
89 vues61 pages

Analyse des données et techniques avancées

Transféré par

samirtetouani
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

1

Université Paris-Dauphine
M1
Année 2017

Analyse des données

Patrice Bertrand et Denis Pasquignon


2
Table des matières

1 Nuages de points 7
1.1 Tableau de données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2 Nuages des individus et nuages des variables . . . . . . . . . . . . . . . . . . . . . 7
1.3 Centre de gravité du nuage MX . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4 Support des nuages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.5 Métriques sur IRp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.6 Matrice Variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.7 Effet d’une transformation linéaire A du nuage des individus . . . . . . . . . . . 10
1.8 Inerties . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2 Analyse en Composantes Principales 17


2.1 Recherche du meilleur sous-espace de dimension k représentant N . . . . . . . . 17
2.2 Représentations des individus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.3 Représentation des variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.4 Décompositions de l’inertie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.4.1 Décomposition de l’inertie selon les individus . . . . . . . . . . . . . . . . 23
2.4.2 Décomposition de l’inertie selon les variables . . . . . . . . . . . . . . . . 24
2.4.3 Eléments supplémentaires . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.5 Analyse en composantes principales . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.5.1 ACP sur matrice variance . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.5.2 ACP sur matrice de corrélation ou ACP normée . . . . . . . . . . . . . . 25
2.6 Analyse factorielle d’un système de points munis de poids et de distances . . . . 26
2.7 Approche SVD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.7.2 Approximation par une matrice de rang inférieur . . . . . . . . . . . . . . 29
2.7.3 Application à l’ACP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.7.4 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3 Analyse Factorielle des Correspondances 35


3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.2 Définition des nuages étudiés par l’AFC . . . . . . . . . . . . . . . . . . . . . . . 35
3.2.1 Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.2.2 Nuages et métriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.3 Nuage N (J) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.3.1 Support . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.3.2 Centre de gravité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.3.3 Effet du non centrage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.3.4 Axes Factoriels, facteurs et composantes principales . . . . . . . . . . . . 39
3.4 Le nuage N (I) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

3
4 TABLE DES MATIÈRES

3.5 Inerties . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.5.1 Inertie totale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.5.2 Interprétation de l’inertie totale dans le cas d’un tableau de contingence . 42
3.5.3 Décomposition de l’inertie, Contributions . . . . . . . . . . . . . . . . . . 43
3.6 Principe d’équivalence distributionnelle . . . . . . . . . . . . . . . . . . . . . . . 44
3.7 Tableau de Burt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

4 ACM 47
4.1 Notations-Tableau disjonctif complet-tableau de Burt . . . . . . . . . . . . . . . 47
4.1.1 Notations et définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.1.2 Propriétés des tableaux disjonctifs complets . . . . . . . . . . . . . . . . . 48
4.2 Tableau de Burt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.3 Propriétés de l’AFC d’un questionnaire . . . . . . . . . . . . . . . . . . . . . . . 49
4.4 Contributions en ACM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

A Espace affine 53
A.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
A.2 Barycentre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
A.3 Applications affines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

B Endomorphisme symétrique 57

C Décomposition SVD 59
TABLE DES MATIÈRES 5

Introduction
L’analyse des données (AD), et plus généralement la fouille des données (FD), est constituée
d’un ensemble de techniques qui ont pour but de déterminer les structures possédées par l’en-
semble des données. Ces structures peuvent être de nature descriptive ( partition, hiérarchie,
plan factoriel,...) ou explicative ( arbre de décision, analyse factorielle discriminante,...). L’ana-
lyse de données peut être considérée comme une science expérimentale : propriétés démontrées
après avoir été observées, indice empirique pour l’interprétation des résultats, codages établis
de façon heuristique.
Par ailleurs, les premiers résultats fournis par une analyse factorielle sont généralement
évidents, alors que les résultats suivants ne sont pas triviaux et sont souvent intéressants.
Les données peuvent se présenter sous différentes formes : tableaux individus × variables
(dans un but descriptif, l’interprétation établira des liens entre variables et groupes d’individus
qui se ressemblent selon ces variables), tableaux de distances ( représentation des individus
dans un plan, sur une droite, etc ou partitionement de l’ensemble des individus), tableaux de
contingence ( ces tableaux croisent les ensembles de modalités de deux caractères qualitatifs),
tableaux de présence-absence (0/1), tableaux de notes, tableaux de pourcentage...
Les techniques d’analyse de données se différencient non seulement par les outils mathématiques
utilisés ( algèbre linéaire dans le cas de l’analyse factorielle, théorie des graphes et combina-
toire pour certaines méthodes de classification ) mais aussi par les buts poursuivis qui peuvent
être un but descriptif ou un but prévisionnel. Le but descriptif consiste à essayer d’obtenir
une représentation simplifiée aussi proche que possible des données initiales, le but prévisionnel
consiste à expliquer et prévoir une ou plusieurs variables en fonction d’autres variables. Dans
ce cours, nous présenterons les techniques suivantes :
— Analyse en composantes principales (ACP) : rechercher des axes d’inertie d’un système
de points affectés de poids, ce qui permet d’en déduire des sous-espaces de dimensions
réduites sur lesquels la projection des points est la moins déformante.
— Analyse des correspondances (AC) : double ACP ayant un but à la fois descriptif et
prévisionnel ( étude de liens existants entre lignes et colonnes d’un tableau).
6 TABLE DES MATIÈRES
Chapitre 1

Nuages de points

1.1 Tableau de données


On observe p variables quantitatives mesurées sur un échantillon de taille n. Les données
sont rassemblées en un tableau ou matrice de n lignes et p colonnes. On note X ce tableau de
données, son terme général xji , situé à la ième et jème colonne, désigne la valeur prise par le
ième individu pour la variable j.
On note I = [[1, n]] et J = [[1, p]] qui sont les ensembles d’indices désignant respectivement
les n individus et les p variables.

X = (xji )i∈I,j∈J ∈ Mn,p (IR).

Ainsi les valeurs prises par la variable xj pour les n individus se lisent sur la jème colonne
et les valeurs prise par l’individu i pour les p variables se lisent sur la ième ligne. On note xj la
jème variable et xi le ième individu :
 j  1
x1 xi
 ..   .. 
∀(i, j) ∈ [[1, n]] × [[1, p]], x =  .  ∈ IR et xi =  .  ∈ IRp .
j n

xjn xpi

Ainsi
x01
 

X = [x1 , · · · , xp ] =  ...  .
 

x0n

1.2 Nuages des individus et nuages des variables


On munit IRp de la base canonique, O étant l’origine de ce repère, on peut alors associé à
chaque individu i le point Mi tel que
−−→
∀i ∈ [[1, n]], OMi = xi .

Chaque axe représente une variable. L’ensemble des points MX = {Mi , 1 ≤ i ≤ n} est appelé
le nuage des individus et IRp est l’espace des individus.
De même, on munit IRn de la base canonique, on peut alors associé à chaque variable le
point N j tel que
−−−→
∀j ∈ [[1, p]], ON j = xj .

7
8 CHAPITRE 1. NUAGES DE POINTS

Chaque axe représente un individu. L’ensemble des points NX = {N j , 1 ≤ j ≤ p} est


appelé le nuage des variables et IRn est l’espace des variables.
Les ensembles Rn et IRp sont considérés comme des espaces affines. Dans l’annexe A, on
rappelle les principales notions à connaitre pour ce cours.

1.3 Centre de gravité du nuage MX


Chaque individu i est muni d’une masse, appelée aussi poids, notée pi et telle que
n
X
∀i ∈ I, pi > 0 et pi = 1.
i=1

On note Dp la matrice diagonale définie par

Dp = diag(p1 , · · · , pn ).

En général, les poids sont tous égaux à 1/n, mais ce n’est pas toujours le cas comme par exemple
en Analyse des Correspondances.
Le centre de gravité du nuage des individus Mi affecté du poids pi est le point G tel que
n
X
G= pi Mi .
i=1

La jème coordonnée de G est donnée par


n
X
gj = pi xji = xj .
i=1

Ainsi gj est la moyenne de la variable xj et les coordonnées du point G sont les p moyennes des
p variables.

Proposition 1.3.1 On note 1n le vecteur de IRn dont toutes les coordonnées sont égales à 1,
on a  
g1
−−→  .. 
g = OG =  .  = X 0 Dp 1n .
gp

preuve : On remarque que 0


∀j ∈ [[1, p]], gj = xj Dp 1n ,
ce qui donne le résultat.

On en déduit que gj est l’abscisse de la projection orthogonale pour la métrique Dp de xj


sur Vect(1n ).
Il est naturel de centrer le nuage des individus sur le centre de gravité G ce qui revient à
construire un nouveau tableau Y tel que

∀(i, j) ∈ [[1, n]] × [[1, p]], yij = xji − xj ,


1.4. SUPPORT DES NUAGES 9

soit
∀i ∈ [[1, n]], yi = Mi − G.
Ainsi dans ce nouveau tableau de données, toutes les variables y j , 1 ≤ j ≤ p, sont de
moyennes nulles.

Proposition 1.3.2 On a
Y = X − 1n g 0

Par ailleurs
y j = xj − gj 1n = (Id − PVect(1n ) )(xj ),
ce qui signifie que y j est la projection de xj sur l’hyperplan orthogonal à 1n .

1.4 Support des nuages

Définition 1.4.1 On appelle support d’un nuage le plus petit sous-espace affine contenant les
points du nuage. On note

SX = supp(MX ) et SY = supp(MY ).

Puisque le nuage MY est centré, le support SY contient l’origine et est assimilé à un sous-espace
vectoriel
SY = Vect(y1 , · · · , yn ) = Im Y 0 .
On en déduit que la dimension de SY est égale au rang de Y .

1.5 Métriques sur IRp


Pour étudier la proximité entre deux individus d’un même nuage de points, on introduit une
distance notée d entre les individus i et i0 égale à la norme du vecteur joignant ces deux points :
−−−−→
d(i, i0 ) = ||Mi Mi0 ||.

Cette norme provient d’un produit scalaire sur l’espace vectoriel IRp . Etant donnée la base
canonique (e1 , · · · , ep ) de IRp , le produit scalaire est caractérisée par la donnée d’une matrice
carrée d’ordre p dont le terme courant est pour tout 1 ≤ i, j ≤ p

mi,j = M (ei , ej ) =< ei , ej >M = e0i M ej = e0j M ei .

Cette matrice M est symétrique, définie et positive. Réciproquement, toute matrice d’ordre
p symétrique, définie positive permet de définir un produit scalaire dans IRp . Cette matrice
définit une métrique de l’espace IRp .
Dans la suite, nous noterons M la métrique de l’espace IRp et l’espace des individus IRn est
muni de la métrique Dp .
Si l’on suppose que la matrice M est diagonale M = diag(m1 , · · · , mp ), alors
v
u p
uX
d(yi , yi0 ) = t mj (yij − yij0 )2 .
j=1
10 CHAPITRE 1. NUAGES DE POINTS

0
De même, la distance entre deux variables y j et y j est donnée par
v
u n
0 uX 0
j j
d(y , y ) = t pi (yij − yij )2 .
i=1

1.6 Matrice Variance


Par définition, la matrice variance, notée V , des p variables pour les n individus est une
matrice carré d’ordre p et de terme courant vj,j 0 donné par
n
0 X 0 0
∀(j, j 0 ) ∈ [[1, p]], vj,j 0 = Cov(xj , xj ) = pi (xji − gj )(xji − gj 0 ) =< y j , y j >Dp .
i=1

Proposition 1.6.1 En notation matricielle, on a

V = Y 0 Dp Y = (X − 1n g 0 )0 Dp (X − 1n g 0 ) = X 0 Dp X − gg 0 .

Remarque 1.6.2 Si la matrice V est définie positive, elle fournit une métrique sur IRp , métrique
induite par Dp et Y . Si V n’est pas régulière, on aura seulement une pseudo métrique.

u1 v1
   
. .. 
Proposition 1.6.3 Soient u =  .
.  et v =  . de IRp , on définit deux nouvelles va-
up vp
riables z et t par
p
X Xp
z= uj xj et t = vj x j .
j=1 j=1

Alors la covariance entre z et t est donnée par

Cov(z, t) = u0 V v.

Si la matrice V est définie positive, V définit une métrique pour laquelle la covariance entre z
et t est le produit scalaire entre les vecteurs z et t et la variance de la variable z est le carré de
la norme de z soit
Cov(z, t) =< u, v >V et V(z) = ||u||2V .

preuve en TD

1.7 Effet d’une transformation linéaire A du nuage des


individus
Soit A une matrice carrée d’ordre p. On note

MZ = {z1 , · · · , zn } avec ∀i ∈ [[1, n]], zi = Axi .

On obtient ainsi une nouvelle matrice Z dont les lignes sont les z1 , · · · , zn soit

Z 0 = AX 0 donc Z = XA0 .
1.8. INERTIES 11

Proposition 1.7.1 Le centre de gravité de MZ affectés des poids p1 , · · · , pn noté gZ est

gZ = Ag.

La matrice de variance de Z noté V ar(Z) est

V ar(Z) = V ar(XA0 ) = AV A0 .

preuve : On a
n
X n
X
gZ = pi zi = pi Axi = Ag.
i=1 i=1

On note Zc la matrice centrée


0
Zc = Z − 1n gZ = XA0 − 1n g 0 A0 = Y A0 ,

donc
V ar(Z) = Zc0 Dp Zc = AY 0 Dp Y A0 = AV A0 .

1.8 Inerties
Inertie par rapport à un point

Définition 1.8.1 Soit A un point, l’inertie du nuage M = (xi )1≤i≤n par rapport au point A
est
Xn
IA (M) = pi ||xi − A||2M .
i=1

Si A = G le centre de gravité , IG (M) est appelée inertie totale du nuage :

IT (M) = IG (M).

Si l’on suppose que M = diag(m1 , · · · , mn ) alors


n
X n
X p
X p
X
IT (M) = pi ||yi ||2M = pi mj (yij )2 = mj V(y j ),
i=1 i=1 j=1 j=1

où V(y j ) représente la variance de y j . L’inertie totale est ainsi la somme pondérée des variances
des variables initiales, elle mesure la dispersion du nuage autour du centre de gravité.

Proposition 1.8.2 théorème de Huyghens On a

IA (M) = IT (M) + ||A − G||2M .


12 CHAPITRE 1. NUAGES DE POINTS

preuve :

||xi − A||2M = ||xi − G + G − A||2M ,


= ||xi − G||2M + ||G − A||2M + 2 < xi − G, G − A >M .

On en déduit que

n
X
IA (M) = pi ||xi − A||2M ,
i=1
n
X n
X n
X
= pi ||xi − G||2M + pi ||G − A||2M + 2 < pi (xi − G), G − A >M ,
i=1 i=1 i=1
= IT (M) + ||G − A||2M .

Inertie par rapport à un sous-espace affine

Définition 1.8.3 Soit E un sous-espace affine de IRn et E le sous-espace vectoriel associé muni
de la métrique M . Soit A un point de E et B un point de IRn , la distance de B à E est
−−→
dM (B, E) = ||(Id − PE )(AB)||M ,

où PE est la projection orthogonale sur E.


On appelle inertie du nuage M = (Mi )1≤i≤n par rapport au sous-espace affine E
n
X
IE (M) = pi d2M (Mi , E).
i=1

Remarque 1.8.4 La définition de dM (B, E) ne dépend pas du point A de E.

Proposition 1.8.5 On a
−→
IE (M) = IEG (M) + ||(Id − pE )(AG)||2M ,

où EG est le sous-espace affine passant par G de direction E et A un point de E.

preuve :
n
X
IE (M) = pi d2M (Mi , E),
i=1
n
X −−→
= pi ||(Id − PE )(AMi )||2 ,
i=1
n
X −→ −−→
= pi ||(Id − PE )(AG + GMi )||2 ,
i=1
1.8. INERTIES 13

n n
X −→ X −−→
= pi ||(Id − PE )(AG)||2 + pi ||(Id − PE )(GMi ))||2
i=1 i=1
n
−→ X −−→
+2 < (Id − PE )(AG), pi (Id − PE )(GMi ) >M ,
i=1
−→
= ||(Id − PE )(AG)||2 + IEG (M).

Ce résultat montre que parmi tous les sous-espaces affine parallèles à E, celui qui possède une
inertie minimale est celui qui passe par le centre de gravité du nuage.
Par la suite, on recherche le ou les sous-espaces affine de dimension k donnée par rapport
auquel(s) le nuage a une inertie minimale : c’est l’objectif de l’ACP.
On voit donc que ces sous-espaces optimaux passent nécessairement par G. C’est la raison
pour laquelle on supposera, en général, par la suite que le tableau X est centré. Si ce n’est pas
le cas, on raisonnera sur Y .

Proposition 1.8.6 On note E ⊥ le sous espace affine passant par G et de direction E ⊥ , on a

IT = IE (M) + IE ⊥ (M).

On pose
JE (M) = IE ⊥ (M).
JE (M) est l’inertie totale de la projection de M sur E

preuve : On a la relation PE + PE ⊥ = Id, d’où en utilisant Pythagore


n n
X −−→ X −−→
IE (M) + IE ⊥ (M) = pi ||(Id − PE )(GMi )||2 + pi ||(Id − PE ⊥ )(GMi )||2 = IT .
i=1 i=1

Pour le dernier point, il suffit d’appliquer la définition :


n n
X −−→ X −−→
JE (M) = pi ||(Id − PE⊥ )(GMi )||2 = pi ||(PE )(GMi )||2 .
i=1 i=1

Ainsi la recherche de E qui minimise IE (M) est équivalent à rechercher E qui maximise
JE (M).

Inertie par rapport à une droite affine passant par G


Soit 1 un vecteur unitaire pour la métrique M de IRp . Soit E1 la droite affine passant par
G associée à Vect(1 ). Puisque pour tout vecteur u de IRp , on a

PVect(1 ) (u) =< u, 1 >M 1 .

On en déduit que
n
X −−→
JE1 (M) = pi ||(PE )(GMi )||2 ,
i=1
14 CHAPITRE 1. NUAGES DE POINTS

n
X
= pi < yi , 1 >2M ,
i=1
n
X
= pi 01 M yi yi0 M 1 ,
i=1
= 01 M V M 1 .

Décomposition de l’inertie

Proposition 1.8.7 Soit (1 , · · · , k ) une base orthonormale de E pour la métrique M , on


complète cette base en une base orthonormale de IRp soit (1 , · · · , k , k+1 , · · · , p ) une base
orthonormale de IRp . On a
Xp
IEG (M) = JEl (M),
l=k+1

où El est la droite affine passant par G de direction Vect(l ).

preuve : On a pour tout vecteur u


k
X
PE (u) = < u, i >M i ,
i=1

on en déduit que pour i fixé


p
−−→ X −−→
||(Id − PE )(GMi ))||2 = || < GMi , l >M l ||2 ,
l=k+1

ce qui donne
p
−−→ X −−→
||(Id − PE )(GMi ))||2 = < GMi , l >2M ,
l=k+1

et matriciellement
p
−−→ X
||(Id − PE )(GMi ))||2 = 0l M yi yi0 M l .
l=k+1

Par conséquent on obtient par interversion de somme


n
X p
X
IEG (M) = pi 0l M yi yi0 M l ,
i=1 l=k+1
Xp Xn
= 0l M pi yi yi0 M l ,
l=k+1 i=1
Xp
= 0l M V M l ,
l=k+1
Xp
= JEl (M).
l=k+1
1.8. INERTIES 15

Calcul de l’inertie totale

Proposition 1.8.8 On a
IT = tr(V M ).

preuve : On choisit comme base orthonormale une base constitué de vecteurs propres de
M V soit (u1 , · · · , up ), on a

IT = I(IRp )⊥ (M),
p
X
= u0j M V M uj ,
j=1
p
X
= λj ||uj ||2M ,
j=1
p
X
= λj ,
j=1
= tr(M V ) = tr(V M ).

On peut aussi raisonner directement : puisque la trace de AB est égal à la trace de BA, on
en déduit
n
X
IT = pi ||yi ||2M ,
i=1
n
X
= pi yi0 M yi ,
i=1
Xn
= tr( pi yi0 M yi ),
i=1
n
X
= pi tr(yi0 M yi ),
i=1
n
X
= pi tr(M yi yi0 ),
i=1
n
X
= tr(M pj yi yi0 ),
i=1
= tr(M V ) = tr(V M ).
16 CHAPITRE 1. NUAGES DE POINTS
Chapitre 2

Analyse en Composantes
Principales

Soit N = {xi , i ∈ I} ⊂ IRp un nuage de points p


Xde l’espace IR muni de la métrique M .
Chaque point xi est muni de la masse pi > 0 avec pi = 1.
i∈I

2.1 Recherche du meilleur sous-espace de dimension k


représentant N
L’objectif de l’ACP est de rechercher pour un entier k fixé le ou les sous-espaces affine de
dimension k par rapport auquel(s) le nuage a une inertie minimale. D’après ce qui précède, on
sait que le meilleur sous-espace Ek passe par G le centre de gravité de N . On peut donc prendre
l’origine en O = G et il est équivalent de rechercher un sous-espace vectoriel Ek de dimension
k tel que l’inertie In(Ek ) soit minimal. Comme

IT = IEk + JEk ,

il est équivalent de rechercher Ek tel que JEk soit maximale.


Le théorème suivant utilise la remarque suivante : soit E un sous-espace vectoriel de IRp de
dimension k, on considère une base orthonormale (1 , · · · , k ) de E, on a
k
X k
X
JE (N ) = 0j M V M j = q(k ),
j=1 j=1

en notant q la forme quadratique associée à V M , matrice M -symétrique.

Proposition 2.1.1 La matrice V M est une matrice M -symétrique, positive. On en déduit


que V M est diagonalisable, que ses valeurs propres sont des réels et il existe une base M -
orthonormale (u1 , · · · up ) constituée de vecteurs propres de V M associés aux valeurs propres
respectives
λ1 ≥ · · · ≥ λp ≥ 0.
Enfin on a
∀u ∈ IRp , λp ||u||2M ≤ q(u) ≤ λ1 ||u||2M .

17
18 CHAPITRE 2. ANALYSE EN COMPOSANTES PRINCIPALES

Preuve : On a pour tout vecteur u et v de IRp :

< u, V M v >M = u0 M V M v,
= (V M u)0 M v,
= < V M u, v >M .

donc la matrice V M est une matrice M -symétrique. De plus

< V M u, u >M = u0 M V M u = qV (M u),

or V en tant que matrice variance covariance est positive donc qV (M u) est positif. Ainsi la
matrice V M est une matrice M -symétrique, positive. Le reste du théorème est une application
du théorème sur les matrices symétriques.

Théorème 2.1.2 Soit (u1 , · · · up ) une base orthonormale de IRp constituée de vecteurs propres
de V M associés aux valeurs propres respectives

λ1 ≥ λ2 ≥ · · · ≥ λp ≥ 0,

on pose
∀k ∈ [[1, k]], Ek = Vect(u1 , · · · , uk ).
Alors on a
dim Ek = k,

E1 ⊂ E2 ⊂ · · · ⊂ Ep = IRp ,
et
k
X
∀k ∈ [[1, p]], JEk = λi = max (JE ).
Ee.v.dimE=k
i=1
k
X
Réciproquement si F est un sous-espace vectoriel de dimension k tel que JF = λi , alors
i=1
il existe une base orthonormale (v1 , · · · vp ) constituée de vecteurs propres de V M associé aux
valeurs propres respectives λ1 ≥ λ2 ≥ · · · ≥ λp ≥ 0, telle que

F = Vect(v1 , · · · , vk ).

Preuve : La première partie se démontre par récurrence sur k :


Le résultat est vrai pour k = 1 puisque pour tout vecteur unitaire u, on a

J(Vect(u)) = q(u) ≤ λ1 = q(u1 ) = J(E1 ).

On suppose le résultat vrai pour un entier k ≤ p − 1, Soit E un sous-espace vectoriel de


dimension k + 1, on pose
F = E ∩ Vect(u1 , · · · , uk )⊥ .
Avec la formule de Grassman, on a

p ≥ dim(E + Vect(u1 , · · · , uk )⊥ ) = dim E + dim Vect(u1 , · · · , uk )⊥ − dim F,


2.1. RECHERCHE DU MEILLEUR SOUS-ESPACE DE DIMENSION K REPRÉSENTANT N 19

d’où
dim F ≥ k + 1 + p − k − p = 1.
Ainsi la dimension de F est supérieure ou égale à 1, donc il existe un vecteur unitaire z dans
F , on construit une base orthonormale de E à partir de la famille libre (z) soit (1 , · · · , k , z),
on a
J(E) = J(Vect(1 , · · · , k )) + q(z).
D’après l’hypothèse de récurrence, on a
k
X
J(Vect(1 , · · · , k )) ≤ λi ,
i=1

de plus l’espace Vect(u1 , · · · , uk )⊥ est Vect(uk+1 , · · · , up ), on en déduit que

q(z) ≤ λk+1 .

Par conséquent
k+1
X
J(E) ≤ λi = J(Ek+1 ).
i=1

La réciproque se démontre aussi par récurrence :


— Le résultat est vrai pour k = 1. En effet soit v un vecteur unitaire tel que q(v) = λ1 .
Puisque M
Eλ1 ⊕ Eλi = IRp ,
λi 6=λ1

où Eλi est le sous-espace propre associé à λi , on peut décomposer v en


M
v = v1 + w où v1 ∈ Eλ1 , w ∈ Eλi .
λi 6=λ1

On a alors
λ1 = q(v) = q(v1 ) + q(w) = λ1 ||v1 ||2 + q(w).
Par ailleurs X
w= αi ui ,
2≤i≤p, λi 6=λ1

donc en notant i0 le plus petit indice i tel que λi 6= λ1


X
q(w) = αi2 λi ≤ λi0 ||w||2 ,
2≤i≤p, λi 6=λ1

d’où l’on déduit que


q(w) = λ1 ||w||2 ≤ λi0 ||w||2 .
Or λi0 < λ1 , donc w = 0 ainsi v = v1 . Donc v est un vecteur propre unitaire associé à
λ1 .
— On suppose que E est de dimension k + 1 et vérifie
k+1
X
JE = λi ,
i=1
20 CHAPITRE 2. ANALYSE EN COMPOSANTES PRINCIPALES

alors on reprend le raisonnement précédent : il existe une base orthonormale de E à


partir de la famille libre (z) soit (1 , · · · , k , z), on a

J(E) = J(Vect(1 , · · · , k )) + q(z).

Or on a
k
X
J(Vect(1 , · · · , k )) ≤ λi et q(z) ≤ λk+1 .
i=1

Etant donnée l’égalité, les deux inégalités sont des égalités. En utilisant l’hypothèse de
récurrence, la première montre que Vect(1 , · · · , k ) corresponds à Fk .
Par ailleurs, le vecteur unitaire z est combinaison linéaire de uk+1 , · · · , up

p
X p
X
z= αi ui et αi2 = 1.
i=k+1 i=k+1

La deuxième égalité donne donc

p
X
αi2 λi = λk+1 .
i=k+1

Soit i0 le plus petit indice supérieur à k + 1 tel que λi < λk+1 , on a

0 −1
iX p
X p
X
λk+1 αi2 + λi αi2 = λk+1 αi2 ,
i=k+1 i=i0 i=k+1

d’où
p
X p
X
λi αi2 = λk+1 αi2 ,
i=i0 i=i0

p
X
puisque λi < λk+1 , l’égalité n’est possible que si αi2 = 0. Ainsi z est dans Eλk+1 .
i=i0

On peut introduire les définition suivantes :


2.2. REPRÉSENTATIONS DES INDIVIDUS 21

Définition 2.1.3 Soit (u1 , · · · up ) une base orthonormale de vecteurs propres de V M associé
aux valeurs propres respectives
λ1 ≥ λ2 ≥ · · · ≥ λp ≥ 0,
pour tout entier 1 ≤ α ≤ p,
— l’axe Vect(uα ) est appelé le αième axe factoriel du nuage de points N .
— ϕα = M uα est appelé le αième facteur,
— ∀i ∈ [[1, n]], ψi,α =< yi , uα >M = yi0 M uα = yi0 ϕα est l’abscisse de la projection de yi sur
Vect(uα ) :
 
ψ1,α
ψα =  ...  = Y ϕα = Y M uα est appelée α ième composante principale.
 

ψn,α

— le taux d’inertie expliquée par le αième axe factoriel, noté τα , est la quantité
λα λα
τα = = p .
IT X
λi
i=1

— le taux d’inertie expliquée par Eα , noté τ1···α , est la quantité


α
λ1 + · · · + λα X
τ1···α = = τi .
IT i=1

2.2 Représentations des individus

Proposition 2.2.1 Si la matrice V est de rang r, alors le nuage N centré a pour support
Er = Vect(u1 , · · · , ur ).

Preuve : En effet V et V M ont même rang puisque M est inversible. Donc les valeurs
propres λr+1 , · · · , λp sont nulles. Or si un axe factoriel est trivial c’est-à-dire associé à une valeur
propre nulle alors le nuage N est inclus dans l’hyperplan orthogonal à cet axe.

Ainsi lorsque V est de rang r, un individu i a p − r coordonnées nulles donc est caractérisé
par r valeurs ψi,1 , · · · , ψi,r au lieu des p coordonnées initiales dans la base canonique.
Si le taux τ1,2 est proche de 1, on visualise le nuage N dans le plan Vect(u1 , u2 ), noté plan
1 × 2. Sinon on complète cette représentation par les projections sur les plans 1 × 3, 2 × 3, voire
si τ1,2,3 est trop faible, sur les plans 1 × 4, 2 × 4, etc.

Définition 2.2.2 Qualité de représentation La qualité de la représentation de l’individu i


sur Ek est
QLT (yi , Ek ) = cos2 (θi,Ek ),
où θi,Ek est l’angle entre yi et Ek .
22 CHAPITRE 2. ANALYSE EN COMPOSANTES PRINCIPALES

Proposition 2.2.3 On a
k k
X X ψi,α 2
QLT (yi , Ek ) = QLT (yi , Vect(uα )) = ( ) .
α=1 α=1
||yi ||M

Preuve : On note Π la projection orthogonale sur Ek , on a


k
X
Π(yi ) = < yi , uα > uα ,
α=1
donc
 2 k
yi Π(yi ) X ψi,α 2
cos2 (θi,Ek ) = < , >M = ( ) .
||yi || ||Π(yi )|| α=1
||yi ||M

Plus ce facteur de qualité se rapproche de 1, mieux est représenté l’individu i. S’il vaut 1,
alors yi est dans Ek .
On note parfois sur les listings, CORα (i) pour désigner 1000 × cos2 (θi,Vect(uα ) ) et aussi
QLTEk (i) = 1000 × cos2 (θi,Ek ).

2.3 Représentation des variables


Les variables y j sont représentés par les vecteurs de l’espace IRn muni de la métrique Dp .
Pour cette métrique, la norme d’un vecteur est l’écart-type de la variable et le produit scalaire
entre deux vecteurs est la covariance entre les deux variables. La composante principale ψα est
un vecteur de IRn .
On suppose que r est le rang de V .

Proposition 2.3.1

2 λα si α = β,
∀(α, β) ∈ [[1, p]] , < ψα , ψβ >Dp =
0 6 β
si α =

On pose
ψα
∀α ∈ [[1, r]], vα = √ .
λα
On en déduit que pour tout 1 ≤ k ≤ r, (v1 , · · · , vk ) est une base Dp -orthonormale de
Vect(v1 , · · · , vk ) = Fk .
En particulier Vect(v1 , · · · , vr ) est une base orthonormale de Vect(y 1 , · · · , y p ) = Im Y , la αième
coordonnée de y j est donnée par
ψα
ηjα =< y j , √ >Dp .
λα
On a
η1α
 

η α =  ...  = λα uα et ||ηα ||2M = λα .


  p

ηrα
2.4. DÉCOMPOSITIONS DE L’INERTIE 23

Preuve On a

< ψα , ψβ >Dp = ψα0 Dp ψβ ,


= u0α M Y 0 Dp Y M uβ ,
= u0α M V M uβ ,
= λβ < uα , uβ >M .

D’où le premier résultat. Puis on a

1 0
ηjα = √ y j Dp Y 0 M uα
λα

donc
1 p
η α = √ Y 0 Dp Y M uα = λα uα .
λα

Définition 2.3.2 Qualité de représentation La qualité de la représentation de la variable


y j sur Fk = Vect(v1 , · · · , vk ), avec 1 ≤ k ≤ r est

QLT (y j , Fk ) = cos2 (θj,Fk ),

où θj,Fk est l’angle entre y j et Fk .

Proposition 2.3.3 On a
k k k
X X yj X
QLT (y j , Fk ) = QLT (y j , Vect(vα )) = < , vα > 2
D = 2
ri,α .
α=1 α=1
||y j || p
α=1

où rj,α désigne la correlation entre y j et vα puisque ces deux variables sont centrées.

2.4 Décompositions de l’inertie


2.4.1 Décomposition de l’inertie selon les individus
Puisque l’inertie totale IT est égale à la somme des valeurs propres et comme chaque valeur
propre λα est le carré de la norme de la composante principale associée ψα pour la métrique
Dp , on a
Xr X r r X
X n
IT = λα = ||ψα ||2Dp = pi (ψi,α )2 .
α=1 α=1 α=1 i=1

On en déduit la définition suivante :


24 CHAPITRE 2. ANALYSE EN COMPOSANTES PRINCIPALES

Définition 2.4.1 Contribution relative


La contribution relative de l’individu yi à l’inertie de l’axe α est

pi (< yi , uα >M )2 pi (ψi,α )2


CT Rα (i) = = ,
λα λα
De même la contribution relative de l’axe α à l’inertie de l’individu yi est

(ψi,α )2
CORα (i) = n = cos2 (θi,α ),
X
(ψk,α )2
k=1

où θi,α est l’angle entre yi et uα .

Sur les listings, CT Rα (i) et CORα (i) sont souvent multipliés par 1000.

2.4.2 Décomposition de l’inertie selon les variables


On suppose que la matrice M est diagonale :

M = diag(m1 , · · · , mp ) où les réels mj , 1 ≤ j ≤ p, sont strictement positifs..

Puisque l’inertie totale IT est égale à la somme des valeurs propres et comme chaque valeur
propre λα est le carré de la norme de ηα pour la métrique M , on a
r
X r
X p
r X
X
IT = λα = ||η α ||2M = mj (ηjα )2 .
α=1 α=1 α=1 j=1

On en déduit la définition suivante :

Définition 2.4.2 Contribution relative


La contribution relative de la variable y j à l’inertie de l’axe α est

mj (< y j , vα >Dp )2
CT Rα (j) = = mj u2j,α ,
λα
De même la contribution relative de l’axe α à l’inertie de la variable y j est
2
CORα (j) = ri,α = cos2 (θj,α ),
où θj,α est l’angle entre y j et vα .

Sur les listings, CT Rα (j) et CORα (j) sont souvent multipliés par 1000.
p
X
Pour tout 1 ≤ α ≤ p, le vecteur uα est unitaire pour la métrique M donc mj u2j,α = 1,
j=1
soit
p
X
λα = λα mj u2j,α .
j=1

On retrouve les formules de contributions relatives pour une variable y j .


2.5. ANALYSE EN COMPOSANTES PRINCIPALES 25

2.4.3 Eléments supplémentaires


Observation douteuse, élément aberrant, cas nouveau, centre de gravité d’un groupe (”homme”,
”femme”), éléments de nature différente ( opinion/CSP).
Individu supplémentaire : tout individu ys de IRp n’ayant pas participé à l’analyse. L’abscisse
ψs,α de sa projection sur Vect(uα )vérifie
0
ψs,α = y s M uα .
 
X
Il est clair que ψs,α s’obtient en effectuant l’analyse factorielle du tableau X1 = et en
x0s
donnant un poids nul à s. En effet dans ce cas, les seuls points ayant une inertie non nulle sont
les xi pour 1 ≤ i ≤ n.
Exercice : Montrer que l’on a
n
1 X
ψs,α = ws,i pi ψi,α avec ws,i =< ys , yj >M .
λα i=1

variable supplémentaire : toute variable xs de IRn n’ayant pas participé à l’analyse pourra
être représentée par ses projections sur les nouveaux axes vα , on note y s la variable centrée

ψα
ηsα =< y s , √ >M .
λα

2.5 Analyse en composantes principales


La recherche des axes factoriels, facteurs, composantes principales d’un nuage de points dans
IRp muni de la métrique M s’appelle Analyse en Composantes Principales (ACP).

2.5.1 ACP sur matrice variance


On suppose que
1
M = Ip et Dp = In .
n
Dans ce cas, la matrice V M est la matrice de variance-covariance.
On effectue souvent la représentation des variables dans le cercle de corrélations c’est-à-dire
au lieu de représenter les variables selon leurs covariances avec les facteurs, on les représente
par leurs corrélations avec les facteurs.
Si dans un plan, une variable est sur le cercle de corrélations, alors elle parfaitement
représentée, donc expliquée, par les deux facteurs associés.

2.5.2 ACP sur matrice de corrélation ou ACP normée


En divisant chaque variable par son écart-type, on obtient un nouveau tableau Z dont les
variables sont toutes centrées et réduites. On a
1 1
Z = Y ∆ où. ∆ = diag( √ , · · · , √ ).
v11 vpp

Dans ce cas, la matrice Z 0 Dp Z est la matrice de corrélations. On réalise l’ACP sur Z avec
M = Ip . L’inertie totale du nuage est alors égal à p, le nombre de variables.
26 CHAPITRE 2. ANALYSE EN COMPOSANTES PRINCIPALES

On obtient le même résultat en réalisant une ACP sur Y avec


1 1
M = ∆2 = diag( ,···, ).
v11 vpp

Dans ce cas, on diagonalise V M = Y 0 Dp Y M . Soit uα un axe factoriel associé à la valeur propre


λα , on a
Z 0 Dp Z = ∆V ∆.
Donc
Z 0 Dp Z∆uα = ∆V M uα = λα ∆uα ,
ainsi ∆uα est un axe factoriel dans l’analyse de Z associé à la valeur propre λα . Les composantes
principales des deux analyses sont égales car

Z∆uα = Y M uα .

2.6 Analyse factorielle d’un système de points munis de


poids et de distances
On considère un système de points Mi , i ∈ I, munis de poids pi dans un espace affine. On
identifie les points Mi à leurs vecteurs de coordonnées xi dans un espace euclidien muni de la
métrique M .

Théorème 2.6.1 La représentation du nuage NX des xi affectés des poids pi dans le système
des axes factoriels ne dépend que des poids pi et des distances entre Mi et Mi0 où

d2 (Mi , Mi0 ) = ||xi − xi0 ||2M .

preuve Soit ψα la composante principale associée au αième axe factoriel, on a

Y M Y 0 Dp ψα = λα ψα , où Y est le tableau centré associé à X.

Il est clair que


||yi − yi0 ||2M = ||xi − xi0 ||2M .
Pour démontrer le résultat, il suffit de prouver que la matrice Y M Y 0 Dp ne dépend que des
poids pi et des distances d2 (Mi , Mi0 ) et même que Y M Y 0 ne dépend que des poids pi et des
distances d2 (Mi , Mi0 ) = d(i, i0 ) . La matrice Y M Y 0 est la matrice de Gram associée à la famille
de vecteurs (yi )1≤i≤n qui vérifie
Xn
pi yi = 0.
i=1

On pose
n
X n
X
∀i ∈ [[1, n]], d(·, i) = pi0 d(i, i0 ), et d(·, ·) = pi d(·, i).
i0 =1 i=1

On a la première relation

2 −1
∀(i, i0 ) ∈ [[1, n]] , < yi , yi0 >M = (||yi − yi0 ||2M − ||yi ||2M − ||yi0 ||2M ).
2
2.7. APPROCHE SVD 27

On somme de i0 = 1 à n en pondérant par pi0 d’où


1−
0= (d(·, i) − ||yi ||2M − IT ) =⇒ ||yi ||2M = d(·, i) − IT ,
2
n
X
où IT est l’inertie totale : IT = pj ||yi ||2M .
i=1
Puis on somme de i = 1 à n en pondérant par pi d’où
1
0= (d(·, ·) − 2IT ).
2
De cette dernière relation, on déduit que
1
IT = d(·, ·).
2
Par conséquent
2 −1
∀(i, i0 ) ∈ [[1, n]] , < yi , yi0 >M = (d(i, i0 ) − d(·, i) + IT − d(·, i0 ) + IT ),
2
donc
2 −1
∀(i, i0 ) ∈ [[1, n]] , < yi , yi0 >M = (d(i, i0 ) − d(·, i) − d(·, i0 ) + d(·, ·)).
2

2.7 Approche SVD


2.7.1 Introduction
Soit X un tableau n − p et Y le tableau centré. On considère les métriques

Dp = diag(p1 , · · · , pn ) et M = diag(m1 , · · · , mp ).

On exprime l’inertie totale à l’aide de la norme de Frobénius sur les matrices


p
n X
X
0
∀A ∈ Mn,p (IR), ||A||2F = tr(A A) = a2ij .
i=1 j=1

On en déduit donc que


n
X p
n X
X
IT = pi ||yi ||2M = pi mj (yij )2 ,
i=1 i=1 j=1

soit
IT = ||Dp1/2 Y M 1/2 ||2F .
Soit r le rang de Y , soit 1 ≤ k ≤ r, le problème de l’ACP est de déterminer un sous-espace
vectoriel E de dimension inférieure ou égale à k tel que l’inertie totale du nuage Y projeté
orthogonalement sur E soit maximale. Or ce problème est équivalent à rechercher une matrice
1/2
B de rang inférieur à k qui approche le mieux Dp Y M 1/2 au sens de la norme de Frobenius,
c’est-à-dire en notant PE la projection orthogonale sur E

max IT (PE (Y )) = min IT (Y − PE (Y )) = min ||Dp1/2 Y M 1/2 − B||F .


dimE≤k dimE≤k rangB≤k
28 CHAPITRE 2. ANALYSE EN COMPOSANTES PRINCIPALES

On a alors E = Im B 0 .
En effet la matrice PE (Y ) est la matrice dont la ième ligne est la projection de yi sur E.
Ainsi toutes les lignes sont dans E donc le rang de PE (Y ) est inférieur à la dimension de E
1/2 1/2
soit k. De plus les matrices Dp et M 1/2 sont inversibles, donc Dp PE (Y )M 1/2 est de rang
inférieur à k. Ainsi
min IT (Y −PE (Y )) = min ||Dp1/2 Y M 1/2 −Dp1/2 PE (Y )M 1/2 ||2F ≥ min ||Dp1/2 Y M 1/2 −B||F .
dimE≤k dimE≤k rangB≤k

Réciproquement, soit B une matrice de rang inférieur à k, on considère la matrice B1 telle


1/2
que B = Dp B1 M 1/2 . On pose E = Im B10 . Puisque
∀i ∈ [[1, n]], ||yi − bi ||2M ≥ ||yi − pE (yi )||2M ,
on en déduit que
||Dp1/2 (Y − B1 )M 1/2 ||F = ||Dp1/2 Y M 1/2 − B||F ≥ ||Dp1/2 Y M 1/2 − Dp1/2 PE (Y )M 1/2 ||F .
Ainsi il y a égalité
min ||Dp1/2 Y M 1/2 − Dp1/2 PE (Y )M 1/2 ||2F = min ||Dp1/2 Y M 1/2 − B||F .
dimE≤k rangB≤k

Ce problème d’approximation d’une matrice par une matrice de rang inférieur est résolu par
la décomposition SVD. Nous rappelons cette décomposition démontrée en annexe :

Théorème 2.7.1 SVD Soit Y une matrice de format n × p à coefficients réels. On note r le
rang de Y , r ≤ s = min(n, p). Les espaces IRn et IRp sont munis d’une structure euclidienne
canonique. Alors il existe
1. (u1 , · · · , un ) une base orthonormale de IRn ,
2. (v1 , · · · , vp ) une base orthonormale de IRp ,
3. r réels positifs : σ1 ≥ σ2 ≥ · · · ≥ σr > 0,
tel que
r
X
Y = σi ui vi0 .
i=1

Les r réels σi sont uniques. On les appelle valeurs singulières de Y .


Matriciellement, on pose

U = [u1 , · · · , ur ] et V = [v1 , · · · , vr ], Σ = Diag(σ1 , · · · , σr ),

L’équation précédente s’écrit

Y = U ΣV 0 ,
ou encore on peut poser
U = [u1 , · · · , un ] et V = [v1 , · · · , vn ],
et Σ est une matrice n × p dont les coefficients diagonaux sont des réels positifs ou nuls et
tous les autres sont nuls. Les termes diagonaux de Σ sont rangés par ordre décroissant . Les
matrices U et V sont deux matrices orthogonales d’ordre respectif n et p ( U 0 U = U U 0 = In et
V V 0 = V 0 V = Ip )
Dans les deux cas, la matrice Σ est unique.
2.7. APPROCHE SVD 29

2.7.2 Approximation par une matrice de rang inférieur


Etant donné une matrice Y de format n × p, de rang r, on cherche à approcher Y par une
matrice Yk de rang inférieur ou égal à k. On utilise dans ce théorème la norme euclidienne
canonique.

Proposition 2.7.2 Soit Y une matrice de format n − p, de rang r, on a


r
X
Y = U ΣV 0 = σi ui vi0 .
i=1

Soit k un entier non nul inférieur ou égal à r, on pose


k
X
Yk = σi ui vi0 .
i=1

On a alors
k
X r
X
min ||Y − B||F = ||Y − σi ui vi0 ||F = σi2 .
B∈Mn,p (IR),rang(B)≤k
i=1 i=k+1

Yk est ainsi la meilleure approximation de Y par une matrice de rang inférieur ou égal à k.

preuve :
1. soit U et V des matrices orthogonales d’ordre respectifs p et n, on a pour toute matrice
A de format n − p
||V A||F = ||AU ||F = ||A||F .
en effet
||V A||2F = tr(A0 V 0 V A) = tr(A0 A) = ||A||2F .
et
||AU ||2F = tr(U 0 A0 AU ) = tr(A0 A) = ||A||2F .

2. On en déduit que
v
k
u r
X u X
0
||Y − σi ui vi ||F = t σi2 .
i=1 i=k+1

en effet en posant S = diag(0, · · · , 0, σk+1 , · · · , σr )

k
X r
X
||Y − σi ui vi0 ||2F = || σi ui vi0 ||2F ,
i=1 i=k+1

= ||U SV 0 ||2F ,
= ||S 2 ||F ,
0
= tr(SS ),
Xr
= σi2 .
i=k+1
30 CHAPITRE 2. ANALYSE EN COMPOSANTES PRINCIPALES

3. Soit B une matrice de Mn,p (IR) de rang inférieur ou égal à k. On a

||Y − B||F = ||Σ − V 0 BU ||F .

En effet

||Y − B||F = ||V ΣU 0 − B||F ,


= ||V (Σ − V 0 BU )U 0 ||F ,
= ||Σ − V 0 BU ||F ,
X r X n
X
= (σi − (V 0 BU )ii )2 + (V 0 BU )2ij + (V 0 BU )2ii .
i=1 i6=j i=r+1

On en déduit que pour réaliser le minimum, V 0 BU est diagonale de rang k et annule les
k plus grandes valeurs de σi .

Ce résultat peut s’étendre à d’autres normes de matrices.

Proposition 2.7.3 Soit Y une matrice de format n − p, de rang r, on a


r
X
0
Y = U ΣV = σi ui vi0 .
i=1

Soit k un entier non nul inférieur ou égal à r, on pose


k
X
Yk = σi ui vi0 .
i=1

On a alors
k
X
min ||Y − B||2 = ||Y − σi ui vi0 ||2 = σk+1 .
B∈Mn,p (IR),rang(B)≤k
i=1

où
||A||2 = sup (||AX||) et ||X|| est la norme euclidienne canonique.
||X||=1

Yk est ainsi la meilleure approximation de Y par une matrice de rang inférieur ou égal à k.

preuve :
1. On a
k
X r
X
||Y − σi ui vi0 ||2 = || σi ui vi0 ||2 ,
i=1 i=k+1
p
soit x ∈ IR de norme 1, on a
v
r r
u r
X X u X
|| σi ui vi0 x||2 = || σi vi0 x ui ||2 = t σi2 (vi0 x)2 ≤ σk+1 ||x||2 = σk+1 .
i=k+1 i=k+1 i=k+1
2.7. APPROCHE SVD 31

Cette valeur est atteinte pour x = vk+1 donc


k
X
||Y − σi ui vi0 ||2 = σk+1 .
i=1

2. Soit B une matrice quelconque de Mn,p (IR) de rang inférieur ou égal à k.


(a) En utilisant le théorème du rang, on a

dim Ker B ≥ p − k.

(b) Puisque
p ≥ dim(Ker B + Vect(v1 , · · · , vk+1 )) =
\
dim Ker B + dim Vect(v1 , · · · , vk+1 ) − dim(Ker B Vect(v1 , · · · , vk+1 )),
donc \
dim(Ker B Vect(v1 , · · · , vk+1 )) ≥ dim Ker B − p + k + 1 ≥ 1,
T
on en déduit que Ker B Vect(v1 , · · · , vk+1 ) n’est pas réduit au vecteur nul.
(c) Soit w un vecteur unitaire de Ker B ∩ Vect(v1 , · · · , vk+1 ), on a

||(Y − B)w||2 = ||Y w||2,


Xr
= || σi ui vi0 w||2 ,
i=1
k+1
X
= || σi ui vi0 w||2 ,
i=1
k+1
X
= σi2 (vi0 w)2 ,
i=1
k+1
X
≥ 2
σk+1 (vi0 w)2 ,
i=1
2
≥ σk+1 .

Ainsi
||Y − B||2 ≥ σk+1 .

2.7.3 Application à l’ACP


Etant donné un tableau de donnée X de format n × p, on commence par centrer ce tableau
comme dans l’ACP, on obtient la matrice Y . On commence par étudier la cas d’une ACP sur
matrice variance c’est-à-dire M = Ip et Dp = n1 In .
D’après la décomposition SVD de Y , si r est le rang de Y , il existe deux matrices orthogonales
F et U de formats respectifs n et p et r réels positifs σ1 > · · · > σr > 0 tels que

Y = F ΣU 0 ,

où Σ est une matrice de format n − p, vérifiant


32 CHAPITRE 2. ANALYSE EN COMPOSANTES PRINCIPALES


σi si 1 ≤ i = j ≤ r
∀(i, j) ∈ [[1, n]] × [[1, p]], Σi,j =
0 sinon
Les axes factoriels sont obtenus en diagonalisant la matrice V M = V , or on a

1 0 1
V M = V = Y 0 Dp Y = Y Y = U diag(σi2 ) U 0
n n
On en déduit que les axes factoriels sont les vecteurs colonnes de U et les valeurs propres
1 2
n σi .Pour les composantes principales, on diagonalise

1 1
Y M Y 0 Dp = Y Y 0 = F diag(σi2 ) F 0 .
n n
Ainsi la composante principale associé à l’axe α ψα est colinéaire à la αème colonne de F notée
Fα . De plus la norme de ψα pour la métrique Dp est √σin , on en déduit que

ψα = σα Fα .

Dans le cas plus général où M n’est pas l’identité et Dp n’est pas une matrice scalaire, on
suppose que M est une matrice diagonale : M = diag(m1 , · · · , mp ) et Dp = diag(p1 , · · · , pn ).
On se ramène au cas précédent de la manière suivante
1/2
— on transforme Y en Z = Dp Y M 1/2 .
— on applique la décomposition SVD à Z d’où

Z = F0 ΣU00

— puis on revient sur Y


Y = Dp−1/2 F0 Σ(M −1/2 U0 )0 = F ΣU 0 .
On peut conclure comme précédemment que

V M = U diag(σi2 )U 0 M.

Or on a
U 0 M U = U00 M −1/2 M M −1/2 U0 = U00 U0 = Ip .

Ce qui signifie que les vecteurs colonnes de U : u1 , · · · , up forment une base orthonormale
de IRp muni de la métrique M . Ainsi puisque

V M = U diag(σi2 )U −1 ,

u1 , · · · , up sont les p axes factoriels associées respectivement aux valeurs propres σ12 , · · · , σr2 , 0, · · · , 0
où r est le rang de Y .
De même les vecteurs colonnes de F : F1 , · · · , Fn forment une base orthonormale de IRn
muni de la métrique Dp constitués de vecteurs propres de Y M Y 0 Dp . La composante principale
associée à l’axe ui est
ψ i = σ i Fi .

2.7.4 Exemple
On considère le tableau de données suivant :
2.7. APPROCHE SVD 33

I \J x y z
1 1 6 0
2 2 5 1
3 3 4 2
4 4 3 2
5 5 2 1
6 6 1 0
associé aux résultats de trois variables x, y et z mesurées sur un échantillon I de six individus.
On suppose que chaque individu i de I (1 ≤ i ≤ 6) est muni de la masse 1/6 et M = I3 .
On note X le tableau associé. Le tableau centré est
−2.5 2.5 −1
 
 −1.5 1.5 0 
 −0.5 0.5 1 
 
Y =
 0.5 −0.5 1 

1.5 −1.5 0
 
2.5 −2.5 −1
34 CHAPITRE 2. ANALYSE EN COMPOSANTES PRINCIPALES

1/2
On applique la décomposition SVD à la matrice Dp Y = √16 Y , on ne donne que les trois
premières colonnes de U et de V puisque le rang r de Y ne peut dépasser 3 :

−0.5976143 −5.000000e − 01 −0.6210748


 
 −0.3585686 0.000000e + 00 0.2975208   
2.415229 0 0
1  −0.1195229

5.000000e − 01 −0.3769329  

√ Y = × 0 8.164966e − 01 0 
6  0.1195229 5.000000e − 01 −0.4863153 
0 0 1.470706e − 16
0.3585686 2.775558e − 17 −0.2975208
 
0.5976143 −5.000000e − 01 −0.2421734
 0
7.071068e − 01 −1.424533e − 16 −7.071068e − 01
×  −7.071068e − 01 −7.744525e − 17 −7.071068e − 01 
4.596760e − 17 1.000000e + 00 −1.554917e − 16
Donc
−0.5976143 −5.000000e − 01 −0.6210748
 
 −0.3585686 0.000000e + 00 0.2975208   
√  2.415229 0 0
 −0.1195229 5.000000e − 01 −0.3769329  

Y = 6 × 0 8.164966e − 01 0 
 0.1195229 5.000000e − 01 −0.4863153 
0 0 1.470706e − 16
0.3585686 2.775558e − 17 −0.2975208
 
0.5976143 −5.000000e − 01 −0.2421734
 0
7.071068e − 01 −1.424533e − 16 −7.071068e − 01
×  −7.071068e − 01 −7.744525e − 17 −7.071068e − 01 
4.596760e − 17 1.000000e + 00 −1.554917e − 16
Les valeurs propres sont alors les carrés des termes de la diagonale, les axes factoriels sont
donnés par les colonnes de U et les composantes principales se déduisent des colonnes de F . Dans
le tableau ci-dessous, on donne les valeurs propres, puis les axes factoriels, puis les composantes
principales :

λ1 λ2 λ3
5.833333e+00 6.666667e-01 2.664535e-15
7.071068e-01 -1.424533e-16 -7.071068e-01
-7.071068e-01 -7.744525e-17 -7.071068e-01
4.596760e-17 1.000000e+00 -1.554917e-16
-3.5355339 -1.000000e+00 -2.237410e-16
-2.1213203 0.000000e+00 1.071813e-16
-0.7071068 1.000000e+00 -1.357893e-16
0.7071068 1.000000e+00 -1.751941e-16
2.1213203 5.551115e-17 -1.071813e-16
3.5355339 -1.000000e+00 -8.724248e-17

Ces résultats ont été obtenus en utilisant la commande svd de R


Programme en R.

> X=matrix(c(1,2,3,4,5,6,6,5,4,3,2,1,0,1,2,2,1,0),6,3)
> moy=apply(X,MARGIN=2,mean)
> Y=1/sqrt(6)*(X-t(moy\%*\%matrix(c(1,1,1,1,1,1),1,6)))
> s=svd(Y)
Chapitre 3

Analyse Factorielle des


Correspondances

3.1 Introduction
L’analyse Factorielle des Correspondances (AFC) a été introduite pour analyser les tableaux
de contingence. Un tableau de contingence croise les ensembles I et J de deux variables quali-
tatives X et Y . Un tel tableau peut se noter kIJ et a alors pour terme général le nombre k(i, j)
d’individus qui ont pris simultanément la modalité i pour la variable X et la modalité j pour
la variable Y .
L’AFC consiste à effectuer deux ACP, l’une sur le tableau des profils lignes, l’autre sur celui
des profils colonnes de kIJ .
L’AFC peut être appliquée à des tableaux de nombres positifs de types divers : tableaux de
contingence, tableaux homogènes de nombres positifs, tableaux d’échanges, tableau de rangs,
tableaux de présence /absence, tableau disjonctifs complets,....

3.2 Définition des nuages étudiés par l’AFC


3.2.1 Notations
On étudie deux variables qualitatives X et Y , X a p modalités et Y q modalités. Le tableau
de contingence kIJ est une matrice de format p × q. On pose I = {1, · · · p} = [[1, p]] et J =
{1, · · · q} = [[1, q]].
On note
q
X
p
kI = (k(i, ·))i∈I ∈ IR avec k(i, ·) = k(i, j),
j=1
p
X
kJ = (k(·, j)j∈J ∈ IRq avec k(·, j) = k(i, j),
i=1
q X
X p
k= k(i, j).
j=1 i=1

On transforme les effectifs en fréquences : on obtient un nouveau tableau FIJ ou F de


terme courant
k(i, j)
∀(i, j) ∈ I × J, fi,j = .
k

35
36 CHAPITRE 3. ANALYSE FACTORIELLE DES CORRESPONDANCES

On a les lois marginales :


q
p
X k(i·)
fI = (fi· )i∈I ∈ IR avec fi· = fi,j = ,
j=1
k

p
q
X k(·j)
fJ = (f· j)j∈J ∈ IR avec f·j = fi,j = .
i=1
k

fI est la loi marginale sur I et fj sur J. Ainsi fI et fJ sont des distributions de probabilités
donc XX X X
fi,j = fi· = f·j = 1.
i∈I j∈J i∈I j∈J

On peut aussi introduire la loi conditionnelle sur I sachant j appelé profil de la colonne j :

fi,j k(i, j)
fIJ = (fij )i∈I,j∈J avec fij = = ,
f·j k(·, j)

Ainsi fIJ est une matrice de format p × q et fIj est le jième vecteur colonne de IRp .
De même on a la loi conditionnelle sur J sachant i appelé profil de la ligne i :

fi,j k(i, j)
fJI = (fji )i∈I,j∈J avec fji = = ,
fi· k(i, ·)
Ainsi fJI est une matrice de format q × p et fJi est le ième vecteur de IRq .
Puisque fIj et fJi sont des distributions de probabilités, on a
X X
fij = fji = 1.
i∈I j∈J

S’il n’y a pas d’ambiguité, on note fi pour fi· , fj pour f·j , k(i) pour k(i, ·) et k(j) pour
k(·, j).
On suppose qu’aucune ligne ou colonne de KI,J n’est nulle. Donc fi et fj sont non nulles
et fij et fji sont bien définies.

3.2.2 Nuages et métriques


L’AFC consiste à effectuer deux ACP sur deux nuages différents mais présentant une certaine
symétrie. On note

DfI = Diag(fi )i∈I ∈ Mp (IR) et DfJ = Diag(fj )j∈J ∈ Mq (IR).

On a
Df−1
I
= Diag(1/fi )i∈I = D1/fI et Df−1
J
= Diag(1/fj )j∈J = D1/fJ .
On dit que D1/fI (respectivement D1/fJ ) est la métrique du chi-deux de centre fI (respec-
tivement fJ ).
On considère les nuages suivants :
— N (J) = {fIj , j ∈ J}, appelé nuage des profils colonnes, où chaque point fIj de IRp
est muni du poids fj et IRp est muni de la métrique D1/fI .
— N (I) = {fJi , i ∈ I}, appelé nuage des profils lignes, où chaque point fJi de IRq est
muni du poids fi et IRq est muni de la métrique D1/fJ .
3.3. NUAGE N (J) 37

On note

F1 = fIJ = (fI1 , · · · , fIq ) et F2 = fJI = (fJ1 , · · · , fJp ).


F1 est le tableau des profils colonnes et F2 des profils lignes. On peut remarquer que F10 et F20
sont les matrices correspondantes à X.

Proposition 3.2.1 On a
F1 = F D1/fJ et F2 = F 0 D1/fI .
On en déduit que le rang de F est égal au rang de F1 et à celui de F2 .

preuve : Les matrices D1/fJ et D1/fI sont inversibles d’où le résultat.

3.3 Nuage N (J)


3.3.1 Support
Puisque l’on a pour tout j ∈ J X
fij = 1,
i∈I

on en déduit que tous les points du nuage N (J) sont dans l’hyperplan affine de IRp d’équation
X
xi = 1.
i∈I

3.3.2 Centre de gravité

Proposition 3.3.1 Le centre de gravité du nuage N (J) est fI .


Le support du nuage N (J) est inclus dans l’hyperplan affine passant par fI et D1/fI -orthogonal
à fI .

preuve : En effet soit GI ce centre de gravité, on a


GI = fIJ DfJ 1q = F 1q = fI .
Par ailleurs
< fIj − fI , fI >D1/fI = (fIj − fI )0 D1/fI fI = (fIj − fI )0 1p = 0.

3.3.3 Effet du non centrage


On effectue une ACP sur la matrice F10 avec les métriques M = D1/fI et Dp = DfJ . Le
centre de gravité des individus pondérés par Dp est fI , et la matrice de variance V est
V = (F1 − fI 10q )DfJ (F1 − fI 10q )0 = F1 DfJ F10 − fI fI0 .
X
Le support de N (J) est inclus dans l’hyperplan affine d’équation xi = 1, ce qui se traduit
i∈I
par
F10 1p = 1q .
38 CHAPITRE 3. ANALYSE FACTORIELLE DES CORRESPONDANCES

Proposition 3.3.2 La matrice V M = V D1/fI et la matrice F1 DfJ F10 D1/fI ont les mêmes
vecteurs propres et

Spectre(V D1/fI ) = {λp = 0 ≤ λp−1 · · · ≤ λ1 } et Spectre(V D1/fI ) = {1, λp−1 , · · · , λ1 }.

preuve : En effet on a

F1 DfJ F10 D1/fI fI = F1 DfJ F10 1p = F1 DfJ 1q = fI , et fI fI0 D1/fI fI = fI fI0 1p = fI .

On en déduit que fI est un vecteur propre associé à la matrice V D1/fI et à la matrice


F1 DfJ F10 D1/fI avec les valeurs propres 0 et 1 respectivement. Comme ces matrices représentent
des endomorphismes D1/fI -symétriques, l’orthogonal de Vect(fI ) est stable pour ces deux ma-
trices. Or soit u un vecteur de Vect(fI )⊥ , on a

fI fI0 D1/fI u =< fI , u >D1/fI fi = 0.

Ainsi

∀u ∈ Vect(fI )⊥ , V D1/fI u = F1 DfJ F10 D1/fI u,

par conséquent la restriction à Vect(fI )⊥ des endomorphismes représentés par V D1/fI et par
F1 DfJ F10 D1/fI sont identiques donc les deux matrices ont mêmes valeurs propres et même
vecteurs propres.

On en déduit que pour obtenir les axes factoriels de l’ACP, le centrage n’est pas nécéssaire.
Pour le calcul des composantes principales, il n’est pas nécessaire de centrer non plus :

Soit uI un axe factoriel orthogonal à fI , la composante principale ψ J associée à l’axe uI est

∀j ∈ J, ψ j =< (fIj − fI ), uI >=< fIj , uI > .

A l’axe factoriel trivial fI , on associe la composante triviale ψo = F10 D1/fI fI = 1q .


3.3. NUAGE N (J) 39

3.3.4 Axes Factoriels, facteurs et composantes principales

Proposition 3.3.3 L’ACP du nuage N (J) consiste à diagonaliser F1 F2 .


Les axes factoriels sont solutions de
 α α
 F1 F2 uI = λα uI ,
β
< uα
I , uI >D1/fI = δα,β ,
< uα
I , fI >D1/fI = 0.

Les facteurs ϕIα sont solutions de


 0 0 I
 F2 F1 ϕα = λα ϕIα ,
< ϕIα , ϕIβ >DfI = δα,β ,
< ϕIα , 1I >DfI = 0.

Les composantes principales ψαJ sont solutions de


 0 0 J
 F1 F2 ψα = λα ψαJ ,
< ψαJ , ψβJ >DfJ = λα δα,β ,
< ψαJ , 1J >DfJ = 0.

Toutes les valeurs propres λα sont positives et inférieures à 1.

preuve : Pour trouver les axes factoriels, on diagonalise


F1 DfJ F10 D1/fI ,
or F1 = F D1/fJ , on a
F1 DfJ F10 D1/fI = F1 DfJ D1/fJ F 0 D1/fI , = F1 F2 .
Les facteurs sont vecteurs propres de M V sans avoir besoin de centrer donc la matrice
D1/fI F1 DfJ F10 = F20 F10 puisque F2 = F 0 D1/fI .
Enfin les composantes principales sont vecteurs propres de
F10 D1/fI F1 DfJ = F10 F20 .
Enfin les valeurs propres sont positives. De plus le terme courant (j, k) de F10 F20 est
p
X
fij fki
i=1

donc l’égalité F10 F20 ψ = λψ devient


q X
X p
fij fki ψ(k) = λψ(j),
k=1 i=1

en notant ψ(j0 ) la plus grande coordonnée de ψ, on a


q X
X p
λψ(j) ≤ fij fki ψ(j0 ) = ψ(j0 ),
k=1 i=1

on en déduit que 0 ≤ λ ≤ 1.
40 CHAPITRE 3. ANALYSE FACTORIELLE DES CORRESPONDANCES

3.4 Le nuage N (I)


L’étude de N (I) se déduit de celle de N (J) en intervertissant les rôles de I et de J. Ainsi le
X de gravité de N (I) est fJ , le support de N (I) est inclus dans l’hyperplan affine d’équation
centre
xj = 1. On échange F1 et F2 , donc pour trouver les axes factoriels on diagonalise F2 F1 , les
j∈J
facteurs, on diagonalise F10 F20 et les composantes principales, on diagonalise F20 F10 . On a donc

Proposition 3.4.1 L’ACP du nuage N (I) consiste à diagonaliser F2 F1 .


Les axes factoriels sont solutions de
 α α
 F2 F1 uJ = λα uJ ,
α β
< uJ , uJ >D1/fJ = δα,β ,
< uα
J , fJ >D1/fJ = 0.

Les facteurs ϕJα sont solutions de


 0 0 J
 F1 F2 ϕα = λα ϕJα ,
< ϕJα , ϕJβ >DfJ = δα,β ,
< ϕJα , 1J >DfJ = 0.

Les composantes principales ψαI sont solutions de


 0 0 I
 F2 F1 ψα = λα ψαI ,
< ψαI , ψβI >DfI = λα δα,β ,
< ψαI , 1I >DfI = 0.

Toutes les valeurs propres λα sont positives et inférieures à 1.

La proposition suivante établit des relations entre les deux ACP :

Proposition 3.4.2 Formules de transition,

On a p p
ψαJ = F10 ϕIα = λα ϕJα , et ψαI = F20 ϕJα = λα ϕIα .

Ces relations sont appelées relations ou formules de transition.

preuve : Soit λα une valeur propre non nulle de F20 F10


F20 F10 ϕIα = λα ϕIα ,
en multipliant par F10 , on obtient que F10 ϕIα est non nul et est donc un vecteur propre de F10 F20 .
On normalise ce vecteur propre, pour cela on calcule sa norme

||F10 ϕIα ||2 = ϕIα F1 DfJ F10 ϕIα ,


0 I
= ϕI,
α F F1 ϕα ,
0 0 I
= ϕI,
α DfI F2 F1 ϕα ,
= λα ||ϕIα ||2 ,
= λα .
3.4. LE NUAGE N (I) 41

1
Par conséquent √ F10 ϕIα est un vecteur propre unitaire de F10 F20 associé à la valeur propre λα .
λα
De plus soit k et l deux indices distincts, on a
F 0 ϕI F 0 ϕI 1
< √1 k , √1 l > = √ ϕI, F1 DfJ F10 ϕIl ,
λk λl λk λl k
1
= √ ϕI, Df D1/fI F D1/fJ F 0 ϕIl ,
λk λl k I
1
= √ ϕI, Df F 0 F 0 ϕI ,
λk λl k I 2 1 l
= 0.
On note r le nombre de valeurs propres non nulles de F20 F10 , c’est-à-dire le rang de F20 F10 . Ainsi
l’image par F10 de la base orthonormale (ϕI1 , · · · , ϕIr , ϕIr+1 , · · · , ϕIp ) de IRp muni de la métrique
F 0 ϕI F 0 ϕI
DfI donne une famille orthogonale que l’on peut normaliser soit ( √1λ 1 , · · · , √1λ r ), ce qui donne
1 r
une famille orthonormale de IRq muni de la métrique DfJ constituée de vecteurs propres de
F10 F20 .
On en déduit que le rang de F10 F20 est supérieure à r. Par symétrie entre les deux analyses,
on en déduit que F10 F20 et F20 F10 ont même rang et donc les mêmes valeurs propres non nulles.
Par conséquent pour toute valeur propre non nulle, on a
p
F10 ϕIα = λα ϕJα ,
d’où les formules de transition.
Pour une valeur propre nulle, λα = 0, le calcul de la norme de F10 ϕIα montre que
F10 ϕIα = 0.
Les formules de transition sont encore satisfaites.

Remarque 3.4.3 Il existe diverses formulations des relations de transition. Par exemple si la
valeur propre λα est non nulle, on peut écrire
1
ψαJ = √ F10 ψαI .
λα
On en déduit
1 X j i
∀j ∈ J, ψαj = √ f ψ
λα i∈I i α
De même en inversant i et j, on a aussi
1 X i j
∀i ∈ I, ψαi = √ fj ψα .
λα j∈J

On a aussi les même relations de transition pour les facteurs.


Représentation simultanée. En AFC, on effectue une représentation simultanée des mo-
dalités i ∈ I et j ∈ J. Plus précisément, sur chaque axe α, on représente i ∈ I par le point
d’abscisse ψαi et j ∈ J par le point d’abscisse ψαj . Autrement dit, on superpose les représentations
des nuages N (I) et N (J) dans leurs systèmes d’axes respectifs. D’après les formules de transi-
tions, il en résulte qu’au facteur √1λ près, le point j est le barycentre des points i affectés des
α

poids fij . De même le point i est le barycentre des points j affectés des poids fji .
42 CHAPITRE 3. ANALYSE FACTORIELLE DES CORRESPONDANCES

3.5 Inerties
3.5.1 Inertie totale

Proposition 3.5.1 Les nuages N (I) et N (J) ont même inertie totale égale à
X X (fi,j − fi fj )2
IT = .
fi fj
i∈I j∈J

preuve : On a
X
IT = fj ||fIj − fI ||2D(1/fI ) ,
j∈J
X X 1 j
= fj (f − fi )2 ,
fi i
j∈J i∈I
X X fj fi,j
= ( − fi )2 ,
fi fj
j∈J i∈I
X X (fi,j − fi fj )2
= .
fi fj
i∈I j∈J

Remarque 3.5.2 En écrivant :


(fi,j − fi fj )2 = fi,j
2
− 2fi fj fi,j + fi2 fj2 ,
et en remarquant que
−2fi fj fi,j + fi2 fj2
= −2fi,j + fi fj ,
fi fj
on en déduit que
X X −2fi fj fi,j + fi2 fj2 XX X X
= −2 fi,j + fi fj = −2 + 1 = −1.
fi fj
i∈I j∈J i∈I j∈J i∈I j∈J

Par conséquent, on a
2
X X fi,j
IT = − 1.
fi fj
i∈I j∈J

3.5.2 Interprétation de l’inertie totale dans le cas d’un tableau de


contingence
On suppose que K est un tableau de contingence, et plus précisément que I (resp. J) est
l’ensemble des modalités d’une variable qualitative X (resp. Y). Ainsi K donne les effectifs
de co-occurence des couples de modalités (i, j) sur un échantillon de taille k. Donc F est un
estimateur de la mesure de probabilité théorique pI,J (loi jointe de (X, Y )). On sait alors que
asymptotiquement, i.e. pour k tendant vers l’infini, on a
X X (fi,j − pij )2
k → χ2pq−1 ,
pij
i∈I j∈J
3.5. INERTIES 43

où p = Card(I) et q = Card(J).


Lorsque l’on teste l’hypothèse :

H0 : pIJ = pI pJ ,

H0 représente l’hypothèse d’indépendance des variables aléatoires X et Y , on est amené à


estimer les lois marginales pI par fI et pJ par fJ . Pour pI , on estime p − 1 paramètres puisque
la somme des pi vaut 1, de même pour pJ on estime q − 1 paramètres. Il en résulte que
X X (fi,j − fi fj )2
k → χ2µ ,
fi fj
i∈I j∈J

avec
µ = pq − 1 − (p − 1) − (q − 1) = (p − 1)(q − 1).
On en conclut que la quantité
X X (fi,j − fi fj )2
kIT = k
fi fj
i∈I j∈J

permet de tester l’hypothèse d’indépendance des variables X et Y .


Dans le cas d’indépendance, kIT aura tendance à être faible (kIT ≤ cα ), et par conséquent,
puisque IT est la somme des valeurs propres, plus les valeurs propres sont faibles moins les
facteurs sont interprétables.
Si X et Y ne sont pas indépendants, l’AFC permet de voir comment fIJ s’écarte de
l’indépendance, les axes factoriels associés aux plus grandes valeurs propres traduisant les liai-
sons entre X et Y .

3.5.3 Décomposition de l’inertie, Contributions


On exprime IT en fonction des composantes principales des deux ACP, on note r le nombre
de valeurs propres non nulles, on a
r X
X r X
X
IT = fj (ψαj )2 = fi (ψαi )2 .
α=1 j∈J α=1 i∈I

De plus la norme d’une composante principale valant la valeur propre, on a


X X
λα = fj (ψαj )2 = fi (ψαi )2 .
j∈J i∈I

En intervertissant les sommes


X r
X X
IT = fj (ψαj )2 = fj ρ2 (j),
j∈J α=1 j∈J

où ρ2 (j) est la distance au carré entre fIj et fI .


De même
X X r X
IT = fi (ψαi )2 = fi ρ2 (i),
i∈I α=1 i∈I
2
où ρ (i) est la distance au carré entre fJi et fJ . On en déduit les définitions suivantes :
44 CHAPITRE 3. ANALYSE FACTORIELLE DES CORRESPONDANCES

Définition 3.5.3 La contribution de j et i à l’inertie de l’axe α sont respectivement :

fj (ψαj )2 fi (ψαi )2
CT Rα (j) = et CT Rα (i) = .
λα λα
La contribution de l’axe α à l’inertie de j et de i sont

(ψαj )2 2 (ψαi )2
CORα (j) = = cos (θ j,α ) et COR α (i) = = cos2 (θi,α ),
ρ2 (j) ρ2 (i)

où θi,α et θj,α désignent respectivement les angles formés entre fJi − fJ et uα
J d’une part et entre
fIj − fI et uα I d’autre part.

Exemple 3.5.4 Montrer que les relations suivantes sont vérifiées :


cos2 (θj,α ) = corr2 (fjI , ϕIα ) et cos2 (θi,α ) = corr2 (fiJ , ϕJα ),
où corr2 (fjI , ϕIα ) et corr2 (fiJ , ϕJα ) sont calculées respectivement avec les mesures de probabilté
fi et fJ .

3.6 Principe d’équivalence distributionnelle

Proposition 3.6.1 Si deux lignes i1 et i2 (resp. colonnes j1 et j2 ) du tableau fIJ ou kIJ


sont proportionnelles, alors on ne change pas les résultats de l’analyse des correspondances en
remplaçant ces deux lignes (resp. colonnes) par leur somme i0 (resp. j0 ) affectée de la somme
de leurs poids :
∀j ∈ J, fi0 j = fi1 j + fi2 j .

Preuve : On suppose que les deux lignes i1 et i2 du tableau fIJ ou kIJ sont proportionnelles,
alors il existe un réel a tel que
∀j ∈ J, fi1 j = a × fi2 j ,
on en déduit que X X
fi1 · = fi1 j = a × fi2 j = afi2 · .
j∈J j∈J

Ainsi dans le nuage N (I), les deux profils lignes i1 et i2 sont confondus :
fi1 j afi2 j
∀j ∈ J, fji1 = = = fji2 .
fi1 · afi2 ·
Par conséquent l’ACP du nuage N (I) n’est pas modifié si l’on réunit les deux individus i1 et
i2 en un individu i0 affecté du poids fi0 · = fi1 · + fi2 · :
fJi0 = fJi1 = fJi2 .
Ainsi pour tout j ∈ J,
fi0 j = fi0 · fji0 ,
= fi1 · fji0 + fi2 · fji0 ,
= fi1 · fji1 + fi2 · fji2 ,
= f i1 j + f i2 j .
3.7. TABLEAU DE BURT 45

Pour le nuage N (J) initial, les distances entre les colonnes j et j 0 sont
X 1 j 0
d2 (j, j 0 ) = (f − fij )2 ,
fi· i
i∈I

et pour le nuage en tenant compte du regroupement des lignes, on a


X 1 j 0 1 0
d2 (j, j 0 ) = (fi − fij )2 + (fij0 − fij0 )2 .
fi· fi0 ·
i∈I\{i1 ,i2 }

Or
0
1 0 f j − fij0 2
(fij0 − fij0 )2 = fi0 · ( i0 ) ,
f i0 · fi0 ·
fji0 − fji00
= (fi1 · + fi2 · )( )2 ,
f·j
fji0 − fji00 fji0 − fji00
= f i1 · ( ) 2 + f i2 · ( )2 ,
f·j f·j
fji1 − fji01 fji2 − fji02
= f i1 · ( ) 2 + f i2 · ( )2 .
f·j f·j

Par conséquent les distances entre les individus j et j 0 sont les mêmes dans les situations,
donc l’ACP de N (J) est identique dans les deux situations.

Remarque 3.6.2 Cette propriété garantit une invariance des résultats vis à vis du choix de la
momenclature pour la construction des modalités d’une variable, sous réserve de regrouper des
modalités aux profils similaires.

3.7 Tableau de Burt


Soit G = (gjj 0 )j,j 0 ∈J le tableau défini par

G = F 0 D1/fI F.

On a
X fij fij 0
∀(j, j 0 ) ∈ J 2 , gjj 0 = .
fi·
i∈I

On appelle tableau de Burt associé à kIJ le tableau B


X kij kij 0
∀(j, j 0 ) ∈ J 2 , bjj 0 = = kgjj 0 .
ki·
i∈I

La matrice G, appelée tableau de Burt, est symétrique donc les deux marges sont égales.
On note gJ cette marge commune, on a
X X fij fij 0
∀j ∈ J, g·j = gj· = = f·j .
0
fi·
i∈I j ∈J
46 CHAPITRE 3. ANALYSE FACTORIELLE DES CORRESPONDANCES

Donc gJ = fJ . Les matrices profil ligne et profil colonne, G1 et G2 sont

G1 = GD1/fJ = F 0 D1/fI F D1/fJ = F2 F1 et G2 = G0 D1/fJ = G1 .

On en déduit que l’AFC de gJJ donne les mêmes axes factoriels uα J et les mêmes facteurs de
variance 1 ϕJα que ceux obtenus dans l’AFC de kIJ . Les valeurs propres de l’AFC de G sont les
carrés des valeurs propres de L’AFC de kIJ .

Remarque 3.7.1 Si l’on veut représenter l’ensemble I, il suffit de rajouter fIJ en supplémentaire
au tableau gII = G. On obtient la même représentation que dans l’AFC de fIJ .
Chapitre 4

ACM

4.1 Notations-Tableau disjonctif complet-tableau de Burt

4.1.1 Notations et définitions

On note :

Q : ensemble de questions ou de variables qualitatives,


I : ensemble des individus qui ont répondu aux questions, avec n = | I |,
J : ensemble de toutes les modalités de réponse à toutes les questions, avec p = | J |,
Jq : ensemble de toutes les modalités de réponse à la question q,
kIJ : tableau de taille n × p défini par

1 si l’individu i a adopté la modalité j de J,
k(i, j) =
0 sinon.

Définition 4.1.1 Le tableau kIJ est dit disjonctif si chaque individu choisit au plus une mo-
dalité par question (deux modalités d’une même question s’excluent mutuellement). Le tableau
kIJ est dit complet si chaque individu choisit au moins une modalité par question.

Proposition 4.1.2 Un tableau kIJ est disjonctif complet (TDC) si et seulement si :


X
k(i, j) = 1 pour toute question q ∈ Q et tout individu i ∈ I.
j∈Jq

47
48 CHAPITRE 4. ACM

4.1.2 Propriétés des tableaux disjonctifs complets

Proposition 4.1.3 Pour tout individu i ∈ I, toute modalité j ∈ J et toute question q ∈ Q, on


a:
X XX
k(i) = k(i, j) = k(i, j) = Card Q,
j∈J q∈Q j∈Jq
X
k(j) = k(i, j) = nombre d’individus ayant choisi la modalité j,
i∈I
X
k(j) = n,
j∈Jq
XX X
k = k(i, j) = k(i) = n Card Q.
i∈I j∈J i∈I

Exemple 4.1.4 J1 J2 J3 total


1
..
.
i 0 1 0 0 1 0 0 1 0 k(i) = Card Q
..
.
n
total k(j) k = n Card Q

4.2 Tableau de Burt

Définition 4.2.1 Soit kIJ un tableau disjonctif complet, le tableau de Burt associé à kIJ , noté
BJJ , est défini pour tout j, j 0 ∈ J par :
X
B(j, j 0 ) = k(i, j) k(i, j 0 ) = nombre d’individus qui ont choisi les modalités j et j 0 .
i∈I

Si j, j 0 ∈ Jq , alors
si j 6= j 0

0
B(j, j 0 ) =
k(j) sinon.

Proposition 4.2.2 Pour toute modalité j ∈ J et toute question q ∈ Q, on a :


X
B(j, j 0 ) = k(j),
j 0 ∈Jq
X
B(j) = B(j, j 0 ) = k(j) Card Q,
j 0 ∈J
X X
B = B(j, j 0 ) = k(j) Card Q = k Card Q = n(Card Q)2 .
j∈J,j 0 ∈J j∈J
4.3. PROPRIÉTÉS DE L’AFC D’UN QUESTIONNAIRE 49

Exemple 4.2.3  J1  J2 J3 total


k(1) 0 0
J1  0 k(2) 0 
0 0 k(3)
J2
J3 B(i) = k(j) Card Q
total k = n(Card Q)2

On va établir que l’AFC de kIJ équivaut à celle de BJJ .

Remarquons tout d’abord que :

B(j) k(j) k(j)


= = .
B n Card Q k

La marge selon J du tableau kIJ est égale à la marge selon J du tableau BJJ .
Donc les métriques des AFC de kIJ et BJJ dans l’espace IRp sont identiques.

D’après le chapitre précédent, ces deux AFCs sont en fait équivalentes car on a :
X X k(i, j) k(i, j 0 )
B(j, j 0 ) = k(i, j) k(i, j 0 ) = Card Q = k (Card Q) gjj 0 .
k(i)
i∈I i∈I

4.3 Propriétés de l’AFC d’un questionnaire

1) Soit (ϕIα , ϕJα ) les deux facteurs issus de l’AFC de kIJ de rang α, et donc associés à la même
valeur propre λα . Alors ϕJα est le facteur issu de l’AFC de BJJ de rang α, et donc associé à la
valeur propre µα = (λα )2 .

2) Soit FαI (resp. GJα ) les projections des profils-lignes (resp. profils-colonnes) sur l’axe de rang
J
α issu de l’AFC de kIJ . Soit FBα (resp. GJBα ) les projections des profils-lignes (resp. profils-
colonnes) sur l’axe de rang α issu de l’AFC de BJJ . On a :
J √ p
FBα = GJBα = µα ϕJα = λα ϕJα = λα GJα .

Par ailleurs, les formules de transition entraı̂nent que, pour tout i ∈ I, on a :

1 X k(i, j) X k(i, j)
Fα (i) = √ Gα (j) = ϕj .
λα j∈J k(i) Card Q α
j∈J

En notant q(i) la modalité j de la question q ∈ Q choisie par l’individu i, on obtient :


q(i)
X ϕα
Fα (i) = .
Card Q
q∈Q

q(i) Gq(i)
Autrement dit, Fα (i) est égal à la moyenne des ϕα = √αλ , coordonnées ”normalisées”
α
des modalités qui ont été choisies par l’individu i. Autrement dit encore, sur chaque axe, la
représentation
√ de chaque individu coı̈ncide avec la moyenne des modalités qu’il a choisies à
1/ λα près.
50 CHAPITRE 4. ACM

3) Du fait de la structure en blocs des tableaux kIJ et BJJ , on a pour toute question q ∈ Q :
X
f·j ϕjα = 0,
j∈Jq

où ϕJα est un facteur non trivial de l’AFC de BJJ ou de kIJ . On en déduit donc :
X
f·j Gα (j) = 0.
j∈Jq

Autrement dit, lors de l’AFC de kIJ , le centre de gravité des profils fIj pour j ∈ Jq est confondu
avec le centre de gravité global. On a le même résultat pour les profils (lignes ou colonnes) du
tableau (symétrique) BJJ .

4) En pratique, on effectue l’AFC de BJJ et on met le tableau kIJ en supplémentaire. On a


alors :
p X k(i, j)
GBα (j) = λα Gα (j) = Fα (i)
k(j)
i∈I
X Fα (i)
GBα (j) = .
k(j)
q(i)=j

Autrement dit, pour tout axe factoriel, chaque modalité j ∈ J est représentée par le centre de
gravité des individus l’ayant choisie.

4.4 Contributions en ACM


On considère un tableau disjonctif complet. L’inertie totale est donnée par
X XX
IT = f·j ρ2 (j) = f·j ρ2 (j),
j∈J q∈Q j∈Jq

On pose X
CR(j) = f·j ρ2 (j), et CR(Jq ) = f·j ρ2 (j).
j∈Jq

On note p(j) la proportion des individus ayant adopté la modalité j, on a

k(j)
pj = .
n
On démontre alors que
1 − pj
ρ2 (j) = .
pj
k(j) pj
Comme f·j = k = Card Q , on a
1 − pj
CR(j) = ,
Card Q
d’où
Card Jq − 1
CR(Jq ) = ,
Card Q
4.4. CONTRIBUTIONS EN ACM 51

et
Card J
IT = − 1.
Card Q
Décompositions en fonction des axes
On a X XX X
IT = λα = f·j G2α (j),
α α q∈Q j∈Jq

on pose X
CRα (j) = f·j G2α (j), CRα (Jq ) = f·j G2α (j).
j∈Jq

On pose
CRα (Jq )
CT Rα (q) =
λα
est la contribution relative de Jq à l’inertie de l’axe α. On peut poser

CRα (Jq ) X
CORα (q) = , QLT (q) = CORα (q),
CR(Jq ) α

CR(Jq ) CR(Jq )
IN R(q) = = .
CR(J) IT
Règles d’interprétation
1. Proximité entre individus : deux individus se essemblent s’ils ont choisi les mêmes mo-
dalités.
2. Proximité entre deux modalités de variables différentes : ces modalités correspondent aux
points moyens des individus les ayany choisies et sont proches parce qu’elles concernent
les mêmes individus ou des individus semblables.
3. Proximité entre deux modalités d’une même variable : par construction, elles s’excluent.
Si elles sont proches, c’est que les groupes des individus les ayant choisies se ressemblent.
52 CHAPITRE 4. ACM
Annexe A

Espace affine

A.1 Définitions

Définition A.1.1 Soit E un espace vectoriel, on dit que E est un espace affine de direction E
si il existe une application f de E × E dans E notée
−−→
∀(A, B) ∈ E × E, f ((A, B)) = AB,

vérifiant les deux conditions suivantes


— A1 : Relation de Chasles
−−→ −−→ −→
∀(A, B, C) ∈ E × E × E, AB + BC = AC,

— A2 : Pour tout A ∈ E, l’application fA définie de E dans E par


−−→
∀M ∈ E, fA (M ) = AM est une bijection .

Les éléments de E sont appelés points et ceux de E vecteurs. On appelle dimension de E la


dimension de E.

Remarque A.1.2 Pour tout entier n non nul, IRn est un espace affine de direction IRn espace
x1
 
.. 
vectoriel. Ainsi la notation  . peut être vu comme un vecteur de IRn ou un point de l’espace
xn
affine IRn .

−−→
Notations : Soit A ∈ E et u ∈ E, A + u désigne l’unique point B de E tel que AB = u. Ainsi
−−→
∀(A, B) ∈ E × E, ∀u ∈ E, AB = u ⇐⇒ B = A + u ⇐⇒ B − A = u.

53
54 ANNEXE A. ESPACE AFFINE

Définition A.1.3 On considère E un espace affine de direction E, on dit que F est un sous-
espace affine si il existe un point A de E et un sous-espace vectoriel F de E tels que

F = A + F = {M ∈ E, ∃u ∈ F, M = A + u}.

La dimension de F est celle de F .

Exemple A.1.4 Une droite affine de E est un sous-espace affine de dimension 1. Dans ce cas
F = Vect(u) où u est non nul, soit A un point de la droite affine, on note DA,u la droite affine
passant par A de direction Vect(u). On dit encore que u est un vecteur directeur de la droite
affine DA,u , on a

DA,u = {M ∈ E, ∃t ∈ IR, M = A + t u}.

On peut aussi définir une droite affine par deux points distincts A et B, alors la droite affine
passant par A et B est D −−→
A,AB

Exemple A.1.5 Un plan affine de E est un sous-espace affine de dimension 2. Dans ce cas
F = Vect(u, v) où u et v sont des vecteurs non colinéaires, soit A un point du plan affine, on
note PA,(u,v) le plan affine passant par A de direction Vect(u, v). On a

PA,(u,v) = {M ∈ E, ∃(t, s) ∈ IR2 , M = A + t u + s v}.

On peut aussi définir un plan affine par trois points non alignés A, B et C, alors le plan
affine passant par A, B et C est P −−→ −→
A,(AB ,AC )

Exemple A.1.6 On considère le système linéaire

x1


.
AX = b où A ∈ Mn,p (IR), X =  ..  ∈ IRp , b ∈ IRn .
xp

On suppose qu’il existe une solution particulière X0 , alors l’ensemble des solutions du système
linéaire est le sous-espace affine X0 + Ker A de IRp , de dimension dim Ker A = p − rg(A), où
rg(A) est le rang de A.

Exemple A.1.7 Un hyperplan affine de E est un sous-espace affine de dimension dimE − 1.

Remarque A.1.8 Lorsque l’on fixe un point O dans un espace affine E de direction E, on
vectorialise l’espace affine, c’est-à-dire à l’aide de la fonction fO on construit une structure
−−→
d’espace vectoriel sur E, tout point M de E est assimilé au vecteur OM .
A.2. BARYCENTRE 55

A.2 Barycentre

Définition A.2.1 On considère E un espace affine de direction E, soit M1 , · · · , Mn n points


de E, et pour tout 1 ≤ i ≤ n, on affecte à chaque point Mi un coefficient ou poids pi qui est un
réel. Soit O une origine,
n n
X X −−→
— si pi = 0, alors le vecteur pi OMi est indépendant de O.
i=1 i=1
n
X
— si pi = p 6= 0, alors le point G défini par
i=1

n n
1X 1 X −−→
G= pi M i = O + pi OMi est indépendant de O.
p i=1 p i=1

On dit que g est le barycentre des (Mi , pi )1≤i≤n .

Exemple A.2.2 Le milieu de deux points A et B est le barycentre de A et B affectés des poids
1/2 et 1/2.

Définition A.2.3 On considère E un espace affine de direction E, soit M = {M1 , · · · , Mn }


un ensemble de n points de E, on note < M > l’ensemble des barycentres des points de M
affectés de poids quelconques. Alors < M > est un sous-espace affine de E. On dit que < M >
est le sous-espace affine engendré par M. C’est le plus petit sous-espace affine contenant M.

Proposition A.2.4 Le sous-espace affine engendre par M = {M1 , · · · , Mn } est associé au


−−−−→ −−−−→
sous-espace vectoriel Vect(M1 M2 , · · · , M1 Mn ). la dimension de < M > est au plus n − 1.

A.3 Applications affines

Définition A.3.1 On considère E un espace affine de direction E, soit f une application de E


dans E . On dit que f est une application affine si il existe un point O de E tel que l’application
f~ de E dans E qui à tout vecteur u de E associé le vecteur f (O)f (O + u) est linéaire. On
appelle f~ l’application linéaire associée à f .

Remarque A.3.2 Une application affine f est caractérisée par sa valeur en un point et son
application linéaire associée.

Exemple A.3.3 Une translation de vecteur u est une application affine telle que

∀M ∈ E, f (M ) = M + u.

Exemple A.3.4 Une projection orthogonale affine sur le sous-espace affine F est une appli-
cation affine telle qu’il existe un point O de F vérifiant

∀M ∈ E, f (M ) = O + p(OM ) où p est la projection orthogonale linéaire sur F.


56 ANNEXE A. ESPACE AFFINE

Proposition A.3.5 On considère E un espace affine de direction E, soit f une application de


E dans E . l’application f est une application affine si et seulement si f conserve les barycentres
c’est-à-dire pour tout entier n
n
X Xn n
X
∀(xi , ti ) ∈ E × IR, avec ti = 1, f ( t i xi ) = ti f (xi ).
i=1 i=1 i=1
Annexe B

Endomorphisme symétrique

Définition B.0.1 Soit E un espace euclidien muni d’une métrique M , et f un endomorphisme


de E, on dit que f est un endomorphisme symétrique si pour tous x et y de E, on a l’égalité

< x, f (y) >M =< f (x), y >M .

Proposition B.0.2 Tout endomorphisme symétrique est diagonalisable. De plus il existe une
base orthonormale de E constituées de vecteurs propres de f .

La matrice d’un endomorphisme symétrique dans une base orthomormale quelconque de


E est une matrice symétrique à coefficients réels. On en déduit le théorème suivant appelé
théorème spectral.

Proposition B.0.3 Soit A une matrice symétrique à coefficients réels de M(IR), alors A est
diagonalisable, il existe donc une matrice diagobale D et P une matrice inversible tels que

A = P DP −1 .

De plus il est possible de choisir P orthogonale dans ce cas, l’égalité devient

A = P DP 0 .

57
58 ANNEXE B. ENDOMORPHISME SYMÉTRIQUE
Annexe C

Décomposition SVD

Théorème C.0.1 SVD Soit Y une matrice de format n × p à coefficients réels. On note r le
rang de Y , r ≤ s = min(n, p). Les espaces IRn et IRp sont munis d’une structure euclidienne
canonique. Alors il existe
1. (u1 , · · · , un ) une base orthonormale de IRn ,
2. (v1 , · · · , vp ) une base orthonormale de IRp ,
3. r réels positifs : σ1 ≥ σ2 ≥ · · · ≥ σr > 0,
tel que
r
X
Y = σi ui vi0 .
i=1

Les r réels σi sont uniques. On les appelle valeurs singulières de Y .


Matriciellement, on pose

U = [u1 , · · · , ur ] et V = [v1 , · · · , vr ], Σ = Diag(σ1 , · · · , σr ),

L’équation précédente s’écrit

Y = U ΣV 0 ,
ou encore on peut poser
U = [u1 , · · · , un ] et V = [v1 , · · · , vn ],
et Σ est une matrice n × p dont les coefficients diagonaux sont des réels positifs ou nuls et
tous les autres sont nuls. Les termes diagonaux de Σ sont rangés par ordre décroissant . Les
matrices U et V sont deux matrices orthogonales d’ordre respectif n et p ( U 0 U = U U 0 = In et
V V 0 = V 0 V = Ip )
Dans les deux cas, la matrice Σ est unique.

preuve
1. On montre que la matrice Y 0 Y est symétrique à coefficients réels et positive.
En effet Y 0 Y est symétrique à coefficients réels et de plus

∀u ∈ IRp , u0 Y 0 Y u = (Y u)0 Y u = ||Y u|| ≥ 0.

59
60 ANNEXE C. DÉCOMPOSITION SVD

La norme utilisée est la norme euclidienne canonique. Par conséquent Y 0 Y est symétrique,
positive.
2. On montre que le rang de Y 0 Y est égal au rang de Y , noté r.
En effet, d’après la relation précédente, on montre que
Ker Y = Ker Y 0 Y,
donc en utilisant le théorème du rang, on obtient le résultat.
3. D’après le théorème spectral, les valeurs propres de Y 0 Y sont r réels strictement positifs
λ1 ≥ λ2 ≥ · · · ≥ λr > 0 et 0 si r < p, et il existe une matrice orthogonale dont les
colonnes sont des vecteurs propres (v1 , · · · , vp ) de Y 0 Y telle que
 
D 0
V 0Y 0Y V = où D = diag(λ1 , · · · , λr ).
0 0
4. On pose
1
∀1 ≤ i ≤ r, ui = √ Y vi ;
λi
On montre que la famille (u1 , · · · , ur ) est une famille orthonormale de vecteurs propres
de Y Y 0 .
En effet pour tout 1 ≤ i ≤ r, on a
1 p
Y Y 0 ui = √ Y Y 0 Y vi = λi Y vi = λi ui ,
λi
et pour tout 1 ≤ i, j ≤ r, on a
p 
1 λj 0 1 si i = j
< ui , uj >= u0i vj 0 0
= √ p vi Y Y v j = √ vi vj =
λi λj λ i 0 sinon

On complète cette famille orthonormale en une base orthonormale de IRn soit (u1 , · · · , un ).

5. On pose σi = λi , 1 ≤ i ≤ r et
X r
A= σi ui vi0 .
i=1
On montre que A est égal à Y . Pour cela il suffit de montrer que pour tout 1 ≤ j ≤ p,
Avj est égal à Y vj .
En effet on a
r 
X
0 σj uj = Y vj si 1 ≤ j ≤ r
Avj = σi ui (vi vj ) =
0 sinon
i=1

Par conséquent
r
X
Y = σi ui vi0 .
i=1
6. Ecriture matricielle.
On a
v10
 

[u1 , · · · , ur ]diag(σ1 , · · · , σr )[v1 , · · · , vr ]0 = [σ1 u1 , · · · , σr ur ]  ...  ,


 

vr0
d’où en effectuant des produit par blocs
r
X
[u1 , · · · , ur ]diag(σ1 , · · · , σr )[v1 , · · · , vr ]0 = σi ui vi0 .
i=1
61

7. Les valeurs singulières sont uniques, en effet si Y = U ΣV 0 alors Y 0 Y = V Σ0 ΣV 0 , la


matrice Σ0 Σ est une matrice diagonale diag(σ12 , · · · , σp2 ). Ainsi les σi2 sont les valeurs
propres de Y 0 Y . On en déduit l’unicité.

Définition C.0.2 Etant donnée une valeur singulière σ, on dit que le vecteur unitaire u de
IRn et le vecteur unitaire v de IRp sont respectivement vecteur singulier à gauche et vecteur
singulier à droite pour σ si
Y v = σu et Y 0 u = σv.

Vous aimerez peut-être aussi