Analyse des données et techniques avancées
Analyse des données et techniques avancées
Université Paris-Dauphine
M1
Année 2017
1 Nuages de points 7
1.1 Tableau de données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2 Nuages des individus et nuages des variables . . . . . . . . . . . . . . . . . . . . . 7
1.3 Centre de gravité du nuage MX . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4 Support des nuages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.5 Métriques sur IRp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.6 Matrice Variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.7 Effet d’une transformation linéaire A du nuage des individus . . . . . . . . . . . 10
1.8 Inerties . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3
4 TABLE DES MATIÈRES
3.5 Inerties . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.5.1 Inertie totale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.5.2 Interprétation de l’inertie totale dans le cas d’un tableau de contingence . 42
3.5.3 Décomposition de l’inertie, Contributions . . . . . . . . . . . . . . . . . . 43
3.6 Principe d’équivalence distributionnelle . . . . . . . . . . . . . . . . . . . . . . . 44
3.7 Tableau de Burt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4 ACM 47
4.1 Notations-Tableau disjonctif complet-tableau de Burt . . . . . . . . . . . . . . . 47
4.1.1 Notations et définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.1.2 Propriétés des tableaux disjonctifs complets . . . . . . . . . . . . . . . . . 48
4.2 Tableau de Burt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.3 Propriétés de l’AFC d’un questionnaire . . . . . . . . . . . . . . . . . . . . . . . 49
4.4 Contributions en ACM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
A Espace affine 53
A.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
A.2 Barycentre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
A.3 Applications affines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
B Endomorphisme symétrique 57
C Décomposition SVD 59
TABLE DES MATIÈRES 5
Introduction
L’analyse des données (AD), et plus généralement la fouille des données (FD), est constituée
d’un ensemble de techniques qui ont pour but de déterminer les structures possédées par l’en-
semble des données. Ces structures peuvent être de nature descriptive ( partition, hiérarchie,
plan factoriel,...) ou explicative ( arbre de décision, analyse factorielle discriminante,...). L’ana-
lyse de données peut être considérée comme une science expérimentale : propriétés démontrées
après avoir été observées, indice empirique pour l’interprétation des résultats, codages établis
de façon heuristique.
Par ailleurs, les premiers résultats fournis par une analyse factorielle sont généralement
évidents, alors que les résultats suivants ne sont pas triviaux et sont souvent intéressants.
Les données peuvent se présenter sous différentes formes : tableaux individus × variables
(dans un but descriptif, l’interprétation établira des liens entre variables et groupes d’individus
qui se ressemblent selon ces variables), tableaux de distances ( représentation des individus
dans un plan, sur une droite, etc ou partitionement de l’ensemble des individus), tableaux de
contingence ( ces tableaux croisent les ensembles de modalités de deux caractères qualitatifs),
tableaux de présence-absence (0/1), tableaux de notes, tableaux de pourcentage...
Les techniques d’analyse de données se différencient non seulement par les outils mathématiques
utilisés ( algèbre linéaire dans le cas de l’analyse factorielle, théorie des graphes et combina-
toire pour certaines méthodes de classification ) mais aussi par les buts poursuivis qui peuvent
être un but descriptif ou un but prévisionnel. Le but descriptif consiste à essayer d’obtenir
une représentation simplifiée aussi proche que possible des données initiales, le but prévisionnel
consiste à expliquer et prévoir une ou plusieurs variables en fonction d’autres variables. Dans
ce cours, nous présenterons les techniques suivantes :
— Analyse en composantes principales (ACP) : rechercher des axes d’inertie d’un système
de points affectés de poids, ce qui permet d’en déduire des sous-espaces de dimensions
réduites sur lesquels la projection des points est la moins déformante.
— Analyse des correspondances (AC) : double ACP ayant un but à la fois descriptif et
prévisionnel ( étude de liens existants entre lignes et colonnes d’un tableau).
6 TABLE DES MATIÈRES
Chapitre 1
Nuages de points
Ainsi les valeurs prises par la variable xj pour les n individus se lisent sur la jème colonne
et les valeurs prise par l’individu i pour les p variables se lisent sur la ième ligne. On note xj la
jème variable et xi le ième individu :
j 1
x1 xi
.. ..
∀(i, j) ∈ [[1, n]] × [[1, p]], x = . ∈ IR et xi = . ∈ IRp .
j n
xjn xpi
Ainsi
x01
X = [x1 , · · · , xp ] = ... .
x0n
Chaque axe représente une variable. L’ensemble des points MX = {Mi , 1 ≤ i ≤ n} est appelé
le nuage des individus et IRp est l’espace des individus.
De même, on munit IRn de la base canonique, on peut alors associé à chaque variable le
point N j tel que
−−−→
∀j ∈ [[1, p]], ON j = xj .
7
8 CHAPITRE 1. NUAGES DE POINTS
Dp = diag(p1 , · · · , pn ).
En général, les poids sont tous égaux à 1/n, mais ce n’est pas toujours le cas comme par exemple
en Analyse des Correspondances.
Le centre de gravité du nuage des individus Mi affecté du poids pi est le point G tel que
n
X
G= pi Mi .
i=1
Ainsi gj est la moyenne de la variable xj et les coordonnées du point G sont les p moyennes des
p variables.
Proposition 1.3.1 On note 1n le vecteur de IRn dont toutes les coordonnées sont égales à 1,
on a
g1
−−→ ..
g = OG = . = X 0 Dp 1n .
gp
soit
∀i ∈ [[1, n]], yi = Mi − G.
Ainsi dans ce nouveau tableau de données, toutes les variables y j , 1 ≤ j ≤ p, sont de
moyennes nulles.
Proposition 1.3.2 On a
Y = X − 1n g 0
Par ailleurs
y j = xj − gj 1n = (Id − PVect(1n ) )(xj ),
ce qui signifie que y j est la projection de xj sur l’hyperplan orthogonal à 1n .
Définition 1.4.1 On appelle support d’un nuage le plus petit sous-espace affine contenant les
points du nuage. On note
SX = supp(MX ) et SY = supp(MY ).
Puisque le nuage MY est centré, le support SY contient l’origine et est assimilé à un sous-espace
vectoriel
SY = Vect(y1 , · · · , yn ) = Im Y 0 .
On en déduit que la dimension de SY est égale au rang de Y .
Cette norme provient d’un produit scalaire sur l’espace vectoriel IRp . Etant donnée la base
canonique (e1 , · · · , ep ) de IRp , le produit scalaire est caractérisée par la donnée d’une matrice
carrée d’ordre p dont le terme courant est pour tout 1 ≤ i, j ≤ p
Cette matrice M est symétrique, définie et positive. Réciproquement, toute matrice d’ordre
p symétrique, définie positive permet de définir un produit scalaire dans IRp . Cette matrice
définit une métrique de l’espace IRp .
Dans la suite, nous noterons M la métrique de l’espace IRp et l’espace des individus IRn est
muni de la métrique Dp .
Si l’on suppose que la matrice M est diagonale M = diag(m1 , · · · , mp ), alors
v
u p
uX
d(yi , yi0 ) = t mj (yij − yij0 )2 .
j=1
10 CHAPITRE 1. NUAGES DE POINTS
0
De même, la distance entre deux variables y j et y j est donnée par
v
u n
0 uX 0
j j
d(y , y ) = t pi (yij − yij )2 .
i=1
V = Y 0 Dp Y = (X − 1n g 0 )0 Dp (X − 1n g 0 ) = X 0 Dp X − gg 0 .
Remarque 1.6.2 Si la matrice V est définie positive, elle fournit une métrique sur IRp , métrique
induite par Dp et Y . Si V n’est pas régulière, on aura seulement une pseudo métrique.
u1 v1
. ..
Proposition 1.6.3 Soient u = .
. et v = . de IRp , on définit deux nouvelles va-
up vp
riables z et t par
p
X Xp
z= uj xj et t = vj x j .
j=1 j=1
Cov(z, t) = u0 V v.
Si la matrice V est définie positive, V définit une métrique pour laquelle la covariance entre z
et t est le produit scalaire entre les vecteurs z et t et la variance de la variable z est le carré de
la norme de z soit
Cov(z, t) =< u, v >V et V(z) = ||u||2V .
preuve en TD
On obtient ainsi une nouvelle matrice Z dont les lignes sont les z1 , · · · , zn soit
Z 0 = AX 0 donc Z = XA0 .
1.8. INERTIES 11
gZ = Ag.
V ar(Z) = V ar(XA0 ) = AV A0 .
preuve : On a
n
X n
X
gZ = pi zi = pi Axi = Ag.
i=1 i=1
donc
V ar(Z) = Zc0 Dp Zc = AY 0 Dp Y A0 = AV A0 .
1.8 Inerties
Inertie par rapport à un point
Définition 1.8.1 Soit A un point, l’inertie du nuage M = (xi )1≤i≤n par rapport au point A
est
Xn
IA (M) = pi ||xi − A||2M .
i=1
IT (M) = IG (M).
où V(y j ) représente la variance de y j . L’inertie totale est ainsi la somme pondérée des variances
des variables initiales, elle mesure la dispersion du nuage autour du centre de gravité.
preuve :
On en déduit que
n
X
IA (M) = pi ||xi − A||2M ,
i=1
n
X n
X n
X
= pi ||xi − G||2M + pi ||G − A||2M + 2 < pi (xi − G), G − A >M ,
i=1 i=1 i=1
= IT (M) + ||G − A||2M .
Définition 1.8.3 Soit E un sous-espace affine de IRn et E le sous-espace vectoriel associé muni
de la métrique M . Soit A un point de E et B un point de IRn , la distance de B à E est
−−→
dM (B, E) = ||(Id − PE )(AB)||M ,
Proposition 1.8.5 On a
−→
IE (M) = IEG (M) + ||(Id − pE )(AG)||2M ,
preuve :
n
X
IE (M) = pi d2M (Mi , E),
i=1
n
X −−→
= pi ||(Id − PE )(AMi )||2 ,
i=1
n
X −→ −−→
= pi ||(Id − PE )(AG + GMi )||2 ,
i=1
1.8. INERTIES 13
n n
X −→ X −−→
= pi ||(Id − PE )(AG)||2 + pi ||(Id − PE )(GMi ))||2
i=1 i=1
n
−→ X −−→
+2 < (Id − PE )(AG), pi (Id − PE )(GMi ) >M ,
i=1
−→
= ||(Id − PE )(AG)||2 + IEG (M).
Ce résultat montre que parmi tous les sous-espaces affine parallèles à E, celui qui possède une
inertie minimale est celui qui passe par le centre de gravité du nuage.
Par la suite, on recherche le ou les sous-espaces affine de dimension k donnée par rapport
auquel(s) le nuage a une inertie minimale : c’est l’objectif de l’ACP.
On voit donc que ces sous-espaces optimaux passent nécessairement par G. C’est la raison
pour laquelle on supposera, en général, par la suite que le tableau X est centré. Si ce n’est pas
le cas, on raisonnera sur Y .
IT = IE (M) + IE ⊥ (M).
On pose
JE (M) = IE ⊥ (M).
JE (M) est l’inertie totale de la projection de M sur E
Ainsi la recherche de E qui minimise IE (M) est équivalent à rechercher E qui maximise
JE (M).
On en déduit que
n
X −−→
JE1 (M) = pi ||(PE )(GMi )||2 ,
i=1
14 CHAPITRE 1. NUAGES DE POINTS
n
X
= pi < yi , 1 >2M ,
i=1
n
X
= pi 01 M yi yi0 M 1 ,
i=1
= 01 M V M 1 .
Décomposition de l’inertie
ce qui donne
p
−−→ X −−→
||(Id − PE )(GMi ))||2 = < GMi , l >2M ,
l=k+1
et matriciellement
p
−−→ X
||(Id − PE )(GMi ))||2 = 0l M yi yi0 M l .
l=k+1
Proposition 1.8.8 On a
IT = tr(V M ).
preuve : On choisit comme base orthonormale une base constitué de vecteurs propres de
M V soit (u1 , · · · , up ), on a
IT = I(IRp )⊥ (M),
p
X
= u0j M V M uj ,
j=1
p
X
= λj ||uj ||2M ,
j=1
p
X
= λj ,
j=1
= tr(M V ) = tr(V M ).
On peut aussi raisonner directement : puisque la trace de AB est égal à la trace de BA, on
en déduit
n
X
IT = pi ||yi ||2M ,
i=1
n
X
= pi yi0 M yi ,
i=1
Xn
= tr( pi yi0 M yi ),
i=1
n
X
= pi tr(yi0 M yi ),
i=1
n
X
= pi tr(M yi yi0 ),
i=1
n
X
= tr(M pj yi yi0 ),
i=1
= tr(M V ) = tr(V M ).
16 CHAPITRE 1. NUAGES DE POINTS
Chapitre 2
Analyse en Composantes
Principales
IT = IEk + JEk ,
17
18 CHAPITRE 2. ANALYSE EN COMPOSANTES PRINCIPALES
< u, V M v >M = u0 M V M v,
= (V M u)0 M v,
= < V M u, v >M .
or V en tant que matrice variance covariance est positive donc qV (M u) est positif. Ainsi la
matrice V M est une matrice M -symétrique, positive. Le reste du théorème est une application
du théorème sur les matrices symétriques.
Théorème 2.1.2 Soit (u1 , · · · up ) une base orthonormale de IRp constituée de vecteurs propres
de V M associés aux valeurs propres respectives
λ1 ≥ λ2 ≥ · · · ≥ λp ≥ 0,
on pose
∀k ∈ [[1, k]], Ek = Vect(u1 , · · · , uk ).
Alors on a
dim Ek = k,
E1 ⊂ E2 ⊂ · · · ⊂ Ep = IRp ,
et
k
X
∀k ∈ [[1, p]], JEk = λi = max (JE ).
Ee.v.dimE=k
i=1
k
X
Réciproquement si F est un sous-espace vectoriel de dimension k tel que JF = λi , alors
i=1
il existe une base orthonormale (v1 , · · · vp ) constituée de vecteurs propres de V M associé aux
valeurs propres respectives λ1 ≥ λ2 ≥ · · · ≥ λp ≥ 0, telle que
F = Vect(v1 , · · · , vk ).
d’où
dim F ≥ k + 1 + p − k − p = 1.
Ainsi la dimension de F est supérieure ou égale à 1, donc il existe un vecteur unitaire z dans
F , on construit une base orthonormale de E à partir de la famille libre (z) soit (1 , · · · , k , z),
on a
J(E) = J(Vect(1 , · · · , k )) + q(z).
D’après l’hypothèse de récurrence, on a
k
X
J(Vect(1 , · · · , k )) ≤ λi ,
i=1
q(z) ≤ λk+1 .
Par conséquent
k+1
X
J(E) ≤ λi = J(Ek+1 ).
i=1
On a alors
λ1 = q(v) = q(v1 ) + q(w) = λ1 ||v1 ||2 + q(w).
Par ailleurs X
w= αi ui ,
2≤i≤p, λi 6=λ1
Or on a
k
X
J(Vect(1 , · · · , k )) ≤ λi et q(z) ≤ λk+1 .
i=1
Etant donnée l’égalité, les deux inégalités sont des égalités. En utilisant l’hypothèse de
récurrence, la première montre que Vect(1 , · · · , k ) corresponds à Fk .
Par ailleurs, le vecteur unitaire z est combinaison linéaire de uk+1 , · · · , up
p
X p
X
z= αi ui et αi2 = 1.
i=k+1 i=k+1
p
X
αi2 λi = λk+1 .
i=k+1
0 −1
iX p
X p
X
λk+1 αi2 + λi αi2 = λk+1 αi2 ,
i=k+1 i=i0 i=k+1
d’où
p
X p
X
λi αi2 = λk+1 αi2 ,
i=i0 i=i0
p
X
puisque λi < λk+1 , l’égalité n’est possible que si αi2 = 0. Ainsi z est dans Eλk+1 .
i=i0
Définition 2.1.3 Soit (u1 , · · · up ) une base orthonormale de vecteurs propres de V M associé
aux valeurs propres respectives
λ1 ≥ λ2 ≥ · · · ≥ λp ≥ 0,
pour tout entier 1 ≤ α ≤ p,
— l’axe Vect(uα ) est appelé le αième axe factoriel du nuage de points N .
— ϕα = M uα est appelé le αième facteur,
— ∀i ∈ [[1, n]], ψi,α =< yi , uα >M = yi0 M uα = yi0 ϕα est l’abscisse de la projection de yi sur
Vect(uα ) :
ψ1,α
ψα = ... = Y ϕα = Y M uα est appelée α ième composante principale.
ψn,α
— le taux d’inertie expliquée par le αième axe factoriel, noté τα , est la quantité
λα λα
τα = = p .
IT X
λi
i=1
Proposition 2.2.1 Si la matrice V est de rang r, alors le nuage N centré a pour support
Er = Vect(u1 , · · · , ur ).
Preuve : En effet V et V M ont même rang puisque M est inversible. Donc les valeurs
propres λr+1 , · · · , λp sont nulles. Or si un axe factoriel est trivial c’est-à-dire associé à une valeur
propre nulle alors le nuage N est inclus dans l’hyperplan orthogonal à cet axe.
Ainsi lorsque V est de rang r, un individu i a p − r coordonnées nulles donc est caractérisé
par r valeurs ψi,1 , · · · , ψi,r au lieu des p coordonnées initiales dans la base canonique.
Si le taux τ1,2 est proche de 1, on visualise le nuage N dans le plan Vect(u1 , u2 ), noté plan
1 × 2. Sinon on complète cette représentation par les projections sur les plans 1 × 3, 2 × 3, voire
si τ1,2,3 est trop faible, sur les plans 1 × 4, 2 × 4, etc.
Proposition 2.2.3 On a
k k
X X ψi,α 2
QLT (yi , Ek ) = QLT (yi , Vect(uα )) = ( ) .
α=1 α=1
||yi ||M
Plus ce facteur de qualité se rapproche de 1, mieux est représenté l’individu i. S’il vaut 1,
alors yi est dans Ek .
On note parfois sur les listings, CORα (i) pour désigner 1000 × cos2 (θi,Vect(uα ) ) et aussi
QLTEk (i) = 1000 × cos2 (θi,Ek ).
Proposition 2.3.1
2 λα si α = β,
∀(α, β) ∈ [[1, p]] , < ψα , ψβ >Dp =
0 6 β
si α =
On pose
ψα
∀α ∈ [[1, r]], vα = √ .
λα
On en déduit que pour tout 1 ≤ k ≤ r, (v1 , · · · , vk ) est une base Dp -orthonormale de
Vect(v1 , · · · , vk ) = Fk .
En particulier Vect(v1 , · · · , vr ) est une base orthonormale de Vect(y 1 , · · · , y p ) = Im Y , la αième
coordonnée de y j est donnée par
ψα
ηjα =< y j , √ >Dp .
λα
On a
η1α
ηrα
2.4. DÉCOMPOSITIONS DE L’INERTIE 23
Preuve On a
1 0
ηjα = √ y j Dp Y 0 M uα
λα
donc
1 p
η α = √ Y 0 Dp Y M uα = λα uα .
λα
Proposition 2.3.3 On a
k k k
X X yj X
QLT (y j , Fk ) = QLT (y j , Vect(vα )) = < , vα > 2
D = 2
ri,α .
α=1 α=1
||y j || p
α=1
où rj,α désigne la correlation entre y j et vα puisque ces deux variables sont centrées.
(ψi,α )2
CORα (i) = n = cos2 (θi,α ),
X
(ψk,α )2
k=1
Sur les listings, CT Rα (i) et CORα (i) sont souvent multipliés par 1000.
Puisque l’inertie totale IT est égale à la somme des valeurs propres et comme chaque valeur
propre λα est le carré de la norme de ηα pour la métrique M , on a
r
X r
X p
r X
X
IT = λα = ||η α ||2M = mj (ηjα )2 .
α=1 α=1 α=1 j=1
mj (< y j , vα >Dp )2
CT Rα (j) = = mj u2j,α ,
λα
De même la contribution relative de l’axe α à l’inertie de la variable y j est
2
CORα (j) = ri,α = cos2 (θj,α ),
où θj,α est l’angle entre y j et vα .
Sur les listings, CT Rα (j) et CORα (j) sont souvent multipliés par 1000.
p
X
Pour tout 1 ≤ α ≤ p, le vecteur uα est unitaire pour la métrique M donc mj u2j,α = 1,
j=1
soit
p
X
λα = λα mj u2j,α .
j=1
variable supplémentaire : toute variable xs de IRn n’ayant pas participé à l’analyse pourra
être représentée par ses projections sur les nouveaux axes vα , on note y s la variable centrée
ψα
ηsα =< y s , √ >M .
λα
Dans ce cas, la matrice Z 0 Dp Z est la matrice de corrélations. On réalise l’ACP sur Z avec
M = Ip . L’inertie totale du nuage est alors égal à p, le nombre de variables.
26 CHAPITRE 2. ANALYSE EN COMPOSANTES PRINCIPALES
Z∆uα = Y M uα .
Théorème 2.6.1 La représentation du nuage NX des xi affectés des poids pi dans le système
des axes factoriels ne dépend que des poids pi et des distances entre Mi et Mi0 où
On pose
n
X n
X
∀i ∈ [[1, n]], d(·, i) = pi0 d(i, i0 ), et d(·, ·) = pi d(·, i).
i0 =1 i=1
On a la première relation
2 −1
∀(i, i0 ) ∈ [[1, n]] , < yi , yi0 >M = (||yi − yi0 ||2M − ||yi ||2M − ||yi0 ||2M ).
2
2.7. APPROCHE SVD 27
Dp = diag(p1 , · · · , pn ) et M = diag(m1 , · · · , mp ).
soit
IT = ||Dp1/2 Y M 1/2 ||2F .
Soit r le rang de Y , soit 1 ≤ k ≤ r, le problème de l’ACP est de déterminer un sous-espace
vectoriel E de dimension inférieure ou égale à k tel que l’inertie totale du nuage Y projeté
orthogonalement sur E soit maximale. Or ce problème est équivalent à rechercher une matrice
1/2
B de rang inférieur à k qui approche le mieux Dp Y M 1/2 au sens de la norme de Frobenius,
c’est-à-dire en notant PE la projection orthogonale sur E
On a alors E = Im B 0 .
En effet la matrice PE (Y ) est la matrice dont la ième ligne est la projection de yi sur E.
Ainsi toutes les lignes sont dans E donc le rang de PE (Y ) est inférieur à la dimension de E
1/2 1/2
soit k. De plus les matrices Dp et M 1/2 sont inversibles, donc Dp PE (Y )M 1/2 est de rang
inférieur à k. Ainsi
min IT (Y −PE (Y )) = min ||Dp1/2 Y M 1/2 −Dp1/2 PE (Y )M 1/2 ||2F ≥ min ||Dp1/2 Y M 1/2 −B||F .
dimE≤k dimE≤k rangB≤k
Ce problème d’approximation d’une matrice par une matrice de rang inférieur est résolu par
la décomposition SVD. Nous rappelons cette décomposition démontrée en annexe :
Théorème 2.7.1 SVD Soit Y une matrice de format n × p à coefficients réels. On note r le
rang de Y , r ≤ s = min(n, p). Les espaces IRn et IRp sont munis d’une structure euclidienne
canonique. Alors il existe
1. (u1 , · · · , un ) une base orthonormale de IRn ,
2. (v1 , · · · , vp ) une base orthonormale de IRp ,
3. r réels positifs : σ1 ≥ σ2 ≥ · · · ≥ σr > 0,
tel que
r
X
Y = σi ui vi0 .
i=1
Y = U ΣV 0 ,
ou encore on peut poser
U = [u1 , · · · , un ] et V = [v1 , · · · , vn ],
et Σ est une matrice n × p dont les coefficients diagonaux sont des réels positifs ou nuls et
tous les autres sont nuls. Les termes diagonaux de Σ sont rangés par ordre décroissant . Les
matrices U et V sont deux matrices orthogonales d’ordre respectif n et p ( U 0 U = U U 0 = In et
V V 0 = V 0 V = Ip )
Dans les deux cas, la matrice Σ est unique.
2.7. APPROCHE SVD 29
On a alors
k
X r
X
min ||Y − B||F = ||Y − σi ui vi0 ||F = σi2 .
B∈Mn,p (IR),rang(B)≤k
i=1 i=k+1
Yk est ainsi la meilleure approximation de Y par une matrice de rang inférieur ou égal à k.
preuve :
1. soit U et V des matrices orthogonales d’ordre respectifs p et n, on a pour toute matrice
A de format n − p
||V A||F = ||AU ||F = ||A||F .
en effet
||V A||2F = tr(A0 V 0 V A) = tr(A0 A) = ||A||2F .
et
||AU ||2F = tr(U 0 A0 AU ) = tr(A0 A) = ||A||2F .
2. On en déduit que
v
k
u r
X u X
0
||Y − σi ui vi ||F = t σi2 .
i=1 i=k+1
k
X r
X
||Y − σi ui vi0 ||2F = || σi ui vi0 ||2F ,
i=1 i=k+1
= ||U SV 0 ||2F ,
= ||S 2 ||F ,
0
= tr(SS ),
Xr
= σi2 .
i=k+1
30 CHAPITRE 2. ANALYSE EN COMPOSANTES PRINCIPALES
En effet
On en déduit que pour réaliser le minimum, V 0 BU est diagonale de rang k et annule les
k plus grandes valeurs de σi .
On a alors
k
X
min ||Y − B||2 = ||Y − σi ui vi0 ||2 = σk+1 .
B∈Mn,p (IR),rang(B)≤k
i=1
où
||A||2 = sup (||AX||) et ||X|| est la norme euclidienne canonique.
||X||=1
Yk est ainsi la meilleure approximation de Y par une matrice de rang inférieur ou égal à k.
preuve :
1. On a
k
X r
X
||Y − σi ui vi0 ||2 = || σi ui vi0 ||2 ,
i=1 i=k+1
p
soit x ∈ IR de norme 1, on a
v
r r
u r
X X u X
|| σi ui vi0 x||2 = || σi vi0 x ui ||2 = t σi2 (vi0 x)2 ≤ σk+1 ||x||2 = σk+1 .
i=k+1 i=k+1 i=k+1
2.7. APPROCHE SVD 31
dim Ker B ≥ p − k.
(b) Puisque
p ≥ dim(Ker B + Vect(v1 , · · · , vk+1 )) =
\
dim Ker B + dim Vect(v1 , · · · , vk+1 ) − dim(Ker B Vect(v1 , · · · , vk+1 )),
donc \
dim(Ker B Vect(v1 , · · · , vk+1 )) ≥ dim Ker B − p + k + 1 ≥ 1,
T
on en déduit que Ker B Vect(v1 , · · · , vk+1 ) n’est pas réduit au vecteur nul.
(c) Soit w un vecteur unitaire de Ker B ∩ Vect(v1 , · · · , vk+1 ), on a
Ainsi
||Y − B||2 ≥ σk+1 .
Y = F ΣU 0 ,
σi si 1 ≤ i = j ≤ r
∀(i, j) ∈ [[1, n]] × [[1, p]], Σi,j =
0 sinon
Les axes factoriels sont obtenus en diagonalisant la matrice V M = V , or on a
1 0 1
V M = V = Y 0 Dp Y = Y Y = U diag(σi2 ) U 0
n n
On en déduit que les axes factoriels sont les vecteurs colonnes de U et les valeurs propres
1 2
n σi .Pour les composantes principales, on diagonalise
1 1
Y M Y 0 Dp = Y Y 0 = F diag(σi2 ) F 0 .
n n
Ainsi la composante principale associé à l’axe α ψα est colinéaire à la αème colonne de F notée
Fα . De plus la norme de ψα pour la métrique Dp est √σin , on en déduit que
ψα = σα Fα .
Dans le cas plus général où M n’est pas l’identité et Dp n’est pas une matrice scalaire, on
suppose que M est une matrice diagonale : M = diag(m1 , · · · , mp ) et Dp = diag(p1 , · · · , pn ).
On se ramène au cas précédent de la manière suivante
1/2
— on transforme Y en Z = Dp Y M 1/2 .
— on applique la décomposition SVD à Z d’où
Z = F0 ΣU00
V M = U diag(σi2 )U 0 M.
Or on a
U 0 M U = U00 M −1/2 M M −1/2 U0 = U00 U0 = Ip .
Ce qui signifie que les vecteurs colonnes de U : u1 , · · · , up forment une base orthonormale
de IRp muni de la métrique M . Ainsi puisque
V M = U diag(σi2 )U −1 ,
u1 , · · · , up sont les p axes factoriels associées respectivement aux valeurs propres σ12 , · · · , σr2 , 0, · · · , 0
où r est le rang de Y .
De même les vecteurs colonnes de F : F1 , · · · , Fn forment une base orthonormale de IRn
muni de la métrique Dp constitués de vecteurs propres de Y M Y 0 Dp . La composante principale
associée à l’axe ui est
ψ i = σ i Fi .
2.7.4 Exemple
On considère le tableau de données suivant :
2.7. APPROCHE SVD 33
I \J x y z
1 1 6 0
2 2 5 1
3 3 4 2
4 4 3 2
5 5 2 1
6 6 1 0
associé aux résultats de trois variables x, y et z mesurées sur un échantillon I de six individus.
On suppose que chaque individu i de I (1 ≤ i ≤ 6) est muni de la masse 1/6 et M = I3 .
On note X le tableau associé. Le tableau centré est
−2.5 2.5 −1
−1.5 1.5 0
−0.5 0.5 1
Y =
0.5 −0.5 1
1.5 −1.5 0
2.5 −2.5 −1
34 CHAPITRE 2. ANALYSE EN COMPOSANTES PRINCIPALES
1/2
On applique la décomposition SVD à la matrice Dp Y = √16 Y , on ne donne que les trois
premières colonnes de U et de V puisque le rang r de Y ne peut dépasser 3 :
λ1 λ2 λ3
5.833333e+00 6.666667e-01 2.664535e-15
7.071068e-01 -1.424533e-16 -7.071068e-01
-7.071068e-01 -7.744525e-17 -7.071068e-01
4.596760e-17 1.000000e+00 -1.554917e-16
-3.5355339 -1.000000e+00 -2.237410e-16
-2.1213203 0.000000e+00 1.071813e-16
-0.7071068 1.000000e+00 -1.357893e-16
0.7071068 1.000000e+00 -1.751941e-16
2.1213203 5.551115e-17 -1.071813e-16
3.5355339 -1.000000e+00 -8.724248e-17
> X=matrix(c(1,2,3,4,5,6,6,5,4,3,2,1,0,1,2,2,1,0),6,3)
> moy=apply(X,MARGIN=2,mean)
> Y=1/sqrt(6)*(X-t(moy\%*\%matrix(c(1,1,1,1,1,1),1,6)))
> s=svd(Y)
Chapitre 3
3.1 Introduction
L’analyse Factorielle des Correspondances (AFC) a été introduite pour analyser les tableaux
de contingence. Un tableau de contingence croise les ensembles I et J de deux variables quali-
tatives X et Y . Un tel tableau peut se noter kIJ et a alors pour terme général le nombre k(i, j)
d’individus qui ont pris simultanément la modalité i pour la variable X et la modalité j pour
la variable Y .
L’AFC consiste à effectuer deux ACP, l’une sur le tableau des profils lignes, l’autre sur celui
des profils colonnes de kIJ .
L’AFC peut être appliquée à des tableaux de nombres positifs de types divers : tableaux de
contingence, tableaux homogènes de nombres positifs, tableaux d’échanges, tableau de rangs,
tableaux de présence /absence, tableau disjonctifs complets,....
35
36 CHAPITRE 3. ANALYSE FACTORIELLE DES CORRESPONDANCES
p
q
X k(·j)
fJ = (f· j)j∈J ∈ IR avec f·j = fi,j = .
i=1
k
fI est la loi marginale sur I et fj sur J. Ainsi fI et fJ sont des distributions de probabilités
donc XX X X
fi,j = fi· = f·j = 1.
i∈I j∈J i∈I j∈J
On peut aussi introduire la loi conditionnelle sur I sachant j appelé profil de la colonne j :
fi,j k(i, j)
fIJ = (fij )i∈I,j∈J avec fij = = ,
f·j k(·, j)
Ainsi fIJ est une matrice de format p × q et fIj est le jième vecteur colonne de IRp .
De même on a la loi conditionnelle sur J sachant i appelé profil de la ligne i :
fi,j k(i, j)
fJI = (fji )i∈I,j∈J avec fji = = ,
fi· k(i, ·)
Ainsi fJI est une matrice de format q × p et fJi est le ième vecteur de IRq .
Puisque fIj et fJi sont des distributions de probabilités, on a
X X
fij = fji = 1.
i∈I j∈J
S’il n’y a pas d’ambiguité, on note fi pour fi· , fj pour f·j , k(i) pour k(i, ·) et k(j) pour
k(·, j).
On suppose qu’aucune ligne ou colonne de KI,J n’est nulle. Donc fi et fj sont non nulles
et fij et fji sont bien définies.
On a
Df−1
I
= Diag(1/fi )i∈I = D1/fI et Df−1
J
= Diag(1/fj )j∈J = D1/fJ .
On dit que D1/fI (respectivement D1/fJ ) est la métrique du chi-deux de centre fI (respec-
tivement fJ ).
On considère les nuages suivants :
— N (J) = {fIj , j ∈ J}, appelé nuage des profils colonnes, où chaque point fIj de IRp
est muni du poids fj et IRp est muni de la métrique D1/fI .
— N (I) = {fJi , i ∈ I}, appelé nuage des profils lignes, où chaque point fJi de IRq est
muni du poids fi et IRq est muni de la métrique D1/fJ .
3.3. NUAGE N (J) 37
On note
Proposition 3.2.1 On a
F1 = F D1/fJ et F2 = F 0 D1/fI .
On en déduit que le rang de F est égal au rang de F1 et à celui de F2 .
on en déduit que tous les points du nuage N (J) sont dans l’hyperplan affine de IRp d’équation
X
xi = 1.
i∈I
Proposition 3.3.2 La matrice V M = V D1/fI et la matrice F1 DfJ F10 D1/fI ont les mêmes
vecteurs propres et
preuve : En effet on a
Ainsi
par conséquent la restriction à Vect(fI )⊥ des endomorphismes représentés par V D1/fI et par
F1 DfJ F10 D1/fI sont identiques donc les deux matrices ont mêmes valeurs propres et même
vecteurs propres.
On en déduit que pour obtenir les axes factoriels de l’ACP, le centrage n’est pas nécéssaire.
Pour le calcul des composantes principales, il n’est pas nécessaire de centrer non plus :
on en déduit que 0 ≤ λ ≤ 1.
40 CHAPITRE 3. ANALYSE FACTORIELLE DES CORRESPONDANCES
On a p p
ψαJ = F10 ϕIα = λα ϕJα , et ψαI = F20 ϕJα = λα ϕIα .
1
Par conséquent √ F10 ϕIα est un vecteur propre unitaire de F10 F20 associé à la valeur propre λα .
λα
De plus soit k et l deux indices distincts, on a
F 0 ϕI F 0 ϕI 1
< √1 k , √1 l > = √ ϕI, F1 DfJ F10 ϕIl ,
λk λl λk λl k
1
= √ ϕI, Df D1/fI F D1/fJ F 0 ϕIl ,
λk λl k I
1
= √ ϕI, Df F 0 F 0 ϕI ,
λk λl k I 2 1 l
= 0.
On note r le nombre de valeurs propres non nulles de F20 F10 , c’est-à-dire le rang de F20 F10 . Ainsi
l’image par F10 de la base orthonormale (ϕI1 , · · · , ϕIr , ϕIr+1 , · · · , ϕIp ) de IRp muni de la métrique
F 0 ϕI F 0 ϕI
DfI donne une famille orthogonale que l’on peut normaliser soit ( √1λ 1 , · · · , √1λ r ), ce qui donne
1 r
une famille orthonormale de IRq muni de la métrique DfJ constituée de vecteurs propres de
F10 F20 .
On en déduit que le rang de F10 F20 est supérieure à r. Par symétrie entre les deux analyses,
on en déduit que F10 F20 et F20 F10 ont même rang et donc les mêmes valeurs propres non nulles.
Par conséquent pour toute valeur propre non nulle, on a
p
F10 ϕIα = λα ϕJα ,
d’où les formules de transition.
Pour une valeur propre nulle, λα = 0, le calcul de la norme de F10 ϕIα montre que
F10 ϕIα = 0.
Les formules de transition sont encore satisfaites.
Remarque 3.4.3 Il existe diverses formulations des relations de transition. Par exemple si la
valeur propre λα est non nulle, on peut écrire
1
ψαJ = √ F10 ψαI .
λα
On en déduit
1 X j i
∀j ∈ J, ψαj = √ f ψ
λα i∈I i α
De même en inversant i et j, on a aussi
1 X i j
∀i ∈ I, ψαi = √ fj ψα .
λα j∈J
poids fij . De même le point i est le barycentre des points j affectés des poids fji .
42 CHAPITRE 3. ANALYSE FACTORIELLE DES CORRESPONDANCES
3.5 Inerties
3.5.1 Inertie totale
Proposition 3.5.1 Les nuages N (I) et N (J) ont même inertie totale égale à
X X (fi,j − fi fj )2
IT = .
fi fj
i∈I j∈J
preuve : On a
X
IT = fj ||fIj − fI ||2D(1/fI ) ,
j∈J
X X 1 j
= fj (f − fi )2 ,
fi i
j∈J i∈I
X X fj fi,j
= ( − fi )2 ,
fi fj
j∈J i∈I
X X (fi,j − fi fj )2
= .
fi fj
i∈I j∈J
Par conséquent, on a
2
X X fi,j
IT = − 1.
fi fj
i∈I j∈J
H0 : pIJ = pI pJ ,
avec
µ = pq − 1 − (p − 1) − (q − 1) = (p − 1)(q − 1).
On en conclut que la quantité
X X (fi,j − fi fj )2
kIT = k
fi fj
i∈I j∈J
fj (ψαj )2 fi (ψαi )2
CT Rα (j) = et CT Rα (i) = .
λα λα
La contribution de l’axe α à l’inertie de j et de i sont
(ψαj )2 2 (ψαi )2
CORα (j) = = cos (θ j,α ) et COR α (i) = = cos2 (θi,α ),
ρ2 (j) ρ2 (i)
où θi,α et θj,α désignent respectivement les angles formés entre fJi − fJ et uα
J d’une part et entre
fIj − fI et uα I d’autre part.
Preuve : On suppose que les deux lignes i1 et i2 du tableau fIJ ou kIJ sont proportionnelles,
alors il existe un réel a tel que
∀j ∈ J, fi1 j = a × fi2 j ,
on en déduit que X X
fi1 · = fi1 j = a × fi2 j = afi2 · .
j∈J j∈J
Ainsi dans le nuage N (I), les deux profils lignes i1 et i2 sont confondus :
fi1 j afi2 j
∀j ∈ J, fji1 = = = fji2 .
fi1 · afi2 ·
Par conséquent l’ACP du nuage N (I) n’est pas modifié si l’on réunit les deux individus i1 et
i2 en un individu i0 affecté du poids fi0 · = fi1 · + fi2 · :
fJi0 = fJi1 = fJi2 .
Ainsi pour tout j ∈ J,
fi0 j = fi0 · fji0 ,
= fi1 · fji0 + fi2 · fji0 ,
= fi1 · fji1 + fi2 · fji2 ,
= f i1 j + f i2 j .
3.7. TABLEAU DE BURT 45
Pour le nuage N (J) initial, les distances entre les colonnes j et j 0 sont
X 1 j 0
d2 (j, j 0 ) = (f − fij )2 ,
fi· i
i∈I
Or
0
1 0 f j − fij0 2
(fij0 − fij0 )2 = fi0 · ( i0 ) ,
f i0 · fi0 ·
fji0 − fji00
= (fi1 · + fi2 · )( )2 ,
f·j
fji0 − fji00 fji0 − fji00
= f i1 · ( ) 2 + f i2 · ( )2 ,
f·j f·j
fji1 − fji01 fji2 − fji02
= f i1 · ( ) 2 + f i2 · ( )2 .
f·j f·j
Par conséquent les distances entre les individus j et j 0 sont les mêmes dans les situations,
donc l’ACP de N (J) est identique dans les deux situations.
Remarque 3.6.2 Cette propriété garantit une invariance des résultats vis à vis du choix de la
momenclature pour la construction des modalités d’une variable, sous réserve de regrouper des
modalités aux profils similaires.
G = F 0 D1/fI F.
On a
X fij fij 0
∀(j, j 0 ) ∈ J 2 , gjj 0 = .
fi·
i∈I
La matrice G, appelée tableau de Burt, est symétrique donc les deux marges sont égales.
On note gJ cette marge commune, on a
X X fij fij 0
∀j ∈ J, g·j = gj· = = f·j .
0
fi·
i∈I j ∈J
46 CHAPITRE 3. ANALYSE FACTORIELLE DES CORRESPONDANCES
On en déduit que l’AFC de gJJ donne les mêmes axes factoriels uα J et les mêmes facteurs de
variance 1 ϕJα que ceux obtenus dans l’AFC de kIJ . Les valeurs propres de l’AFC de G sont les
carrés des valeurs propres de L’AFC de kIJ .
Remarque 3.7.1 Si l’on veut représenter l’ensemble I, il suffit de rajouter fIJ en supplémentaire
au tableau gII = G. On obtient la même représentation que dans l’AFC de fIJ .
Chapitre 4
ACM
On note :
Définition 4.1.1 Le tableau kIJ est dit disjonctif si chaque individu choisit au plus une mo-
dalité par question (deux modalités d’une même question s’excluent mutuellement). Le tableau
kIJ est dit complet si chaque individu choisit au moins une modalité par question.
47
48 CHAPITRE 4. ACM
Définition 4.2.1 Soit kIJ un tableau disjonctif complet, le tableau de Burt associé à kIJ , noté
BJJ , est défini pour tout j, j 0 ∈ J par :
X
B(j, j 0 ) = k(i, j) k(i, j 0 ) = nombre d’individus qui ont choisi les modalités j et j 0 .
i∈I
Si j, j 0 ∈ Jq , alors
si j 6= j 0
0
B(j, j 0 ) =
k(j) sinon.
La marge selon J du tableau kIJ est égale à la marge selon J du tableau BJJ .
Donc les métriques des AFC de kIJ et BJJ dans l’espace IRp sont identiques.
D’après le chapitre précédent, ces deux AFCs sont en fait équivalentes car on a :
X X k(i, j) k(i, j 0 )
B(j, j 0 ) = k(i, j) k(i, j 0 ) = Card Q = k (Card Q) gjj 0 .
k(i)
i∈I i∈I
1) Soit (ϕIα , ϕJα ) les deux facteurs issus de l’AFC de kIJ de rang α, et donc associés à la même
valeur propre λα . Alors ϕJα est le facteur issu de l’AFC de BJJ de rang α, et donc associé à la
valeur propre µα = (λα )2 .
2) Soit FαI (resp. GJα ) les projections des profils-lignes (resp. profils-colonnes) sur l’axe de rang
J
α issu de l’AFC de kIJ . Soit FBα (resp. GJBα ) les projections des profils-lignes (resp. profils-
colonnes) sur l’axe de rang α issu de l’AFC de BJJ . On a :
J √ p
FBα = GJBα = µα ϕJα = λα ϕJα = λα GJα .
1 X k(i, j) X k(i, j)
Fα (i) = √ Gα (j) = ϕj .
λα j∈J k(i) Card Q α
j∈J
q(i) Gq(i)
Autrement dit, Fα (i) est égal à la moyenne des ϕα = √αλ , coordonnées ”normalisées”
α
des modalités qui ont été choisies par l’individu i. Autrement dit encore, sur chaque axe, la
représentation
√ de chaque individu coı̈ncide avec la moyenne des modalités qu’il a choisies à
1/ λα près.
50 CHAPITRE 4. ACM
3) Du fait de la structure en blocs des tableaux kIJ et BJJ , on a pour toute question q ∈ Q :
X
f·j ϕjα = 0,
j∈Jq
où ϕJα est un facteur non trivial de l’AFC de BJJ ou de kIJ . On en déduit donc :
X
f·j Gα (j) = 0.
j∈Jq
Autrement dit, lors de l’AFC de kIJ , le centre de gravité des profils fIj pour j ∈ Jq est confondu
avec le centre de gravité global. On a le même résultat pour les profils (lignes ou colonnes) du
tableau (symétrique) BJJ .
Autrement dit, pour tout axe factoriel, chaque modalité j ∈ J est représentée par le centre de
gravité des individus l’ayant choisie.
On pose X
CR(j) = f·j ρ2 (j), et CR(Jq ) = f·j ρ2 (j).
j∈Jq
k(j)
pj = .
n
On démontre alors que
1 − pj
ρ2 (j) = .
pj
k(j) pj
Comme f·j = k = Card Q , on a
1 − pj
CR(j) = ,
Card Q
d’où
Card Jq − 1
CR(Jq ) = ,
Card Q
4.4. CONTRIBUTIONS EN ACM 51
et
Card J
IT = − 1.
Card Q
Décompositions en fonction des axes
On a X XX X
IT = λα = f·j G2α (j),
α α q∈Q j∈Jq
on pose X
CRα (j) = f·j G2α (j), CRα (Jq ) = f·j G2α (j).
j∈Jq
On pose
CRα (Jq )
CT Rα (q) =
λα
est la contribution relative de Jq à l’inertie de l’axe α. On peut poser
CRα (Jq ) X
CORα (q) = , QLT (q) = CORα (q),
CR(Jq ) α
CR(Jq ) CR(Jq )
IN R(q) = = .
CR(J) IT
Règles d’interprétation
1. Proximité entre individus : deux individus se essemblent s’ils ont choisi les mêmes mo-
dalités.
2. Proximité entre deux modalités de variables différentes : ces modalités correspondent aux
points moyens des individus les ayany choisies et sont proches parce qu’elles concernent
les mêmes individus ou des individus semblables.
3. Proximité entre deux modalités d’une même variable : par construction, elles s’excluent.
Si elles sont proches, c’est que les groupes des individus les ayant choisies se ressemblent.
52 CHAPITRE 4. ACM
Annexe A
Espace affine
A.1 Définitions
Définition A.1.1 Soit E un espace vectoriel, on dit que E est un espace affine de direction E
si il existe une application f de E × E dans E notée
−−→
∀(A, B) ∈ E × E, f ((A, B)) = AB,
Remarque A.1.2 Pour tout entier n non nul, IRn est un espace affine de direction IRn espace
x1
..
vectoriel. Ainsi la notation . peut être vu comme un vecteur de IRn ou un point de l’espace
xn
affine IRn .
−−→
Notations : Soit A ∈ E et u ∈ E, A + u désigne l’unique point B de E tel que AB = u. Ainsi
−−→
∀(A, B) ∈ E × E, ∀u ∈ E, AB = u ⇐⇒ B = A + u ⇐⇒ B − A = u.
53
54 ANNEXE A. ESPACE AFFINE
Définition A.1.3 On considère E un espace affine de direction E, on dit que F est un sous-
espace affine si il existe un point A de E et un sous-espace vectoriel F de E tels que
F = A + F = {M ∈ E, ∃u ∈ F, M = A + u}.
Exemple A.1.4 Une droite affine de E est un sous-espace affine de dimension 1. Dans ce cas
F = Vect(u) où u est non nul, soit A un point de la droite affine, on note DA,u la droite affine
passant par A de direction Vect(u). On dit encore que u est un vecteur directeur de la droite
affine DA,u , on a
On peut aussi définir une droite affine par deux points distincts A et B, alors la droite affine
passant par A et B est D −−→
A,AB
Exemple A.1.5 Un plan affine de E est un sous-espace affine de dimension 2. Dans ce cas
F = Vect(u, v) où u et v sont des vecteurs non colinéaires, soit A un point du plan affine, on
note PA,(u,v) le plan affine passant par A de direction Vect(u, v). On a
On peut aussi définir un plan affine par trois points non alignés A, B et C, alors le plan
affine passant par A, B et C est P −−→ −→
A,(AB ,AC )
x1
.
AX = b où A ∈ Mn,p (IR), X = .. ∈ IRp , b ∈ IRn .
xp
On suppose qu’il existe une solution particulière X0 , alors l’ensemble des solutions du système
linéaire est le sous-espace affine X0 + Ker A de IRp , de dimension dim Ker A = p − rg(A), où
rg(A) est le rang de A.
Remarque A.1.8 Lorsque l’on fixe un point O dans un espace affine E de direction E, on
vectorialise l’espace affine, c’est-à-dire à l’aide de la fonction fO on construit une structure
−−→
d’espace vectoriel sur E, tout point M de E est assimilé au vecteur OM .
A.2. BARYCENTRE 55
A.2 Barycentre
n n
1X 1 X −−→
G= pi M i = O + pi OMi est indépendant de O.
p i=1 p i=1
Exemple A.2.2 Le milieu de deux points A et B est le barycentre de A et B affectés des poids
1/2 et 1/2.
Remarque A.3.2 Une application affine f est caractérisée par sa valeur en un point et son
application linéaire associée.
Exemple A.3.3 Une translation de vecteur u est une application affine telle que
∀M ∈ E, f (M ) = M + u.
Exemple A.3.4 Une projection orthogonale affine sur le sous-espace affine F est une appli-
cation affine telle qu’il existe un point O de F vérifiant
Endomorphisme symétrique
Proposition B.0.2 Tout endomorphisme symétrique est diagonalisable. De plus il existe une
base orthonormale de E constituées de vecteurs propres de f .
Proposition B.0.3 Soit A une matrice symétrique à coefficients réels de M(IR), alors A est
diagonalisable, il existe donc une matrice diagobale D et P une matrice inversible tels que
A = P DP −1 .
A = P DP 0 .
57
58 ANNEXE B. ENDOMORPHISME SYMÉTRIQUE
Annexe C
Décomposition SVD
Théorème C.0.1 SVD Soit Y une matrice de format n × p à coefficients réels. On note r le
rang de Y , r ≤ s = min(n, p). Les espaces IRn et IRp sont munis d’une structure euclidienne
canonique. Alors il existe
1. (u1 , · · · , un ) une base orthonormale de IRn ,
2. (v1 , · · · , vp ) une base orthonormale de IRp ,
3. r réels positifs : σ1 ≥ σ2 ≥ · · · ≥ σr > 0,
tel que
r
X
Y = σi ui vi0 .
i=1
Y = U ΣV 0 ,
ou encore on peut poser
U = [u1 , · · · , un ] et V = [v1 , · · · , vn ],
et Σ est une matrice n × p dont les coefficients diagonaux sont des réels positifs ou nuls et
tous les autres sont nuls. Les termes diagonaux de Σ sont rangés par ordre décroissant . Les
matrices U et V sont deux matrices orthogonales d’ordre respectif n et p ( U 0 U = U U 0 = In et
V V 0 = V 0 V = Ip )
Dans les deux cas, la matrice Σ est unique.
preuve
1. On montre que la matrice Y 0 Y est symétrique à coefficients réels et positive.
En effet Y 0 Y est symétrique à coefficients réels et de plus
59
60 ANNEXE C. DÉCOMPOSITION SVD
La norme utilisée est la norme euclidienne canonique. Par conséquent Y 0 Y est symétrique,
positive.
2. On montre que le rang de Y 0 Y est égal au rang de Y , noté r.
En effet, d’après la relation précédente, on montre que
Ker Y = Ker Y 0 Y,
donc en utilisant le théorème du rang, on obtient le résultat.
3. D’après le théorème spectral, les valeurs propres de Y 0 Y sont r réels strictement positifs
λ1 ≥ λ2 ≥ · · · ≥ λr > 0 et 0 si r < p, et il existe une matrice orthogonale dont les
colonnes sont des vecteurs propres (v1 , · · · , vp ) de Y 0 Y telle que
D 0
V 0Y 0Y V = où D = diag(λ1 , · · · , λr ).
0 0
4. On pose
1
∀1 ≤ i ≤ r, ui = √ Y vi ;
λi
On montre que la famille (u1 , · · · , ur ) est une famille orthonormale de vecteurs propres
de Y Y 0 .
En effet pour tout 1 ≤ i ≤ r, on a
1 p
Y Y 0 ui = √ Y Y 0 Y vi = λi Y vi = λi ui ,
λi
et pour tout 1 ≤ i, j ≤ r, on a
p
1 λj 0 1 si i = j
< ui , uj >= u0i vj 0 0
= √ p vi Y Y v j = √ vi vj =
λi λj λ i 0 sinon
On complète cette famille orthonormale en une base orthonormale de IRn soit (u1 , · · · , un ).
√
5. On pose σi = λi , 1 ≤ i ≤ r et
X r
A= σi ui vi0 .
i=1
On montre que A est égal à Y . Pour cela il suffit de montrer que pour tout 1 ≤ j ≤ p,
Avj est égal à Y vj .
En effet on a
r
X
0 σj uj = Y vj si 1 ≤ j ≤ r
Avj = σi ui (vi vj ) =
0 sinon
i=1
Par conséquent
r
X
Y = σi ui vi0 .
i=1
6. Ecriture matricielle.
On a
v10
vr0
d’où en effectuant des produit par blocs
r
X
[u1 , · · · , ur ]diag(σ1 , · · · , σr )[v1 , · · · , vr ]0 = σi ui vi0 .
i=1
61
Définition C.0.2 Etant donnée une valeur singulière σ, on dit que le vecteur unitaire u de
IRn et le vecteur unitaire v de IRp sont respectivement vecteur singulier à gauche et vecteur
singulier à droite pour σ si
Y v = σu et Y 0 u = σv.