Analyse Factorielle des Correspondances (AFC)
Analyse Factorielle des Correspondances (AFC)
gr = [f1+ , . . . , fr+ ]0 ,
Travaux pratiques de complexité croissante par l’études de données
élémentaires. et gc = [f+1 , . . . , f+c ]0 .
vecteur de Rr , et la matrice r × c des profils-colonnes est l’hypothèse alternative est H1 : les variables X
e et Ye ne sont pas indépen-
dantes.
1
B= TD−1
c . La statistique de test est alors
n
c
r X n`+ n+h 2
1.3 Liaison entre deux variables qualitatives X n`h −
χ2 = n
n`+ n+h ;
D ÉFINITION 1. — On dit que deux variables X et Y sont non liées relative- `=1 h=1 n
ment à T si et seulement si :
n`+ n+h elle suit asymptotiquement (pour les grandes valeurs de n), et si l’hypothèse
∀(`, h) ∈ {1, . . . , r} × {1, . . . , c} : n`h = . H0 est vraie, une loi de χ2 à (r−1)(c−1) degrés de liberté. On rejette donc H0
n
(et l’on conclut au caractère significatif de la liaison) si χ2 dépasse une valeur
Il est équivalent de dire que tous les profils-lignes sont égaux, ou encore que particulière (valeur ayant une probabilité faible et fixée a priori – en général
tous les profils-colonnes sont égaux. 0,05 –être dépassée par une loi de χ2 à (r − 1)(c − 1) degrés de liberté).
Cette notion est cohérente avec celle d’indépendance en probabilités. En 1.4 Objectifs
effet, soit Ω = {1, . . . , n} l’ensemble des individus observés et (Ω, P(Ω), P )
l’espace probabilisé associé où P est l’équiprobabilité ; MX = {x1 , . . . , xr } Pour préciser la liaison existant entre les variables X et Y , on souhaite dé-
et MY = {y1 , . . . , yc } désignent les ensembles de modalités, ou valeurs prises finir un modèle statistique susceptible de fournir des paramètres dont la repré-
par les variables X et Y . On note X et Y les variables aléatoires associées aux
e e sentation graphique (de type biplot) illustrera les “correspondances” entre les
2 variables statistiques X et Y : modalités de ces 2 variables. Cette approche sera développée au paragraphe 3.
Une autre approche, très courante dans la littérature francophone, consiste
Xe : (Ω, P(Ω), P ) 7→ (MX , P(MX )),
à définir l’Analyse Factorielle des Correspondances (AFC) comme étant le
Ye : (Ω, P(Ω), P ) 7→ (MY , P(MY )) ; résultat d’une double Analyse en Composantes Principales
• l’ACP des profils–lignes,
PX , PY et PXY désignent respectivement les probabilités images définies par • l’ACP des profils–colonnes,
X,
e Ye et le couple (X, e Ye ) sur (MX , P(MX )), (MY , P(MY )) et (MX ×
relativement à la métrique dite du χ2 . Cette approche est présentée au para-
MY , P(MX ) × P(MY )) ; ce sont les probabilités empiriques. Alors, X et Y graphe 2.
sont non liées si et seulement si X e et Ye sont indépendantes en probabilité (la
Remarque. — :
vérification est immédiate).
On suppose maintenant qu’il existe une liaison entre X et Y que l’on sou- 1. Toute structure d’ordre existant éventuellement sur les modalités de X ou
haite étudier. La représentation graphique des profils-lignes ou des profils- de Y est ignorée par l’AFC
colonnes, au moyen de diagrammes en barres parallèles, ainsi que le calcul 2. Tout individu présente une modalité et une seule de chaque variable.
de coefficients de liaison (Cramer ou Tschuprow) donnent une première idée
3. Chaque modalité doit avoir été observée au moins une fois ; sinon, elle est
de la variation conjointe des deux variables. Le test du χ2 permet de plus de
supprimée.
s’assurer du caractère significatif de cette liaison. Il est construit de la manière
suivante :
l’hypothèse nulle est H0 : X e et Ye sont indépendantes en probabilités ; 2 Double ACP
3 Analyse Factorielle des Correspondances (AFC)
2.1 Métriques du Chi2 3. la solution de l’ACP est fournie par la D.V.S. de (B0 −1gr0 , D−1
r , Dc ), qui conduit
à rechercher les valeurs et vecteurs propres de la matrice (SM)
Les correspondances entre modalités évoquées au paragraphe précédant se
trouvent exprimées en termes de distances au sens d’une certaine métrique. BDc B0 D−1 0 0 −1
r − gr Dc gr = BA − gr gr Dr ( car B0 D−1
r = D−1
c A)
Ainsi, chaque modalité x` de X est caractérisée par son profil–ligne représenté
4. les matrices BA − gr gr0 D−1 et BA ont les mêmes vecteurs propres associées
par le vecteur a` de l’espace Rc muni de la base canonique (les coordonnées de r
aux mêmes valeurs propres, à l’exception du vecteur gr associé à la valeur propre
a` sont les éléments de la `-ième colonne de A). De même, chaque modalité
λ0 = 0 de BA − gr gr0 D−1r et à la valeur propre λ0 = 1 de BA.
yh de Y est caractérisée par son profil–colonne représenté par le vecteur bh de
l’espace Rr muni de la base canonique.
2
Ces espaces sont respectivement munis des métriques, dites du χ2 , de ma-
trices D−1 et D−1
r . Ainsi, la distance entre deux modalités x` et xi de X On note U la matrice contenant les vecteurs propres D−1
c r –orthonormés de
s’écrit BA. La représentation des “individus” de l’ACP réalisée fournit une représen-
c
` i 2
X 1 ` i 2 tation des modalités de la variable Y . Elle se fait au moyen des lignes de la
ka − a kD−1 = (a − ah ) ,
c f+h h matrice des “composantes principales” (XMV) :
h=1
P ROPOSITION 2. — Les éléments de l’ACP de (B0 , D−1 r , Dc ) sont fournis On obtient directement les résultats en permutant les matrices A et B, ainsi
par l’analyse spectrale de la matrice carrée, D−1
r –symétrique et semi–définie que les indices c et r. Notons V la matrice des vecteurs propres de la matrice
positive BA. AB ; les coordonnées permettant la représentation les modalités de la variable
X sont fournies par la matrice :
Preuve Elle se construit en remarquant successivement que :
Cr = A0 D−1
c V.
1. le barycentre du nuage des profils–colonnes est le vecteur gr des fréquence mar-
ginales de X, Sachant que V contient les vecteurs propres de AB et U ceux de BA,
2. la matrice BDc B0 −gr Dc gr0 joue le rôle de la matrice des variances–covariances, un théorème de l’annexe (st-m-explo-alglin Compléments d’algèbre linéaire)
4 Analyse Factorielle des Correspondances (AFC)
montre qu’il suffit de réaliser une seule analyse, car les résultats de l’autre s’en 3.2 Le modèle d’association
déduisent simplement :
Il est encore appelé RC-modèle, ou modèle de Goodman :
q
!
= AUΛ−1/2 ,
X
V p`h = γ.α` .βh .exp φk .µ`k .νhk .
U = BVΛ−1/2 ; k=1
uk D−1 j k −1 j
r u = v Dc v
= δkj .
On écrit d’abord que chaque fréquence f`h de T correspond à l’observation
d’une probabilité théorique p`h ; on modélise donc la table de contingence par Remarque. — :
cette distribution de probabilités. On précise ensuite le modèle en explicitant 1. Le modèle (1) ci-dessus est équivalent au modèle considéré par Good-
l’écriture de p`h . Différents modèles classiques peuvent être considérés. man :
3.1 Le modèle log–linéaire Xq
p
!
k k
p`h = p`+ p+h 1 + λk ξ` ηh , (2)
Il consiste à écrire :
k=1
ln(p`h ) = µ + α` + βh + γ`h moyennant une homothétie sur les paramètres.
Pq √
avec des contraintes le rendant identifiable. Ce modèle, très classique, est dé- 2. La quantité k=1 λk uk` vhk exprime l’écart à l’indépendance pour la cel-
veloppé par ailleurs. lule considérée.
5 Analyse Factorielle des Correspondances (AFC)
3. Le modèle suppose que cet écart se décompose dans un sous–espace de associés aux valeurs propres λk .
dimension q < min(c − 1, r − 1). De plus, le vecteur gr = u0 (resp. gc = v0 ) est vecteur propre D−1
r –normé (resp.
4. Les estimations des paramètres p`+ , p+h , λk , uk , vk peuvent être réali- D−1 c –normé) de la matrice BA (resp. AB) associé à la valeur propre λ0 = 1. Enfin,
2
sées par maximum de vraisemblance 1 ou par moindres carrés. Dans le les matrices AB et BA sont stochastiques et donc les valeurs propres vérifient :
contexte de la statistique descriptive, qui est celui de ce cours, il est natu-
1 = λ0 ≥ λ1 ≥ · · · ≥ λq > 0.
rel de retenir cette dernière solution.
3.4 Estimation Moindres Carrés dans le modèle de En identifiant les termes, l’approximation de rang (q + 1) de la matrice P s’écrit
donc :
corrélation q
X p 0
Pb q = gr gc0 + λ k uk v k
3.4.1 Critère k=1
et les propriétés d’orthonormalité des vecteurs propres assurent que les contraintes du
Considérons les espaces Rc et Rr munis de leur base canonique et de leur
modèle sont vérifiées.
métrique du χ2 respectives et notons P le tableau des probabilités théoriques
définies selon le modèle (1). Le critère des moindres carrés s’écrit alors : 2
2
1
4 Représentations graphiques
min
T − P
−1 −1 . (3)
P n Dr Dc
On obtient ainsi, d’une autre façon, l’AFC de la table de contingence T. En se limitant au rang q, on obtient donc, pour chaque cellule (`, h) de la table
T, une approximation de son écart relatif à l’indépendance comme produit
Preuve Elle se construit à partir de la D.V.S. de ( n1 T, D−1 −1
c , Dr ) :
scalaire des deux vecteurs
min(r−1,c−1)
1 h
uk` 1/4 v k 1/4
X p
t` = λk uk` vhk ,
n λk et h λk ,
k=0 f`+ f+h
où les vecteurs u (resp. v ) sont vecteurs propres D−1
k k −1
r –orthonormés (resp. Dc –
orthonormés) de la matrice termes génériques respectifs des matrices
1 1 0 −1 1 1
TD−1
c T Dr = BA (resp. T0 D−1 r TDc−1 = AB), D−1
r UΛ
1/4
et D−1
c VΛ
1/4
,
n n n n
1. On suppose alors que les n p`h sont les paramètres de lois de Poisson indépendantes 2. Matrice réelle, carrée, à termes positifs, dont la somme des termes de chaque ligne (ou
conditionnellement à leur somme qui est fixée et égale à n. chaque colonne) vaut 1.
6 Analyse Factorielle des Correspondances (AFC)
qui sont encore les estimations des vecteurs ξ` et ηh du modèle 2. Leur repré- on voit que dans la seconde des représentations ci–dessus, chaque modalité x`
sentation (par exemple avec q = 2) illustre alors la correspondance entre les de X est représentée par un vecteur qui est barycentre de l’ensemble des vec-
deux modalités x` et yh : lorsque deux modalités, éloignées de l’origine, sont teurs associés aux modalités de Y , chacun d’eux ayant pour poids l’élément
voisines (resp. opposées), leur produit scalaire est de valeur absolue impor- correspondant du l-ième profil–ligne. Là encore, la représentation simultanée
tante ; leur cellule conjointe contribue alors fortement et de manière positives’en trouve parfaitement justifiée. Malheureusement, dans la pratique, les re-
(resp. négative) à la dépendance entre les deux variables. présentations barycentriques sont souvent illisibles ; elles sont, de ce fait, très
L’AFC apparaît ainsi comme la meilleure reconstitution des fréquences f`h , peu utilisées.
ou encore la meilleure représentation des écarts relatifs à l’indépendance. La
4.4 Autre représentation
représentation simultanée des modalités de X et de Y se trouve ainsi pleine-
ment justifiée. La pratique de l’AFC montre que l’interprétation des graphiques est toujours
la même, quelle que soit la représentation simultanée choisie parmi les 3 ci–
4.2 Double ACP dessus.
Chacune des deux ACP réalisée permet une représentation des “individus” On peut ainsi envisager d’utiliser, pour une représentation simultanée des
(modalités) approchant, au mieux, les distances du χ2 entre les profils–lignes modalités de X et de Y , les coordonnées fournies respectivement par les lignes
d’une part, les profils–colonnes d’autre part. Les coordonnées sont fournies des matrices
cette fois par les matrices (de composantes principales)
Cr = D−1
r UΛ
1/2
et Cc = D−1
c VΛ
1/2
. D−1 −1
r U et Dc V.
Même si la représentation simultanée n’a plus alors de justification, elle reste L’interprétation du graphique sera toujours la même et les matrices ci–
couramment employée. En fait, les graphiques obtenus diffèrent très peu de dessus, outre leur simplicité, présentent l’avantage de conduire a une représen-
ceux du biplot ; ce dernier sert donc de “caution” puisque les interprétations tation graphique qui reste invariante lorsque l’on utilise la technique d’Analyse
des graphiques sont identiques. On notera que cette représentation issue de la Factorielle des Correspondances Multiples sur les données considérées ici.
double ACP est celle réalisée par la plupart des logiciels statistiques (c’est en
particulier le cas de SAS). 4.5 Aides à l’interprétation
4.3 Représentations barycentriques Les qualités de représentation dans la dimension choisie et les contributions
des modalités de X ou de Y se déduisent aisément de celles de l’ACP Ces
D’autres représentations simultanées, appelées barycentriques, sont propo- quantités sont utilisées à la fois pour choisir la dimension de l’AFC et pour
sées en utilisant les matrices interpréter ses résultats dans la dimension choisie.
D−1
r UΛ
1/2
et D−1
c VΛ, 4.5.1 Mesure de la qualité globale
ou encore les matrices Pour une dimension donnée q (1 ≤ q ≤ d = inf(r − 1, c − 1)), la qualité
D−1
r UΛ et D−1
c VΛ
1/2
. globale des représentations graphiques en dimension q se mesure par le rap-
port entre la somme des q premières valeurs propres de l’AFC et leur somme
Si l’on considère alors, par exemple, la formule de transition complète de 1 à d.
Pd
Cr = A0 Cc Λ−1/2 ⇐⇒ Cr Λ1/2 = A0 Cc ⇐⇒ D−1 0 −1
r UΛ = A Dc VΛ
1/2
, Compte–tenue de la propriété k=1 λk = Φ2 (voir en 6.1), la qualité de la
7 Analyse Factorielle des Correspondances (AFC)
6.2 Invariance
• Les tables de contingence T et αT, α ∈ R∗+ , admettent la même AFC
(évident).
• Propriété d’équivalence distributionnelle : si deux lignes de T, ` et i,
ont des effectifs proportionnels, alors les représentations de x` et xi sont
confondues (leurs profils sont identiques) et le regroupement de x` et xi
en une seule modalité (en additionnant les effectifs) laisse inchangées les
0.4 représentations graphiques (même chose pour les colonnes de T). Cette
propriété est une conséquence de la métrique du χ2 .
0.3
SINF1
6.3 Choix de la dimension
h.g.
S1_5 Le choix de la dimension pose les mêmes problèmes qu’en ACP De nom-
0.2 arie
breuses techniques empiriques ont été proposées (essentiellement : part d’iner-
tie expliquée, éboulis des valeurs propres). Il existe également une approche
probabiliste qui peut donner des indications intéressantes. Nous la détaillons
A
x
e 0.1 S_100 ci–dessous.
2
S50_99
Posons
gers q
X
q
p
0.0
n
d
`h = nf`+ f+h + n λk uk` vhk ,
h.p.
k=1
S20_50 t.g.
S10_20
tarn
lot estimation d’ordre q de l’effectif conjoint de la cellule (`, h). Alors, sous cer-
-0.1 taines conditions (échantillonnage, n grand, modèle multinomial . . . ), on peut
aver
montrer que
S5_10 r X c q 2 d
X (n`h − nd
`h )
X
-0.2 Kq = 'n λk
-0.5 -0.3 -0.1 0.1 0.3 0.5 0.7 q
Axe 1
`=1 h=1 n
d
`h k=q+1
2
F IGURE 1 – Répartition des exploitations agricoles par taille et par départe- suit approximativement une loi de χ à (r − q − 1)(c − q − 1) degrés de liberté.
ment. Premier plan de l’AFC. On peut donc retenir pour valeur de q la plus petite dimension pour laquelle
Kq est inférieure à la valeur limite de cette loi. Le choix q = 0 correspond
à la situation où les variables sont proche de l’indépendance en probabilités ;
les fréquences conjointes sont alors bien approchées par les produits des fré-
quences marginales.