Université Hassan II Année universitaire : 2024-2025
Faculté des Sciences Juridiques Economiques et Sociales Parcours : Gestion
Ain Sebaa Analyse des données
Chapitre 2 : Notes du cours AFC
1 Tableaux croisés
Supposons que la variable X a r modalités (notées l1 , l2 · · · , lr ), et que la variable Y a c modalités (notées
d1 , d2 · · · , dc ). Les données peuvent être résumées dans une table de contingence N , dont les entrées sont les
effectifs de chaque couple (li , dj ) :
1.1 Tableau de contingence
nij =nbre d’individus sur lesquels on a observé les modalités li de X et dj de Y
HH Y
H d1 d2 d3 ··· dc T otal
X HH
l1 n11 n12 n13 ··· n1c n1.
l2 n21 n22 n23 ··· n2c n2.
l3 n31 n32 n33 ··· n3c n3.
.. .. .. .. .. .. ..
. . . . . . .
lr nr1 nr2 nr3 ··· nrc nr.
T otal n.1 n.2 n.3 ··· n.c n
L’opération consistant à établir un tel tableau est appelée un ”tri croisé” dans le domaine de l’enquête.
Les effectifs marginaux sont
Pc
1. ni. = j=1 nji = ième marge en ligne,
Pr
2. n.j = j=1 nji = jème marge en colonne.
1.2 Tableau de fréquences
HH Y
HH d1 d2 d3 ··· dc T otal
X H
l1 f11 f12 f13 ··· f1c f1.
l2 f21 f22 f23 ··· f2c f2.
l3 f31 f32 f33 ··· f3c f3.
.. .. .. .. .. .. ..
. . . . . . .
lr fr1 fr2 fr3 ··· frc fr.
T otal f.1 f.2 f.3 ··· f.c 1
où
nij
1. fij =
n
ni.
2. fi. =
n
n.j
3. f.j = .
n
1
2 Test de khi-2
On peut comparer de cas attendus aux nombres obsérvés
r X
c ni. n.j 2
X nij −
χ =
2 n
ni. n.j .
i=1 j=1 n
Si les deux variables sont réellement indépendantes, cette expression suit une distribution du Khi-2 avec
un nombre de degrés de liberté egale à (r − 1)(c − 1).
Le test de χ2 d’indépendance permet de tester les hypothèses :
— (H0 ) : ’les variables X et Y sont indépendantes’
— (H1 ) : ’les variables X et Y sont liées’.
Propriété : Dans une table on lit χ2α,K valeur ayant une probabilité α d’être dépassée pour une
distribution du khi-2 avec k = (r − 1)(c − 1) degrés de liberté.
1. Si χ2 ≤ χ2α,K on accepte (H0 ) : indépendance
2. Si χ2 > χ2α,K on rejette (H0 ).
3 Principes de l’AFC
3.1 Nuage des profils-lignes
les profils-lignes sont :
ni1 nic
Li = ( ,··· , )
ni. ni.
Le ième profil-ligne donne les fréquences empiriques des modalités d1 , · · · , dc de la variable Y , dans le
sous-échantillon des individus pour lesquels la variable X vaut li .
tableau de données est un tableau de contingence N à r lignes et c colonnes. Si on note Dr et Dc les
matrices diagonales des effectifs marginaux des variables X et Y :
Dr = diag(n1. , · · · , nr. ), Dc = diag(n.1 , · · · , n.c )
les tableaux des profils lignes et des profils-colonnes s’écrivent :
Tr = Dr−1 N, Tc = N Dc−1
Chaque profil-ligne Li est un point dans l’espace Rc . On est donc en présence d’un nuage de r points dans
R , qui dans le cas où X et Y sont indépendantes, a tendance à se concentrer sur un seul point. Pour juger de
p
la dépendance entre X et Y , on peut donc étudier la forme de ce nuage de points, au moyen d’une ACP, et
considérer le tableau Tr des profils-lignes comme un tableau individus-variables particulier. Les ”individus”
de cette ACP sont alors les modalités de la variable X et il est assez logique d’affecter à la modalité ci de X
un poids reflétant sa fréquence dans la population. Le i-ème profil-ligne est alors muni du poids fi. = ni.n .
Définition : On appelle nuage des profils-lignes Mr , l’ensemble des r points Li de Rc munis de leurs
poids fi. : Mr = (Li , fi .); i = 1, · · · , r.
Propriétés : Le centre de gravité gr du nuage Mr (profil-moyen des lignes) a pour coordonnées :
2
n
.1
n
f.1
n
.2
n f.2
n
.3 f.3
gr = =
n
.
.. ..
.
n
.c f.c
n
3.2 Métrique du khi2
Distance entre deux profils-lignes :
La distance choisie entre deux profils-lignes Li et Li′ est la métrique du chi2 d´efinie par :
c
n i′ j 2
X n nij
d2χ2 (Li , Li′ ) = −
n
j=1 .j
ni. n i′ .
3.3 Nuage des profils-colonnes
Les deux variables X et Y jouant des roles symétriques, ce qui vient d’être fait pour les profils-lignes peut
aussi être fait pour les profils-colonnes. Chaque profil-colonne Cj est un point dans l’espace Rr . L’ensemble
des profils-colonnes forme donc un nuage de c points dans Rr , qui dans le cas où X et Y sont indépendantes,
a tendance à se concentrer sur un seul point. La structure de la dépendance entre X et Y peut donc aussi
être étudiée en faisant une ACP des profils-colonnes. Les ”individus” de cette ACP sont alors les modalités
de la variable Y et le j-ème profil-colonne Cj est muni du poids f.j = n.j
n .
De la même façon, que les lignes, les profils-colonnes donnent les fréquences des modalités l1 , l2 · · · , lr
de la variable X dans le sous-échantillon des individus pour lesquels la variable Y vaut dj .
n1j nrj
Cj = ( ,··· , )
n.j n.j
Définition : On appelle nuage des profils-lignes Mc , l’ensemble des c points Li de Rr munis de leurs
poids f.j : Mr = (Cj , f.j ); j = 1, · · · , c.
Propriétés : Le centre de gravité gc du nuage Mc (profil-moyen des colonnes) a pour coordonnées :
n
1.
n
f1.
n
2.
n f2.
n
3. f3.
gc = =
n
.
.. ..
.
n
r. fr.
n
3
Distance entre profils-colonnes :
De façon symétrique, on définit la distance entre deux profils-colonnes Cj et Cj ′ par
r
!2
X n nij nij ′
d2χ2 (Cj , Cj ′ ) = −
n
i=1 i.
n.j n.j ′
3.4 Inertie
Inertie associée au nuage des profils-lignes :
r r X c 2
X X ni. n nij n.j
IMr = fi. d2χ2 (Li , gr ) = −
i=1 i=1 j=1
n n.j ni. n
De la même façon, on a
r X c 2
X ni. n nij n.j
IMc = −
i=1 j=1
n n.j ni. n
Remarque : IMc = IMr
4 ACP des deux nuages profils
Deux ACP sont possibles :
1. ACP du nuage des profils-lignes avec
(a) Tableau de données (r, c) : Tr
(b) Espace des individus :Rc
(c) Métrique : M = nDc−1
(d) Poids : D = 1
n Dr
2. ACP du nuage des profils-colonnes avec
(a) Tableau de données (c, r) : Tc⊤
(b) Espace des individus :Rr
(c) Métrique : M = nDr−1
(d) Poids : D = 1
n Dc
4
5 Tableau récapitulatif
Nuage Mr des r profils- Eléments de base Nuage Mc des c profils-
lignes dans Rc colonnes dans Rr
Tr = Dr−1 N Tableau de données Tc⊤ = Dc−1 N ⊤
L = Tr⊤ Tc Matrice à diagonaliser C = Tc Tr⊤
Luk = λk uk Vecteurs principaux Cvk = λk vk
1 1
uk = √ Tr⊤ vk Transformation vk = √ Tc uk
λk λk
ck = nTr Dc−1 uk Composantes principales c̃k = nTc⊤ Dr−1 vk