0% ont trouvé ce document utile (0 vote)
108 vues5 pages

Analyse des Données : Tableaux Croisés et AFC

Transféré par

aguilou meriem
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
108 vues5 pages

Analyse des Données : Tableaux Croisés et AFC

Transféré par

aguilou meriem
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Université Hassan II Année universitaire : 2024-2025

Faculté des Sciences Juridiques Economiques et Sociales Parcours : Gestion


Ain Sebaa Analyse des données

Chapitre 2 : Notes du cours AFC

1 Tableaux croisés

Supposons que la variable X a r modalités (notées l1 , l2 · · · , lr ), et que la variable Y a c modalités (notées


d1 , d2 · · · , dc ). Les données peuvent être résumées dans une table de contingence N , dont les entrées sont les
effectifs de chaque couple (li , dj ) :

1.1 Tableau de contingence

nij =nbre d’individus sur lesquels on a observé les modalités li de X et dj de Y

HH Y
H d1 d2 d3 ··· dc T otal
X HH
l1 n11 n12 n13 ··· n1c n1.
l2 n21 n22 n23 ··· n2c n2.
l3 n31 n32 n33 ··· n3c n3.
.. .. .. .. .. .. ..
. . . . . . .
lr nr1 nr2 nr3 ··· nrc nr.
T otal n.1 n.2 n.3 ··· n.c n

L’opération consistant à établir un tel tableau est appelée un ”tri croisé” dans le domaine de l’enquête.
Les effectifs marginaux sont
Pc
1. ni. = j=1 nji = ième marge en ligne,
Pr
2. n.j = j=1 nji = jème marge en colonne.

1.2 Tableau de fréquences

HH Y
HH d1 d2 d3 ··· dc T otal
X H
l1 f11 f12 f13 ··· f1c f1.
l2 f21 f22 f23 ··· f2c f2.
l3 f31 f32 f33 ··· f3c f3.
.. .. .. .. .. .. ..
. . . . . . .
lr fr1 fr2 fr3 ··· frc fr.
T otal f.1 f.2 f.3 ··· f.c 1


nij
1. fij =
n
ni.
2. fi. =
n
n.j
3. f.j = .
n

1
2 Test de khi-2

On peut comparer de cas attendus aux nombres obsérvés

r X
c ni. n.j 2
X nij −
χ =
2 n
ni. n.j .
i=1 j=1 n

Si les deux variables sont réellement indépendantes, cette expression suit une distribution du Khi-2 avec
un nombre de degrés de liberté egale à (r − 1)(c − 1).

Le test de χ2 d’indépendance permet de tester les hypothèses :


— (H0 ) : ’les variables X et Y sont indépendantes’
— (H1 ) : ’les variables X et Y sont liées’.
Propriété : Dans une table on lit χ2α,K valeur ayant une probabilité α d’être dépassée pour une
distribution du khi-2 avec k = (r − 1)(c − 1) degrés de liberté.
1. Si χ2 ≤ χ2α,K on accepte (H0 ) : indépendance
2. Si χ2 > χ2α,K on rejette (H0 ).

3 Principes de l’AFC

3.1 Nuage des profils-lignes

les profils-lignes sont :

ni1 nic
Li = ( ,··· , )
ni. ni.
Le ième profil-ligne donne les fréquences empiriques des modalités d1 , · · · , dc de la variable Y , dans le
sous-échantillon des individus pour lesquels la variable X vaut li .

tableau de données est un tableau de contingence N à r lignes et c colonnes. Si on note Dr et Dc les


matrices diagonales des effectifs marginaux des variables X et Y :

Dr = diag(n1. , · · · , nr. ), Dc = diag(n.1 , · · · , n.c )

les tableaux des profils lignes et des profils-colonnes s’écrivent :

Tr = Dr−1 N, Tc = N Dc−1

Chaque profil-ligne Li est un point dans l’espace Rc . On est donc en présence d’un nuage de r points dans
R , qui dans le cas où X et Y sont indépendantes, a tendance à se concentrer sur un seul point. Pour juger de
p

la dépendance entre X et Y , on peut donc étudier la forme de ce nuage de points, au moyen d’une ACP, et
considérer le tableau Tr des profils-lignes comme un tableau individus-variables particulier. Les ”individus”
de cette ACP sont alors les modalités de la variable X et il est assez logique d’affecter à la modalité ci de X
un poids reflétant sa fréquence dans la population. Le i-ème profil-ligne est alors muni du poids fi. = ni.n .

Définition : On appelle nuage des profils-lignes Mr , l’ensemble des r points Li de Rc munis de leurs
poids fi. : Mr = (Li , fi .); i = 1, · · · , r.

Propriétés : Le centre de gravité gr du nuage Mr (profil-moyen des lignes) a pour coordonnées :

2
n 
.1
 n 
 
  f.1
n   
 .2   
 n  f.2 
   
   
n   
 .3  f.3 
gr =   = 
 n   
  . 
   
 ..   .. 

 .   
   
 
n 
.c f.c
n

3.2 Métrique du khi2

Distance entre deux profils-lignes :

La distance choisie entre deux profils-lignes Li et Li′ est la métrique du chi2 d´efinie par :
c
n i′ j 2
 
X n nij
d2χ2 (Li , Li′ ) = −
n
j=1 .j
ni. n i′ .

3.3 Nuage des profils-colonnes

Les deux variables X et Y jouant des roles symétriques, ce qui vient d’être fait pour les profils-lignes peut
aussi être fait pour les profils-colonnes. Chaque profil-colonne Cj est un point dans l’espace Rr . L’ensemble
des profils-colonnes forme donc un nuage de c points dans Rr , qui dans le cas où X et Y sont indépendantes,
a tendance à se concentrer sur un seul point. La structure de la dépendance entre X et Y peut donc aussi
être étudiée en faisant une ACP des profils-colonnes. Les ”individus” de cette ACP sont alors les modalités
de la variable Y et le j-ème profil-colonne Cj est muni du poids f.j = n.j
n .

De la même façon, que les lignes, les profils-colonnes donnent les fréquences des modalités l1 , l2 · · · , lr
de la variable X dans le sous-échantillon des individus pour lesquels la variable Y vaut dj .

n1j nrj
Cj = ( ,··· , )
n.j n.j

Définition : On appelle nuage des profils-lignes Mc , l’ensemble des c points Li de Rr munis de leurs
poids f.j : Mr = (Cj , f.j ); j = 1, · · · , c.

Propriétés : Le centre de gravité gc du nuage Mc (profil-moyen des colonnes) a pour coordonnées :

n 
1.
 n 
 
  f1.
n   
 2.   
 n  f2. 
   
   
n   
 3.  f3. 
gc =   = 
 n   
  . 
   
 ..   .. 

 .   
   
 
n 
r. fr.
n

3
Distance entre profils-colonnes :

De façon symétrique, on définit la distance entre deux profils-colonnes Cj et Cj ′ par

r
!2
X n nij nij ′
d2χ2 (Cj , Cj ′ ) = −
n
i=1 i.
n.j n.j ′

3.4 Inertie

Inertie associée au nuage des profils-lignes :

r r X c  2
X X ni. n nij n.j
IMr = fi. d2χ2 (Li , gr ) = −
i=1 i=1 j=1
n n.j ni. n

De la même façon, on a

r X c  2
X ni. n nij n.j
IMc = −
i=1 j=1
n n.j ni. n

Remarque : IMc = IMr

4 ACP des deux nuages profils

Deux ACP sont possibles :

1. ACP du nuage des profils-lignes avec


(a) Tableau de données (r, c) : Tr
(b) Espace des individus :Rc
(c) Métrique : M = nDc−1
(d) Poids : D = 1
n Dr
2. ACP du nuage des profils-colonnes avec
(a) Tableau de données (c, r) : Tc⊤
(b) Espace des individus :Rr
(c) Métrique : M = nDr−1
(d) Poids : D = 1
n Dc

4
5 Tableau récapitulatif

Nuage Mr des r profils- Eléments de base Nuage Mc des c profils-


lignes dans Rc colonnes dans Rr

Tr = Dr−1 N Tableau de données Tc⊤ = Dc−1 N ⊤

L = Tr⊤ Tc Matrice à diagonaliser C = Tc Tr⊤

Luk = λk uk Vecteurs principaux Cvk = λk vk

1 1
uk = √ Tr⊤ vk Transformation vk = √ Tc uk
λk λk

ck = nTr Dc−1 uk Composantes principales c̃k = nTc⊤ Dr−1 vk

Vous aimerez peut-être aussi