Traitement Statistique Des Données
Traitement Statistique Des Données
C. Joutard
1
Organisation
2
Introduction
Les statistiques: Ensemble de données, d’observations relatives à des
groupes d’individus, présentées sous forme de tableaux numériques, de
graphiques ou synthétisées par des résumés numériques.
La statistique: Ensemble de méthodes ayant pour objectif la collecte, la
présentation, le traitement de données d’une part, l’analyse de ces
données, leur modélisation et la prise de décision d’autre part.
Ce cours portera principalement sur la Statistique descriptive (on
s’intéresse à décrire et à synthétiser les données étudiées) 6= Statistique
inférentielle (on cherche à tirer des conclusions générales à partir des
données observées sur un échantillon) ,→ utilise notamment les
probabilités.
3
Exemple 1: Notes d’étudiants et filières d’étude
On a noté dans le tableau ci-dessous la répartition de 100 étudiants d’une
université par filière d’étude et par classe de notes obtenues à une épreuve
d’un concours commun.
Note [0, 6[ [6, 10[ [10, 14[ [14, 20]
Filière A 26 6 4 1
Filière B 12 9 3 1
Filière C 1 4 5 6
Filière D 10 8 3 1
Exemple 2: Sondage sur une mesure gouvernementale
Un échantillon est prélevé au hasard dans la population française pour
sonder l’opinion sur une mesure du gouvernement. On a obtenu les
résultats suivants: 689 sont opposés à la mesure, 894 indifférents et 417
favorables.
4
Exemple 3: Habitants d’une résidence de Montpellier
Dans une résidence de Montpellier comprenant 11 appartements, on
s’intéresse au nombre de personnes habitant dans chaque appartement.
On a obtenu les réponses suivantes:
1, 3, 1, 0, 2, 2, 4, 1, 3, 1, 2
5
Exemple 5: Couleurs des yeux et des cheveux
6
Chapitre I. Description d’une situation
statistique
1) Population et individus
L’ensemble des individus sur lequel porte l’étude s’appelle la
population. Comme en général, on ne peut pas étudier la population en
entier, on en extrait une partie appelée échantillon. Les individus
constituant l’échantillon sont donc extraits de la population étudiée.
L’échantillon est censé être représentatif de cette population (note: le
processus de sélection des individus de l’échantillon fait parti d’une
branche de la statistique appelée échantillonnage qui ne sera pas étudiée
dans ce cours).
Lorsque l’échantillon correspond à la population dans son entier on parle
de recensement.
7
Pour désigner un individu, on parle aussi d’unité statistique. Notons
qu’un individu (ou unité statistique) n’est pas nécessairement une
personne (exemple: une voiture, une ville française, un appartement,...)
On notera n=taille de l’échantillon = nombre d’individus de
l’échantillon = effectif total
8
Exemple 3: Habitants d’une résidence
Les individus sont les appartements d’une résidence de Montpellier.
Il s’agit d’un recensement car on a étudié tous les appartements de la
résidence. La taille de le la population (=échantillon) est n = 11.
Exemple 4: Produits d’une grande surface
Les individus sont des produits d’une grande surface française.
Il pourrait s’agir d’un échantillon mais ce n’est pas clairement spécifié.
La taille de l’échantillon est n = 700.
Exemple 5: Couleurs des yeux et des cheveux
Les individus sont les enfants d’une école primaire.
C’est un recensement.
La taille de la population (=échantillon) est n = 445.
9
2) Variable(s)
Le (ou les) caractère(s) étudié(s) et mesuré(s) sur les individus est (sont)
appelé(s) la (ou les) variable(s). On la (les) notera par des lettres
majuscules: X, Y, Z.... On observe et mesure la (ou les) variable(s) sur
chaque individu de l’échantillon.
Exemple de variables: âge, taille, salaire, note à un examen, nombre
d’enfants, mention au bac, etc....
On appelle modalités les réponses faites par les individus à une variable.
Pour un individu donné, on n’a qu’une seule réponse possible (par
variable). On notera ces réponses par des lettres minuscules. Par exemple,
x2 représente la réponse faite par l’individu numéro 2 de l’échantillon à la
variable X.
Si on étudie 2 variables X et Y (au lieu d’une seule), (x5 , y5 ) représente
les réponses faites par l’individu numéro 5 de l’échantillon aux 2
variables X et Y .
10
On fait la distinction entre l’ensemble des modalités observées et
l’ensemble des modalitées observables (les réponses “possibles”). Il se
peut très bien que toutes les réponses “possibles” n’aient pas été
observées parmi les n individus constituant l’échantillon étudié.
En effet soit l’ensemble des modalités observables est infini (ex:
modalités de la variable “taille” en cm) soit certaines réponses n’ont tout
simplement pas été proposées par les n individus de l’échantillon.
11
Lorsque l’ensemble des modalités est fini (en particulier ce n’est pas un
intervalle comme dans l’exemple MX = [140, 200]), on note K son
cardinal (c’est-à-dire le nombre d’éléments de l’ensemble). Dans le cas
général, on aura alors MX = {m1 , . . . , mK }.
Si K = 2 (2 modalités pour la variable), on dit que la variable est
dichotomique (exemple: réponse (Oui/Non) à une question).
12
Nous nous intéressons à présent à la nature des ces variables (qui dépend
de la structure de l’ensemble des modalités):
13
• Variable quantitative: Les modalités d’une variables quantitative
sont des nombres (obtenus par comptage, mesure, etc..). On parle
alors de valeurs (de la variable) plutôt que de modalités. Il existe 2
types de variables quantitatives :
Variable quantitative discrète: les valeurs sont en général des
nombres entiers obtenus par dénombrement (ex: Nombre
d’enfants d’une famille, Nombre d’étages d’un immeuble, etc..)
Variable quantitative continue: les valeurs sont en général des
nombres décimaux lus par un instrument de mesure réel ou
imaginaire. Elles s’expriment souvent dans une unité (ex: taille
en cm, salaire en euros, durée en min,...). Notons qu’entre deux
valeurs distinctes, il existe en théorie une infinité de valeurs
possibles.
14
Exemple 1: Notes d’étudiants et filières d’étude
X: “Filière d’étude”
Y : “Note”
MX = {A, B, C, D}.
Variable qualitative nominale
MY = [0, 20].
Variable quantitative continue
Exemple 2: Avis sur une mesure gouvernementale
X: “Avis”
MX = {“Opposé”, “Indifférent”, “Favorable”}.
Variable qualitative ordinale
Exemple 3: Habitants d’une résidence
X: “Nombre de personnes (habitant dans un appartement)”
MX = {0, 1, 2, 3, 4}.
Variable quantitative discrète
15
Exemple 4: Produits d’une grande surface
X: “Prix”
MX =]0, 150].
Variable quantitative continue
16
3) Données
On s’intéresse maintenant à la manière dont les données (l’ensemble des
réponses des individus) sont présentées. En général, les données dont on
dispose ont déjà subi des transformations pour les rendre plus “lisibles”.
Les données dans leur forme “originelle” (aucune transformation n’a été
effectuée) sont appelées données brutes. Elles peuvent se présenter sous
la forme d’un tableau avec en lignes les individus et en colonnes les
variables. Dans le cas d’une seule variable X, on aurait alors par exemple:
Numéro de l’individu (identifiant) Variable X
1 m3
2 m2
3 m4
4 m1
.. ..
. .
n m1
17
Exemple 2: Avis sur une mesure gouvernementale: Le tableau des
données brutes pouvait se présenter sous la forme:
Numéro de l’individu Avis
1 Indifférent
2 Indifférent
3 Opposé
4 Favorable
.. ..
. .
n Opposé
Les données brutes pourraient aussi être simplement présentées sous la
forme d’une liste de n réponses (1 par individu) à la variable X. Par
exemple, on pourrait avoir: x1 = Indifférent, x2 = Indifférent, x3 =
Opposé, x4 = Favorable, . . ., xn = Opposé,
ou encore plus simplement:
Indifférent, Indifférent, Opposé, Favorable, . . ., Opposé.
18
Exemple 1: Notes d’étudiants et filières d’étude
X = Filière d’étude (variable qualitative nominale).
Y = Note obtenue à l’épreuve (variable quantitative continue).
Les ensembles des modalités pour X et Y sont MX = {A, B, C, D} et
MY = [0, 20]. Le tableau des données brutes pouvait se présenter sous la
forme:
Numéro de l’étudiant Filière (X) Note (Y)
1 B 10.5
2 A 4.5
3 B 12
4 D 8.5
.. .. ..
. . .
n C 14
19
Souvent, on regroupe les individus qui ont donné la même réponse
(c’est-à-dire la même modalité) et on compte leur nombre. Donc pour
chaque modalité (dans le cas d’un ensemble de modalités de cardinal
fini), on obtient l’effectif associé, c’est-à-dire le nombre d’individus (dans
l’échantillon) ayant choisi cette modalité. Pour une variable X avec K
modalités, on a alors le tableau suivant donnant la répartition des
individus selon les K modalités:
Variable X m1 m2 ··· mK
Effectifs nk n1 n2 ··· nK
Ce tableau donne la distribution en effectifs de la variable X, notion qui
fait l’objet du chapitre suivant.
20
En résumé, lorsque l’on veut décrire une situation statistique, on doit
clairement identifier:
21
Chapitre II. Distribution et distribution
cumulée
1) Distribution
Soit X une variable observée sur un échantillon de taille n. On note
x1 , x2 , . . . , xn les réponses (appartenant à l’ensemble des modalités
MX ) données par les n individus de l’échantillon à X. On appelle
distribution de X la répartition des réponses suivant les modalités de X.
1.1) Distribution en effectifs
Pour chaque modalité, on compte le nombre d’individus ayant pour
réponse cette même modalité (ceci revient à compter les répétitions dans
les réponses données par les n individus). On notera mk la kème
modalité de X et nk l’effectif associé à cette modalité (c’est-à-dire le
nombre d’individus dont la réponse à X est mk ).
22
Remarquons que
K
X
nk = n1 + n2 + . . . + nK = n,
k=1
23
1.2) Distribution en fréquences
On s’intéresse à la proportion des différents effectifs par rapport à
l’effectif total n (taille de l’échantillon). Il est ainsi plus facile de
comparer et d’interpréter.
Notons fk la fréquence associée à la kème modalité:
nk
fk = .
n
Une fréquence est toujours comprise entre 0 et 1. On peut aussi l’écrire
sous forme de pourcentage (ex: 0.35 = 35%).
PK
On a k=1 fk = 1, c’est-à-dire la somme des fréquences est égale à 1
(ou 100% s’il s’agit de pourcentages).
Le tableau ci-dessous donne la distribution en fréquences de X:
24
1.3) Cas particulier de la variable quantitative continue
Vu l’infinité des valeurs (ou modalités) observables pour une variable
quantitative continue, il n’y a pas de répétitions et donc pas de
regroupement immédiat par modalité. On va former des classes de
valeurs, c’est-à-dire découper l’ensemble des modalités M en intervalles
(classes) successifs. Pour ceci on doit :
25
On parle de regroupement en classes de la variable. Notons que ce
regroupement en classes implique forcément une perte d’information vu
qu’on ne connaı̂t plus la valeur exacte de chaque observation (ou réponse
observée pour chaque individu) mais seulement son appartenance à une
classe.
On a le tableau suivant pour la distribution (en effectifs et fréquences) de
X:
Variable X [b0 ; b1 [ [b1 ; b2 [ ··· [bK−1 ; bK [ Total
Effectifs nk n1 n2 ··· nK n
Fréquences fk f1 f2 ··· fK 1
En ce qui concerne le nombre de classes à choisir, on doit faire attention à
ce qu’il ne soit pas trop petit pour éviter une trop grande perte
d’information mais pas trop grand non plus pour que l’information reste
assez lisible.
26
2) Distribution cumulée
On parle de distribution cumulée uniquement lorsqu’il existe un ordre
naturel sur les modalités (c’est le cas des variables quantitatives discrètes
ou continues et des variables qualitatives ordinales mais pas des variables
qualitatives nominales). Lorsqu’on peut donc ranger les modalités selon
un ordre, il s’agit de cumuler les effectifs (ou les fréquences) selon l’ordre
croissant des modalités.
Etudier la distribution cumulée d’une variable permet de répondre à des
questions du type:
Quelle est la proportion d’individus dont la réponse est inférieure à...?
Quelle est la proportion d’individus dont la réponse est comprise entre...
et ...?
Quelle est la proportion d’individus dont la réponse est supérieure à...?
27
Pour la kème modalité, les formules sont les suivantes:
Effectifs cumulés Nk : Nk = n1 + n2 + . . . + nk .
Fréquences cumulées Fk : Fk = f1 + f2 + . . . + fk .
2.1) Cas des variables qualitatives ordinales
Les modalités sont rangées selon un ordre naturel.
28
2.2) Cas des variables quantitatives discrètes
Les valeurs peuvent bien entendu être rangées dans l’ordre.
29
2.3) Cas des variables quantitatives continues
Les classes sont rangées dans l’ordre.
30
3) Exemples
Exemple 1: Notes d’étudiants et filières d’étude
Les deux tableaux ci-dessous donnent d’une part la distribution (en
effectifs et fréquences) de la variable X = “Filière d’étude” (ou
distribution marginale de X, voir chapitre III) et d’autre part la distribution
et la distribution cumulée de la variable Y = “Note obtenue à l’épreuve”
Filière A B C D Total
Effectifs nk 37 25 16 22 100
Fréquences fk (%) 37 25 16 22 100
31
Exemple 2: Avis sur une mesure gouvernementale
Le tableau ci-dessous donne la distribution (en effectifs et fréquences) et
la distribution cumulée (en effectifs et fréquences) de X=“Avis”.
32
Exemple 3: Habitants d’une résidence
On représente dans le tableau ci-dessous la distribution et la distribution
cumulée (en effectifs et en fréquences) de X=“Nbre de personnes
(habitant dans un appartement)”.
33
Exemple 4: Produits d’une grande surface
34
4) Représentations graphiques
35
4.1) Variable qualitative nominale
La distribution de X est donnée dans le tableau suivant
Variable X m1 m2 ··· mK Total
Effectifs nk n1 n2 ··· nK n
Fréquences fk f1 f2 ··· fK 1
Distribution: diagramme en barres séparées
• On trace un axe horizontal portant le nom de la variable et on y
positionne les modalités de la variable (ici l’ordre et la distance entre
modalités n’ont pas de sens, l’axe n’est pas orienté).
• Sur l’axe vertical, on place les effectifs ou les fréquences après avoir
choisi une échelle (l’axe est orienté).
• Au dessus de chaque modalité, on trace un trait ou un rectangle (la
largeur n’a pas de signification) vertical de hauteur égale à l’effectif
(ou à la fréquence) correspondant.
36
4.2) Variable qualitative ordinale
La distribution et la distribution cumulée de X sont données ci-dessous:
Variable X m1 m2 ··· mK Total
Effectifs nk n1 n2 ··· nK n
Fréquences fk f1 f2 ··· fK 1
Effectifs cumulés Nk N 1 = n1 N2 ··· NK = n
Fréquences cumulées Fk F1 = f 1 F2 ··· FK = 1
Distribution: diagramme en barres juxtaposées
• Sur un axe horizontal portant le nom de la variable, on positionne les
modalités de la variable entre deux délimiteurs répartis régulièrement.
• Sur l’axe vertical, on place les effectifs ou les fréquences après avoir choisi
une échelle (l’axe est orienté).
• Au dessus de chaque modalité, on trace un rectangle vertical (la base du
rectangle correspond à la modalité entre 2 délimiteurs) de hauteur égale à
l’effectif (ou à la fréquence) correspondant.
37
Distribution cumulée: graphe des fréquences cumulées
38
4.3) Variable quantitative discrète
La distribution et la distribution cumulée de X sont données ci-dessous:
Variable X v1 v2 ··· vK Total
Effectifs nk n1 n2 ··· nK n
Fréquences fk f1 f2 ··· fK 1
Effectifs cumulés Nk N1 = n1 N2 ··· NK = n
Fréquences cumulées Fk F1 = f 1 F2 ··· FK = 1
Distribution: Diagramme en bâtons
• On trace un axe horizontal portant le nom de la variable et on y positionne les
valeurs (modalités) de la variable après avoir choisi une échelle (l’axe est
orienté).
• Sur l’axe vertical, on place les effectifs ou les fréquences en respectant
l’échelle choisie (l’axe est orienté).
• Au dessus de chaque modalité on trace un bâton de longueur égale à
l’effectif (ou à la fréquence) correspondant.
39
Distribution cumulée: graphe de la fonction de répartition empirique
,→ graphe en escalier
• On trace des morceaux de droite horizontale (le cumul se fait par des
sauts pour chaque valeur).
40
4.4) Variable quantitative continue
Distribution: Histogramme
Dans le cas d’une variable quantitative continue, on doit prendre en
compte l’amplitude (ou largeur) des classes.
Par exemple, “15 individus sont âgés entre 20 et 30 ans” n’a pas du tout la
même signification que “15 individus sont âgés entre 20 et 22 ans”. Les
effectifs (et fréquences) sont les mêmes mais dans le 2ème cas la
concentration des observations est beaucoup plus forte.
Notons ak l’amplitude de la kème classe.
Nous allons donc calculer la densité de fréquence associée à chaque
classe:
fk
dk =
ak
41
Nous pouvons alors compléter le tableau de distribution en effectifs et en
fréquences comme ceci :
42
• On trace un axe horizontal portant le nom de la variable et on y
positionne les bornes des classes après avoir choisi une échelle (l’axe
est orienté).
• Sur l’axe vertical, on place les densités après avoir choisi une échelle
(l’axe est orienté).
43
Distribution cumulée: graphe de la fonction de répartition empirique
,→graphe linéaire par morceaux
44
4.5) Exemples
45
Diagramme en barres séparées
35
30
25
Fréquences (%)
20
15
10
5
0
A B C D
Filière
46
Exemple 2: Avis sur une mesure gouvernementale
47
Diagramme en barres juxtaposées
0.5
0.4
0.3
Fréquences
0.2
0.1
0.0
48
Graphe des fréquences cumulées
1.0
+
0.8
+
Fréquences cumulées
0.6
0.4
+
0.2
0.0
Avis
49
Exemple 3: Habitants d’une résidence
50
Diagramme en batons de la distribution en effectifs
4
3
Effectifs
2
1
0 1 2 3 4
Nb personnes habitant dans un appartement
51
Graphe de la fonction de répartition
1.0
o
0.8
Fréquences cumulées
o
0.6
o
0.4
0.2
o
0.0
0 1 2 3 4
Nb personnes habitant dans un appartement
52
Exemple 4: Produits d’une grande surface
53
Histogramme de la distribution
6
5
Densités de fréquence
4
3
2
1
0
0 50 100 150
Prix
54
Graphe de la fonction de répartition
100
x
80
x
Fréquences cumulées (%)
60
x
40
20
x
0
0 50 100 150
Prix
55