Introduction à la statistique descriptive
Introduction à la statistique descriptive
COURS DE
STATISTIQUE DESCRIPTIVE
Master 1
Droit Privé Fondamental
le recueil sous-entend la collecte de données qui elle-même suppose dans bien des cas la
réalisation d'une enquête ou d'un sondage ;
l'analyse des données suppose la manipulation de tableaux ou grands ensembles de
données qu'il s'agira de décrire et de résumer tout en accompagnant cette opération de
représentations graphiques et cartographiques ;
la notion de modèles probabilistes sous-entend une certaine maîtrise de l'incertitude dans
le but de réaliser des prévisions ou de pratiquer l'inférence.
La statistique, qu’elle soit descriptive ou mathématique, est employée dans toutes les sciences,
ainsi que dans la vie quotidienne. Son utilisation très intensive dans le champ de l’économie a fait
naître une nouvelle expression : L’économétrie. L’économétrie est l’application de la statistique
(descriptive et mathématique) à la mesure et à l’étude chiffrée des grandeurs économiques. De la
même façon, on emploie parfois l’expression de « sociométrie », pour parler de l’application de
la statistique (descriptive et mathématique) à la mesure et à l’étude chiffrée des grandeurs
sociologiques. Le présent cours sera consacré à la statistique descriptive.
1
CHAPITRE 1
Comme toute science, la statistique a son vocabulaire, qu’il est primordial de définir de façon
rigoureuse afin d’indiquer le groupe sur lequel porte l’étude, les caractères ou variables relevés sur
chacun des individus et les différents types de caractères
En statistique, la population désigne ensemble des individus (ou unités statistiques) présentant
un caractère commun. Les unités statistiques sont les entités abstraites qui représentent des
personnes, des populations d'animaux ou des objets. Les premières populations ayant fait
l'objet d’un recensement ayant été des populations humaines (d'où le lien étroit entre statistique
et démographie) le terme "individu" est parfois employé comme synonyme du terme "unité
statistique".
La population est généralement notée et l’effectif total de la population est noté . L’unité
statistique ou individu est indivisible est notée .
Exemple :
1.2 Echantillon
Un échantillon est un sous-ensemble construit et représentatif d'une population donnée. Lorsque
l'on parle d'échantillon on parle en général de population mère, c'est-à-dire de la population dont
est issu l'échantillon. L'échantillon est fréquemment noté . La notion d’échantillon est
fondamentale, car, en règle générale, la population entière n’est pas disponible ou observable. Dans
2
ce cas, seul un échantillon est étudié et les résultats obtenus sont extrapolés à la population. La
notion d’échantillon est généralement utilisée en statistique mathématique.
Un caractère statistique est l’aspect de l’unité statistique que l’on va étudier. Chaque individu
d’une population peut être décrit relativement à un ou plusieurs caractères. Lorsqu’on associe à un
caractère l’ensemble des mesures qu’il peut prendre chez tous les individus d’une population
statistique, le caractère prend alors le nom de variable statistique.
Lorsque l’observation d’un caractère ne peut pas se traduire par une mesure, on dit que ce caractère
est qualitatif. Une variable qualitative est donc une variable qui ne peut faire l’objet d’une mesure
numérique. Les variables qualitatives se subdivisent en variables qualitatives ordinales et en
variables qualitatives nominales.
Les variables qualitatives ordinales sont des variables qualitatives qui contiennent un ordre. Par
exemple, le degré de satisfaction par rapport à votre fournisseur d’accès à internet : très satisfait,
satisfait, insatisfait, très insatisfait.
Les variables qualitatives nominales sont des variables qualitatives dont les valeurs sont des
éléments d'une catégorie non hiérarchique. Par exemple, la couleur des yeux, l’origine du
baccalauréat, la religion, etc.
3
1.3.2 Les variables quantitatives
Lorsque l’observation d’un caractère peut se traduire par une mesure pouvant être utilisée dans des
opérations arithmétiques telles que, l’addition, la division…, on dit que le caractère est quantitatif.
Une variable quantitative est donc une variable mesurable contenant des valeurs numériques
faisant référence à une unité de mesure reconnue. On distingue deux types de variables
quantitatives : les variables quantitatives discrètes et les variables quantitatives continues.
Une variable quantitative discrète est variables quantitatives qui prend des valeurs dans un
ensemble dénombrable. Les variables quantitatives discrètes sont représentées par des nombres
entiers. Par exemple, le nombre d’enfants par ménage, le nombre d’étudiant de l’IAM, etc.
Une variable quantitative continue est une variable quantitative qui peut prendre toutes les valeurs
à l’intérieur de son intervalle de variation. Les variables quantitatives continues sont représentées
par des nombres fractionnaires (des nombres susceptibles de présenter une virgule). Par exemple,
le poids d’une personne, la taille d’un individu, etc.
Pour étudier une variable statistique continue on divise son ensemble de variation en intervalles
ou classes de valeurs ayant une amplitude constante ou variable. L’amplitude d’une classe est alors
la différence entre la borne supérieure et la borne inférieure de l’intervalle défini : soit ; une
classe d’une variable quantitative, on dit que est l’amplitude de cette classe.
Exemple : La taille d’un échantillon d’étudiants en SEG peut être classée entre 1, 50 mètre et
1,90 mètre. L’amplitude de la classe [1,50 ; 1,90[ est 40 cm.
4
1.4 Modalité
Les modalités correspondent aux valeurs possibles de la variable statistique. Une variable
statistique définit une partition sur une population, chaque individu appartenant à une et une seule
modalité.
L’effectif n i d’une modalité xi d’une variable statistique est le nombre d’individus pour
lesquelles la variable considérée prend la modalité en question. L’effectif total, N est la somme
de tous les effectifs des modalités d’une variable statistique.
Exemple : Soit une variable statistique X composée de p modalités et ayant chacun un effectif
ni . L’effectif total de la population est
p
N = n1 + n 2 + ... + n p = ∑ ni
i =1
ni
fi =
N
Remarque:
i. La fréquence est un nombre compris entre 0 et 1 que l’on peut exprimer en
pourcentage.
ii. La fréquence n’est pas un nombre exact en général. Il faut donc en donner une
valeur approchée à 10−4 près, le plus souvent, pour avoir une précision à 2 chiffres
après la virgule dans l’expression en pourcentage.
p
iii. ∑f
i =1
i =1
5
La fréquence cumulée croissante Fi pour la modalité xi est la somme des fréquences des
i
modalités inférieures ou égales à xi . On a alors Fi = ∑ f k
k =1
'
La fréquence cumulée décroissante Fi pour la modalité xi est la somme des fréquences
p
des modalités supérieures ou ´égales à xi . On a alors Fi ' = ∑ f k
k =i
L’ensemble des mesures d’un même caractère faites sur tous les individus d’une population
statistique, conduit à l’obtention de ce que l’on appelle une série statistique ou série brute ou
données brutes. En fonction du caractère étudié, on distinguera par la suite les séries statistiques
qualitatives, les séries statistiques discrètes et les séries statistiques continues.
6
Chapitre 2
LES DISTRIBUTIONS STATISTIQUES A UNE DIMENSION
Considérons une population composée de N n individus. Sur chacun de ces individus on effectue
une observation concernant un caractère X . Supposons que le caractère X admet k modalités :
M 1 , M 2 , ..., M p .
L’opération préliminaire est la mise en ordre des observations. Cela consiste à classer chacun des
N individus de la population dans les k sous-ensembles définis par les diverses modalités du
caractère X . Pour chaque modalité M i , i = 1, 2,..., k , on inscrira dans le tableau statistique le
nombre d’éléments (i.e. le cardinal) du sous-ensemble de la population correspondant.
M1 n1 f1
M2 n2 f2
… … …
Mi ni fi
… … …
Mk nk fk
k
Remarque : Dans le cas où les fréquences sont exprimées en pourcentage ∑f
i =1
i = 100
7
2.1.1 Les distributions à caractère qualitatifs
La présentation d’un tableau statistique concernant un caractère qualitatif suit les règles générales.
Un tableau statistique d’un caractère qualitatif se présente comme suit :
k ni k
N = ∑ ni ; fi = ; ∑f i =1
i =1 N i =1
Exemple 1:
On désire étudier la répartition de 22000 des actifs burkinabè selon leur catégorie socio-
professionnelle.
a. Déterminer la population, l'individu, la variable statistique et sa nature.
b. Compléter le tableau statistique suivant
Modalité xi Effectif ni Fréquence f i
Ouvriers 5500
Employés 6600
Cadres 2640
Autres 7260
Total
Réponse :
a. La population étudiée est l’ensemble des actifs burkinabè.
L’individu est un actif burkinabè.
La variable statistique est la catégorie socio-professionnelle et c’est une variable qualitative
nominale.
b.
Modalité xi Effectif ni Fréquence f i
Ouvriers 5500 0,25
Employés 6600 0,30
Cadres 2640 0,12
Autres 7260 0,33
Total 22000 1
8
2.1.2 Les distributions à caractère quantitatifs
La constitution d’un tableau statistique d’un caractère quantitatif est immédiate dans le cas d’une
variable discrète mais nécessite en revanche une transformation des données dans le cas d’une
variable continue.
Exemple 2 :
On désire étudier le nombre de personnes présentes dans un véhicule à partir d'un échantillon
de 400 voitures.
a. Déterminer la population, l'individu, la variable statistique et sa nature
b. Compléter le tableau statistique suivant
9
Modalité xi Effectif ni Fréquence f i Effectif Fréquence
cumulé N i cumulée Fi
1 40
2 100
3 160
4 100
Total
Réponse :
10
Classe Centre Effectifs Fréquence Effectif cumulé Fréquence cumulée
numéro de classe ni fi croissant croissante
ci Ni Fi
[b1 ; b2 [ c1 n1 f1 N1 = n1 F1 = f1
[b2 ; b3 [ c2 n2 f2 N 2 = n1 + n2 F2 = f1 + f 2
… … … … … …
[bi ; bi +1 [ ci ni fi N i = n1 + n2 + ... + ni Fi = f1 + f 2 + ... + f i
… … … … … …
[bk ; bk +1[ ck nk fk Nk = N Fk = 1
Total N 1
Remarque :
Une classe est un intervalle ferme à gauche et ouvert à droite, du type [bi ; bi +1 [ .
bi + bi +1
Le centre d’une classe est ci =
2
L’amplitude d’une classe est ai = bi +1 − bi
ni
La densité d’une classe est d i =
bi +1 − bi
Exemple 3:
On désire étudier le revenu de l'ensemble des 20000 ménages Burkinabè.
a. Déterminer la population, l'individu, la variable statistique et sa nature
b. Compléter le tableau suivant
Revenu Centre Effectifs ni Fréquence Effectif cumulé Fréquence cumulée
en millier de classe (en millier) fi croissant croissante
de F CFA ci Ni Fi
[0, 160[ 9
[160, 240[ 7
[240, 320[ 4
Total
Réponse :
a. La population étudiée est l’ensemble des ménages burkinabè
L’individu est un ménage
La variable statistique est le revenu et c’est une variable quantitative continue.
b.
11
Revenu Centre Effectifs ni Fréquence Effectif cumulé Fréquence cumulée
en millier de classe (en millier) fi croissant croissante
de F CFA ci Ni Fi
[0, 160[ 80 9 45% 9 45%
[160, 240[ 200 7 35% 16 80%
[240, 320[ 280 4 20% 20 100%
Total 20
La représentation graphique d’un caractère diffère selon que le caractère soit qualitatif ou
quantitatif.
Pour une modalité donnée xi , d’ effectif ni , l’angle au centre α i , correspondant est donné (en
ni
degré) par α i = x 360 = f i x 360 .
N
Exemple 4 :
Reconsidérons le tableau statistique de l’exemple 1 décrivant la répartition de 22000 des actifs
burkinabè selon leur catégorie socio-professionnelle
12
Autres Ouvriers
Employés
Cadres
Exemple 5 :
En considérant le tableau statistique de l’exemple 4, la représentation graphique des actifs
burkinabè selon leur catégorie socio-professionnelle par le diagramme en tuyaux d’orgues est
8000
7000
6000
5000
4000
3000
2000
1000
13
2.2.2 Représentation graphique d’une variable quantitative
La représentation graphique d’une variable quantitative dépend de sa nature : discrète ou
continue.
0.50
0.40
0.30
0.25
0.10
0 1 2 3 4 5 6
14
Remarque : La courbe joignant les sommets des bâtons est appelée polygone des fréquences
absolues, si l’on a représenté les effectifs, ou relatives, si l’on a représenté les fréquences.
0.50
0.40
0.30
0.25
0.10
0 1 2 3 4 5 6
15
calculer la densité d i ;
affecter à chaque rectangle une hauteur proportionnelle à la densité d i de la
classe correspondante.
Soit min( ai ) l’amplitude minimale de classe, la hauteur est alors appelée «
effectif corrigé » et notée nic = d i x min(ai ) ; cette convention revient à adopter
min( ai ) comme unité d’amplitude de classe. Les classes ayant pour amplitudes
min( ai ) sont alors représentées par des rectangles dont la hauteur est l’effectif.
De même, il est possible de retenir comme hauteur la fréquence corrigée
f
f ic = d i x min(ai ) , avec d i = i dans le cas d’un histogramme des fréquences.
ai
Exemple 6 :
En reprenant le tableau statistique de l’exemple 3 on peut construire l’histogramme de la variable
quantitative continue en question.
Revenu en Centre Amplitude Densité Effectifs ni Effectif Fréquence Effectif Fréquence
millier de de ai di (en millier) corrigés fi cumulé cumulée
F CFA classe nic croissant croissante
ci Ni Fi
Total 20
On remarque que les amplitudes sont différentes. Il faut donc calculer les effectifs corrigés afin de
pouvoir construire correctement l’histogramme. La plus petite amplitude est 80 donc elle servira
à calculer les effectifs corrigés.
nic = d i * min(ai )
n2c = 0.0875 * 80 = 7
n3c = 0.05 * 80 = 4
16
7
4,5
0
160 240 320
Pour tout x réel, 0 ≤ F(x)≤1 (les valeurs de F peuvent également être exprimées en
pourcentage).
La première étape de la construction d’une fonction de répartition consiste donc à calculer les
fréquences cumulées croissantes, en distinguant deux cas : le discret et le continu.
La courbe cumulative est la représentation graphique des effectifs cumulés ou des fréquences
cumulées.
17
▪ Fonction de répartition d’une variable quantitative discrète
La fonction de répartition d’une variable quantitative discrète est une fonction en escalier, c’est-à-dire constante
par intervalle. De plus, elle est croissante de 0 à 1 et définie par :
si x < xi , F ( x) = 0
si x = xi , F ( x) = Fi
si xi ≤ x < xi +1 = Fi
si x ≥ x k , F ( x) = 1
La courbe cumulative d’une variable quantitative discrète est un graphique en escalier dont les
paliers horizontaux ont pour ordonnées respectivement N i ou Fi . Les marches de l’escalier
correspondent aux valeurs possibles xi de la variable statistique X et sont à des hauteurs
proportionnelles aux effectifs cumulés ou aux fréquences cumulées.
Courbe cumulative
1.2
1.0
0.8
0.6
0.4
0.2
0.0
−1 0 1 2 3 4 5 6
A priori, la fonction de répartition d’une variable continue n’est connue que pour les extrémités de
classes. Cependant, si l’on admet l’hypothèse de répartition uniforme des observations au sein de
chaque classe, on peut estimer les valeurs de F(x) par interpolation linéaire. Cela revient à
approximer la représentation graphique par une fonction affine par morceaux : concrètement, on
trace la courbe en joignant deux points consécutifs connus par un segment de droite (cette courbe
est aussi appelée ogive de Galton).
18
Interpolation linéaire
x − bi F ( x) − F (bi )
– Si x ∈ [bi ; bi +1 [ , on a =
bi +1 − bi F (bi +1 ) − F (bi ) )
x − bi x − bi
Donc, F ( x ) = F (bi ) + ( F (b i +1 ) − F (bi )) = F (bi ) + * f bi +1
bi +1 − bi bi +1 − bi
19
CHAPITRE 3
LES CARACTERISTIQUES DE TENDANCE CENTRALE
Qu’elles soient discrètes ou continues, les variables quantitatives peuvent être utilement résumées par
des caractéristiques privilégiant les valeurs principales de la distribution. Les paramètres de tendance
centrale (ou de position) permettent de savoir autour de quelles valeurs se situent les valeurs d’une
variable statistique. Trois caractéristiques de tendance centrale sont couramment utilisées : le
mode, la médiane et la moyenne arithmétique. Dans certains cas d’usage d’autres
caractéristiques de tendance centrale telles que la moyenne géométrique ou la moyenne
harmonique, s’impose. Mais la caractéristique de tendance centrale la plus couramment utilisée
est la moyenne arithmétique.
3.1 Le mode
Pour une variable quantitative discrète, le mode est la modalité qui représente le plus grand
effectif.
Exemple 1 :
Considérons le tableau statistique suivant :
Pour une variable quantitative continue on parle de classe modale : c'est la classe dont
l'effectif est maximum. Si les classes ont des amplitudes constantes, la classe modale est la
classe ayant le plus grand effectif. Si les classes ont des amplitudes différentes, la classe
modale est la classe ayant la plus grande densité.
20
Exemple 2 :
Considérons le tableau suivant :
Revenu en millier Centre de Amplitude Densité Effectifs Fréquence
de F CFA classe ai di ni fi
ci
[0, 160[ 80 160 0,05625 9 45%
Total 20
On remarque qu’on a une variable continue avec les classes d’amplitudes différentes. On
a fait donc recours aux densités pour trouver la classe modale.
La classe modale est [160, 240[.
3.2 La médiane
La médiane, notée M e , est la valeur de la série (c’est-à-dire une modalité) qui partage la série en
deux sous-ensembles de même effectif (ou de même fréquence).La médiane partage en deux
effectifs égaux les observations rangées par ordre croissant ou décroissant. La médiane est la valeur
M e de la variable statistique pour laquelle la fréquence cumulée est égale à 50%, c’est-à-dire
F ( M e ) = 50% .
x n +x n
( ) ( +1)
si n est pair alors la médiane M e = 2 2
21
Exemple 3 :
Exemple 3.1 : Soit la série de 5 chiffres suivants : 17 ; 9 ; 19 ; 25 ; 21. Pour obtenir
la médiane on range par ordre croissant cette série : 9 ; 17 ; 19 ; 21 ; 25. On
détermine ensuite la modalité qui partage l’effectif total en deux sous effectifs
égaux en appliquant la formule M e = x n +1 .
( )
2
x n +x n
( ) ( +1)
On a n = 400 qui est un nombre pair donc M e = 2 2
.
2
x ( 200 ) + x ( 201) 3+3
Me = = = 3 Personne par voiture.
2 2
22
Cas d’une variable continue
Dans le cas d’une variable statistique continue la médiane est définie avec exactitude. Mais, en
raison du regroupement par classe on ne peut généralement que la situer à l’intérieur d’une classe
qu’on qualifiera de classe médiane. La classe numéro i est une classe médiane si
Fi −1 < 50% < Fi . Partant de cette relation, La médiane est obtenue par interpolation linéaire.
Si on a xi −1 < M e < xi , on sait que Fi −1 < 50% < Fi . Par interpolation linéaire on a
M e − xi −1 50% − Fi −1 50% − Fi −1
= . On a alors M e = ( xi − xi −1 ) + xi −1 .
xi − xi −1 Fi − Fi −1 Fi − Fi −1
Exemple 4 :
En reprenant le tableau statistique de l’exemple 3 du chapitre 2 on peut construire, on peut
détermine la médiane par interpolation linéaire.
Revenu en Effectifs ni Fréquence Effectif Fréquence
millier de (en millier) fi cumulé cumulée
F CFA croissant croissante
Ni Fi
[0, 160[ 9 45% 9 45%
[160, 240[ 7 35% 16 80%
[240, 320[ 4 20% 20 100%
Total 20
Ici, 45% des ménages ont un revenu inférieur à 160 mille F CFA et 80% des ménages ont
un revenu inférieur à 240 mille F CFA. Donc M e ∈ ]160 ; 240[ . Par interpolation linéaire
50% − Fi −1
on a M e = ( xi − xi −1 ) + xi −1 . En appliquant la formule on a
Fi − Fi −1
M e − 160 50% − 45% 50% − 45%
= ⇒ M e = 160 + * (240 − 160) = 171,42 .
240 − 160 80% − 45% 80% − 45%
Les quantiles d’ordre α ( pour α compris entre 0 et 1) noté en toute généralité Qα est la valeur qui
partage la série en deux sous-ensemble ; une proportion α se situe en dessous de Qα et une autre
proportion 1 − α au-dessus strictement de Qα .
23
Remarque :
• M e = Q50%
• Les quartiles (notés Q1 , Q2 , Q3 ) sont des quantiles qui séparent la série statistique en 4
sous-ensembles de même effectifs ou fréquences. Plus précisément
Q1 = Q25% , Q2 = M e , Q3 = Q75% .
• Les déciles (notés D1 , D2 ,..., D9 ) sont les quantiles qui séparent la série statistique en 10
sous-ensembles de même effectifs ou fréquences. Plus précisément
D1 = Q10% , D2 = Q20% ,..., D9 = Q90% .
• Les quantiles se calculent de la même façon que la médiane, c’est-à-dire par interpolation
α − Fi −1
linéaire. Ainsi si Qα ∈ ]x i −1 ; x i [ alors Qα = ( xi − x i −1 ) + xi −1 .
Fi − Fi −1
Exemple 5 :
Calculer le premier quartile de la série suivante
Revenu en Effectifs ni Fréquence Effectif Fréquence
millier de (en millier) fi cumulé cumulée
F CFA croissant croissante
Ni Fi
[0, 160[ 9 45% 9 45%
[160, 240[ 7 35% 16 80%
[240, 320[ 4 20% 20 100%
Total 20
25% − 0
On a Q1 ∈ ]0 ; 160[ donc Q1 = 0 + * (160 − 0) = 88,88 .
45% − 0
3.4 La moyenne
Il y a plusieurs types de moyenne dépendant essentiellement du problème considéré.
24
Lorsque les modalités xi ( x1 , x 2 ,..., x k ) sont affectées de coefficient (c’est-à-dire d’effectif
ni ), on parle de moyenne arithmétique pondérée. La moyenne arithmétique pondérée est
n1 x1 + n 2 x 2 + ... + n k x k
X=
N
k k
1
X = ∑ ni xi = ∑ f i xi
N i =1 i =1
Remarque : x1 , x 2 ,..., x k correspond aux modalités si la série est discrète ou aux centres de classe
si la série est continue
Exemple 6 :
Exemple 6.1 : calculer la moyenne de la série statistique suivante
25
Réponse : On a une série continue, il faut donc déterminer les centres de classe c i
avant de calculer la moyenne. La moyenne est donc
1 3
X = ∑ ni c i
N i =1
80 * 9 + 200 * 7 + 280 * 4
X= = 162 F CFA
20
∑ n (x
i =1
i i − X) = 0.
i =1
avec N = n1 + n 2 + ... + n k .
La moyenne géométrique est utilisée par exemple pour calculer le taux moyen.
Exemple 7 :
Supposons que le Burkina Faso a enregistré un taux de croissance économique de 10%
en 2014, de 5% en 2015 et de 7% en 2016.
Calculer le taux de croissance économique moyen du Burkina Faso sur les trois années.
Réponse : La moyenne géométrique est le taux qui, appliqué durant les trois années
donnera le même PIB selon l'évolution décrite précédemment.
Soit Y0 le PIB du Burkina Faso en 2013 et soient Y1 , Y2 et Y3 les PIB du Burkina Faso
en 2014, 2015, et 2016.
On a :
Y1 = (1 + 10%)Y0
Y2 = (1 + 5%)Y1 = (1 + 10%)(1 + 5%)Y0
26
Y3 = (1 + 7%)Y2 = (1 + 10%)(1 + 5%)(1 + 7%)Y0
Soit t m le taux de croissance économique moyen du Burkina Faso sur les trois années.
On a
Y1 = (1 + t m )Y0
Y2 = (1 + t m )Y1 = (1 + t m )(1 + t m )Y0 = (1 + t m ) 2 Y0
Y3 = (1 + t m )Y2 = (1 + t m ) 2 (1 + t m )Y0 = (1 + t m ) 3 Y0
t m = 0,0731
t m = 7,31%
Soit une série statistique x1 , x 2 ,..., x k d’effectif n1 , n 2 ,..., n k alors la moyenne géométrique noté
en général H est définie par :
N
H=
n1 n 2 n
+ + ... + k
x1 x 2 xk
avec N = n1 + n 2 + ... + n k .
Exemple 8 :
Un coureur monte une cote de km à la vitesse de 10 km/h et descend cette même cote à
la vitesse de 30 km/h. Quelle est la vitesse moyenne du coureur ?
Réponse :
On cherche la vitesse moyenne v m du coureur telle que la somme des temps passés à la
montée et la descente soit égal au temps passe à la vitesse.
d d
On sait que v = ⇒ t =
t v
27
d montée 1 d 1 d 2
t montee = = , t descente = descente = et t m = total =
v 10 v 30 vm vm
t m = t montée + t descente
2 1 1 2
= + ⇒ vm = = 15 km/h.
v m 10 30 1 1
+
10 30
H ≤G≤ X
28
CHAPITRE 4
LES CARACTERISTIQUES
DE DISPERSION ET DE CONCENTRATION
Les caractéristiques de dispersion donnent des informations sur la répartition des valeurs autour
de la valeur centrale de référence. En complément du chapitre précédent qui étudiait les
caractéristiques de tendance centrale d’une distribution, le présent chapitre s’intéresse à la
variabilité des données au sein d’une série. Ainsi, une fois la moyenne connue, on peut compléter
la connaissance d’une série pour apprécier dans quelle mesure les données sont dispersées ou au
contraire concentrées autour de la moyenne. Les caractéristiques de dispersion les plus
fréquemment utilisées sont l’étendue, l’intervalle interquartile, l’écart absolu moyen, la variance
et l’écart-type et les caractéristiques de concentration les plus utilisées sont la courbe de Lorentz,
l’indice de Gini et la Médiale.
Soit série statistique x1 , x 2 ,..., x k , l’étendue de cette série notée e ( x ) , est e( x ) = max( x) − min( x) .
Exemple 1 :
Soient deux étudiants dont les notes dans quatre matières sont les suivants :
Etudiant A : 8, 9, 10, 11, 16
Etudiant B : 2, 8, 15, 18
IQ = Q3 − Q1
IQ = Q75% − Q25%
L’intervalle interquartile est donc l’intervalle qui contient 50% des observations tout en
laissant 25% à sa droite et 25% à sa gauche.
Diagramme de Tukey
30
4.1.3 l’écart absolu
L’écart absolu moyen, noté e X , est la moyenne arithmétique des valeurs absolues des
écarts à la moyenne arithmétique :
1 k
eX =∑ ni xi − X
N i =1
avec N = n1 + n 2 + ... + n k .
L’écart absolu médian, noté e M e , la moyenne arithmétique des valeurs absolues des
écarts à la médiane :
1 k
e Me = ∑ ni x i − M e
N i =1
avec N = n1 + n 2 + ... + n k .
Remarque : Plus les écarts absolus sont grands, plus la série est dispersée.
4.1.4 La variance
∑ n (x )
k
1 2
V (X ) = i i −X si on utilise les effectifs
N i =1
( )
k 2
avec N = n1 + n 2 + ... + n k .
N i =1
k
V ( X ) = ∑ f i xi2 − X
2
si on utilise les fréquences.
i =1
Propriété :
V (aX + b) = a 2V ( X )
31
4.1.5 l’écart-type
σ (X ) = V ( X )
Si l’écart-type est faible, cela signifie que les modalités sont assez concentrées autour de la
moyenne et si l’écart-type est élevé, cela veut dire au contraire que les modalités sont plus
dispersées autour de la moyenne.
Propriété :
σ (aX + b ) = a σ ( X )
Exemple 2 :
Exemple 2.1 : calculer la variance et l’écart-type de la série statistique suivante
N i =1
On rappelle que X = 2,8
12 * 40 + 2 2 * 100 + 3 2 * 160 + 4 2 * 100 3480
V (X ) = − 2,8 2 = − 2,8 2 = 0,86
400 400
σ ( X ) = V ( X ) = 0,86 = 0,92
32
Exemple 2.2 : calculer la variance et l’écart-type de la série statistique suivante
Réponse : On a une série continue, il faut donc déterminer les centres de classe ci
avant de calculer la variance et l’écart-type.
3
1
∑n c
2
V (X ) = 2
i i −X
N i =1
Exemple 3 :
le coefficient de variation de la série statistique de l’exemple 2.1 est
0,92
CV = = 0,32
2.8
le coefficient de variation de la série statistique de l’exemple 2.2 est
79,47
CV = = 0,49
162
33
4.2 les caractéristiques de concentration
4.2.1 La médiale
La médiale est la valeur de la variable statistique qui divise en deux la somme des modalités de la
variable.
La médiale est généralement déterminer par interpolation linéaire.
ni ci
fq i = k
si on a une série continue. On détermine par la suite les fréquences cumulées
∑n c
i =1
i i
croissantes FQi . La médiale étant la modalité qui divise en deux la somme des modalités de la
variable on a Mediale ∈ ]x i , xi +1 [ telle que FQ(ni x i ) < 50% < FQ(ni +1 x i +1 ) . Par interpolation
lineaire on a
50% − FQ(ni xi )
Mediale = x i + × ( x i +1 − xi )
FQ(ni +1 xi +1 ) − FQ(ni xi )
Exemple 4 :
Considérons le tableau le tableau statistique
On a Mediale ∈ ]160;240[ puisque 22,22% < 50% < 65,43% . En appliquant la formule de
la médiale on a
34
50% − 22,22%
Mediale = 160 + × ( 240 − 160) = 211,432
65,43% − 22,22%
Remarque : La médiale ne peut être inférieure à la médiane ( M e < Mediale ). La médiale est
d’autant supérieure à la médiane que la distribution est plus concentrée.
Mediale − M e
La concentration est mesurée par ∆ = ≥0
Etendue
Si ∆ est faible cela équivaut à une faible concentration donc la série est dispersée
Si ∆ est grand cela équivaut à une grande concentration
211,432 − 171,42
Dans notre exemple on ∆ = = 0,12.
320
Exemple 5 :
35
La courbe de Lorentz correspondant est
Courbe de Lorentz
100%
80%
FQi
60%
40%
20%
0%
0% 20% 40% 60% 80% 100%
Fi
36
Du fait que Fi et FQi varient dans l’intervalle [0; 1] et qu’ils sont nuls ( F0 = FQ0 = 0 ) ou égaux
L’indice de Gini est très utilisé en économie comme mesure des inégalités dans une population.
Supposons par exemple que la variable correspond aux revenus dans une population. Si l’indice
de Gini est proche de 0, ceci signifie que les différences relatives sont en moyenne faibles par
rapport à la moyenne des revenus, c’est-à-dire les inégalités dans la population sont faibles.
Si l’indice de Gini est proche de 1, au contraire il y a de fortes différences relatives en moyenne,
c’est-à-dire les inégalités sont fortes.
Exemple 6 :
Calculer l’indice de Gini de la série statistique de l’exemple 5.
Revenu en Centre Effectifs Fréquence Fréquence
ni c i Fréquence Fréquence
millier de F de classe ni fi cumulée fq i cumulée
CFA ci croissante croissante
Fi FQi
[0, 160[ 80 9 720 45% 45% 22,22% 22,22%
[160, 240[ 200 7 1400 35% 80% 43,21% 65,43%
[240, 320[ 280 4 1120 20% 100% 34,57% 100%
Total 20 3240
Réponse :
k
G = 1 − ∑ f i ×( FQi + FQi −1 )
i =1
G = 0,2623
G = 26,23%
37