0% ont trouvé ce document utile (0 vote)
135 vues136 pages

Techniques d'Échantillonnage et Estimation

Transféré par

Youssef Mk
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PPTX, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
135 vues136 pages

Techniques d'Échantillonnage et Estimation

Transféré par

Youssef Mk
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PPTX, PDF, TXT ou lisez en ligne sur Scribd

Description du module

Intitulé du module  Echantillonnage et Estimation


Semestre de programmation du module  Semestre 3
Pré-requis pédagogiques  Statistiques (S1) Probabilités (S2)
Mode d’enseignement  Présentiel
 Maîtriser les principales techniques d’analyse
statistique à deux variables en les appliquant au
traitement d’un questionnaire.
 Comprendre comment les gestionnaires et les
Connaissances et compétences à acquérir économistes utilisent l'analyse des données pour
formuler et résoudre des problèmes et pour soutenir la
prise de décision managériale et macro-économique
 Se familiariser avec les logiciels du traitement des
données SPSS, XLSTAT et R

Pr. Kamal ZEHRAOUI


Plan du cours:
1. Concept d'échantillonnage
2. Estimation ponctuelle
A. Estimation de la moyenne
B. Estimation de la proportion
3. Estimation par intervalle
A. Intervalle de confiance
B. Taille de l'échantillon et précision de l'intervalle de confiance
4. Tests d'Hypothèses de Conformité et d'Homogénéité
5. Introduction aux tests d'hypothèses
6. Tests de conformité pour une population
A. Test de conformité pour une moyenne.
B. Test de conformité pour une proportion.
C. Formulation des hypothèses nulles et alternatives.
7. Tests d'homogénéité pour deux populations
A. Test t pour deux échantillons indépendants.
B. Test de chi-carré pour l'indépendance.
8. Tests d'homogénéité pour plusieurs populations
A. Analyse de la variance (ANOVA) à un facteur.
B. Analyse de la variance à deux facteurs.
C. Tests post-hoc pour ANOVA.
9. Tests d'homogénéité pour des données catégorielles
A. Test de chi-carré d'homogénéité.
B. Test de chi-carré d'indépendance.
C. Tableaux de contingence. Pr. Kamal ZEHRAOUI
Théorie de l’échantillonnage

Echantillon
Population

Pr. Kamal ZEHRAOUI


La théorie de l'échantillonnage consiste en l'étude des
distributions de probabilités de variables aléatoires définies sur
l’ensemble des échantillons (fréquence d'échantillonnage,
moyenne d'échantillonnage, variance d'échantillonnage…)..

Pr. Kamal ZEHRAOUI


Comment prélever un échantillon ?

De manière générale, plus l’échantillon est grand et plus l’estimation


sera précise. La notion de précision est matérialisée par un seuil de
confiance et une marge d’erreur.

Généralement, nous utilisons un seuil de 95%.

Par exemple si l’on définit un seuil de confiance de 95% et une marge


d’erreur de 2%, cela signifie que l’échantillon permettra d’extrapoler le
résultat avec 5% de risques de se tromper de plus ou moins 2%
Pr. Kamal ZEHRAOUI
Comment prélever un échantillon ?

Le risque maximum accepté, noté t.


La marge d’erreur acceptée, notée m La valeur est issue d’une loi de probabilité loi de
Student pour une taille de population inférieure à 30
et loi Normale pour une taille de population
supérieure à 30 (2,58, 1,96 et 1,65 pour les seuils de
La taille de confiance de 99%, 95% et 90%)
l’échantillon
dépend de
plusieurs
facteurs :

La connaissance statistique préalable de la population enquêtée, paramètre inconnu qui peut correspondre à
une estimation provenant d’études antérieures, de résultats d’ «experts » et approximée, dans le cas d’une
proportion, par p* (1-p). Si l’on n’a aucune piste quant à la valeur de p, il est admis de prendre la valeur qui
donne la dispersion maximale, à savoir p = 0,5.

Pr. Kamal ZEHRAOUI


Détermination de la taille de l’échantillon

La taille de l’échantillon ne dépend ainsi pas de la taille de la population, sauf si


celle-ci est très petite. En effet, lorsque la population est réduite, il est nécessaire
d’appliquer un facteur correctif. La taille de l’échantillon devient :

Pr. Kamal ZEHRAOUI


Échantillonnage probabiliste

Tous les individus de la population-source ont une probabilité connue et non nulle d'être sélectionnés
pour faire partie de l’échantillon
Échantillonnage aléatoire simple; Dans un échantillonnage aléatoire simple (EAS), chaque membre d'une
population a une chance égale d'être inclus à l'intérieur de l'échantillon

Pr. Kamal ZEHRAOUI


Echantillonnage stratifié: Cette méthode permet de représenter les sous- groupes d’une population hétérogène.
Cette façon un peu plus complexe d’échantillonner garantit que chaque sous-groupe de la pp est représenté d’une
certaine manière dans l’échantillon. La stratification peut être proportionnelle ou disproportionnée.
Dans une méthode de stratification proportionnelle, la taille de l’échantillon de chaque strate
est proportionnelle à la taille de la population de la strate.

Par exemple, supposons qu’un centre de sondage souhaite avoir un échantillon de 100
diplômés en utilisant la tranche d’âge, l’échantillon aléatoire stratifié proportionnel sera
obtenu en utilisant cette formule
taille de l’échantillon/taille de la population) x taille de la strate.
Groupe d’âge 18-20 20-24 >24 Total
Nombre de personnes dans la strate 1000 800 200 2000
Taille de l’échantillon de strates 50 40 10 100

Exemple: (100/2000) x 1000 = 50


Pr. Kamal ZEHRAOUI
Echantillonnage aléatoire en grappe: Des sondages réalisés sur des groupes complets d'individus • La population
source est subdivisée naturellement en groupes (La composition des grappes est antérieure au plan de sondage) •
Un certain nombre de ces groupes va être sélectionné aléatoirement pour composer l'échantillon.

Pr. Kamal ZEHRAOUI


L'échantillonnage non probabiliste

C’est une méthode de sélection d'échantillons qui ne repose pas sur la


probabilité. Contrairement à l'échantillonnage probabiliste, où chaque élément de
a population a une chance connue et non nulle d'être sélectionné dans
échantillon, l'échantillonnage non probabiliste implique une sélection basée sur
des critères spécifiques, des jugements subjectifs ou des préférences de
enquêteur

Pr. Kamal ZEHRAOUI


Échantillonnage par convenance (ou échantillonnage de commodité) : Dans cette
méthode, les éléments de l'échantillon sont choisis en fonction de leur disponibilité ou de leur
accessibilité. Par exemple, interroger les personnes que l'on croise dans la rue ou dans un
centre commercial. (exemple: pour étudier la consommation de café au sein de la FSJES
Hassan 2? Vous décidez de recueillir des données en interrogeant les étudiants que vous
pouvez facilement rencontrer sur le campus pendant une journée.
Échantillonnage par jugement (ou échantillonnage sélectif) : Ici, l'enquêteur sélectionne
délibérément des éléments de la population en fonction de son jugement, de son expertise ou
de critères spécifiques. Cela peut être utile lorsque l'enquêteur cherche des informations
spécifiques de la part d'experts ou de personnes ayant une connaissance particulière du sujet.
(identifier et sélectionner un groupe, en choisissant ceux que vous estimez être les plus
représentatifs de ce groupe).
Échantillonnage par quotas : Dans cette méthode, l'enquêteur fixe des quotas pour
différents groupes ou caractéristiques de la population (par exemple, un certain nombre de
répondants de différents âges, sexes ou niveaux d'éducation) et sélectionne des individus qui
correspondent à ces quotas. Cela peut être utilisé pour assurer une représentativité minimale
dans l'échantillon.(Vous décidez de cibler les étudiants en fonction de deux critères : le sexe et
le niveau d'études (premier cycle, deuxième cycle, doctorat). Vous examinez les données
démographiques de votre université et constatez que la répartition est la suivante :
•60 % d'étudiants de premier cycle
•30 % d'étudiants de deuxième cycle
•10 % d'étudiants en doctorat
•55 % de femmes
•45 % d'hommes Pr. Kamal ZEHRAOUI
La distribution d’échantillonnage est l’étude de la de probabilité de
l’échantillon en fonction de la distribution de la variable parente lorsque la
taille de l’échantillon augmente.

C’est une distribution de probabilité d’une statistique obtenue à partir d’un


grand nombre d’échantillons prélevés dans une population spécifique

Pr. Kamal ZEHRAOUI


Distribution d’échantillonnage des moyennes

Pr. Kamal ZEHRAOUI


Une population est constituée de 5 entreprises. Le tableau ci-dessous donne le chiffre d’affaires de
chacune d’entre elles en million de DH:
Entreprise CA en Million de Dh
A 10
B 15
C 10
D 20
E 30
Total 85

Le CA moyen =85/5 = 17Mdh

Si on choisit un échantillon de 3 entreprises, quelles sont les différentes valeurs possibles pour la moyenne peut
on avoir? Quelle relation existe-t-il entre cette moyenne d’échantillon et la moyenne de la population???
Pr. Kamal ZEHRAOUI
échantillon Entreprises CA CA moyen
1 ABC 10+15+10 11.66667
2 ABD 10+15+20 15
3 ABE 10+15+30 18.33333
4 ACD 10+10+20 13.33333
5 ACE 10+10+30 16.66667
6 ADE 10+20+30 20
7 BCD 15+10+20 15
8 BCE 15+10+30 18.33333
9 BDE 15+20+30 21.66667
10 CDE 10+20+30 20
Moyenne des moyennes 17

Pr. Kamal ZEHRAOUI


Objectif: Comprendre la formule Exemple 2:

Sopposons que nous disposons des informations sur les poids d’une population finie de trois chats

On a une population finie composée de 3 éléments,


Calculer la moyenne et l’écart-type de cette population.

Pr. Kamal ZEHRAOUI


Source: www.sg-ehec.jimdo.com
Cas 1 (Tirage non exhaustif / tirage avec remise) :

- Parce que le tirage est avec remise donc le nombre des échantillons possible à être prélevés est une liste n
éléments pris parmi N éléments c-à-d

Pr. Kamal ZEHRAOUI


Pr. Kamal ZEHRAOUI
Cas 2 (Tirage exhaustif / tirage sans remise) :

Parce que le tirage est sans remise donc le nombre des échantillons possible à être prélevés est une
combinaison de n éléments pris parmi N éléments c-à-d

Pr. Kamal ZEHRAOUI


Pr. Kamal ZEHRAOUI
Exercice 1

Supposons que vous ayez une population de notes de mathématiques pour une classe de
100 étudiants. La moyenne de la population est de 75 avec un écart-type de 10. Vous
prélevez un échantillon aléatoire de 25 étudiants dans cette population.
a) Quelle est la moyenne attendue de l'échantillon (µx̄) ?
b) Quel est l'écart-type de l'échantillon (σx̄) ?
c) Si vous prélevez plusieurs échantillons de 25 étudiants et que vous calculez la
moyenne de chaque échantillon, quelle est la distribution de ces moyennes
d'échantillons ?

Pr. Kamal ZEHRAOUI


Correction :

a) La moyenne de l'échantillon (µx̄) est égale à la moyenne de la population (µ) :


µx̄ = µ = 75.
b) L'écart-type de l'échantillon (σx̄) est calculé en utilisant la formule :
σx̄ = σ / √n
où σ est l'écart-type de la population et n est la taille de l'échantillon. Dans ce
cas, σ = 10 (écart-type de la population) et n = 25 (taille de l'échantillon) :
σx̄ = 10 / √25 = 10 / 5 = 2.
c) La distribution des moyennes d'échantillons suit une distribution normale,
également appelée distribution de l'échantillonnage de la moyenne. Dans ce
cas, la distribution des moyennes d'échantillons aura une moyenne de 75
(comme dans la population) et un écart-type de 2 (calculé pour l'échantillon).

Pr. Kamal ZEHRAOUI


La distribution d'échantillonnage de la moyenne suit différentes lois selon que vous avez un
grand échantillon (n généralement supérieur à 30) ou un petit échantillon (n inférieur à
30), et selon que l'écart-type de la population est connu ou inconnu. Voici un aperçu des
lois qui s'appliquent dans ces différentes situations :
1. Grand échantillon avec écart-type connu :
•Lorsque vous avez un grand échantillon (n généralement supérieur à 30) et que
l'écart-type de la population est connu, la distribution d'échantillonnage de la
moyenne suit une distribution normale (loi normale).

où :
•σXˉ​est l'erreur standard de la moyenne d'échantillon.
•σ est l'écart-type de la population.
•n est la taille de l'échantillon.

Pr. Kamal ZEHRAOUI


2. Grand échantillon avec écart-type inconnu :
Lorsque vous avez un grand échantillon (n généralement supérieur à
30) mais que l'écart-type de la population (σ) est inconnu, vous pouvez
toujours utiliser une approximation de la distribution normale. Dans ce
cas, vous utilisez l'écart-type de l'échantillon (s) pour calculer l'erreur
standard de la moyenne d'échantillon, comme suit :

où :
•sXˉ​est l'erreur standard de la moyenne d'échantillon.
•s est l'écart-type de l'échantillon.
•n est la taille de l'échantillon.

Pr. Kamal ZEHRAOUI


3. Petit échantillon avec écart-type connu :
Lorsque vous avez un petit échantillon (n inférieur à 30) et que l'écart-type de la population (σ) est
connu, vous pouvez utiliser la distribution de Student (t-distribution). La formule pour calculer
l'erreur standard est la même que pour le cas d'un grand échantillon :

Pr. Kamal ZEHRAOUI


4. Petit échantillon avec écart-type inconnu :
Lorsque vous avez un petit échantillon (n inférieur à 30) et que l'écart-type de la population (σ) est
inconnu, vous utilisez la distribution de Student (t-distribution). La formule pour calculer l'erreur standard
de la moyenne d'échantillon est identique à celle du cas précédent :

Pr. Kamal ZEHRAOUI


Exercice 2

Le responsable d’une entreprise a accumulé depuis des années les résultats à un test d’aptitude à effectuer
un certain travail. Il semble plausible de supposer que les résultats au test d’aptitude sont distribués suivant
une loi normale de moyenne m = 150 et de variance σ 2 pop = 100.

On fait passer le test à 25 individus de l’entreprise. Quelle est la probabilité que la moyenne de l’échantillon
soit entre 146 et 154 ?
Estimation ponctuelle et par intervalle de confiance de la Moyenne

l'estimation ponctuelle de la moyenne donne une seule valeur estimée de la moyenne,


tandis que l'estimation par intervalle de confiance fournit un intervalle de valeurs
probables pour la moyenne avec un niveau de confiance donné

L’estimation ponctuelle de la moyenne : consiste à calculer une seule valeur (point) qui
estime la moyenne de la population. La valeur estimée est généralement notée "x̄" (x-barre)
et est calculée en prenant la moyenne des données de l'échantillon.

L'estimation par intervalle de confiance consiste à calculer un intervalle de valeurs


probables pour la moyenne de la population, accompagné d'un niveau de confiance. Un
intervalle de confiance typique est de la forme "Moyenne de l'échantillon ± Erreur
standard x Facteur de confiance". Il s'agit généralement d'un intervalle de 95 % ou 99 %.
Exercice 3

Supposons que vous ayez les notes suivantes pour un échantillon de 10


étudiants : 85, 92, 78, 88, 95, 90, 79, 87, 91, 84.

Calculez la moyenne estimée de ces notes.


L'estimation par intervalle de confiance

Petit Échantillon :
Pour un petit échantillon (généralement lorsque la taille de l'échantillon, notée n, est
inférieure à 30), vous devrez utiliser la distribution de Student (aussi appelée distribution
de Student-t) pour calculer l'intervalle de confiance. La formule de l'intervalle de
confiance est la suivante :
Grand Échantillon :
Pour un grand échantillon (généralement lorsque la taille de l'échantillon est suffisamment
grande, par exemple, n≥30), vous pouvez utiliser la distribution normale standard
(distribution Z) pour calculer l'intervalle de confiance. La formule est similaire à celle du petit
échantillon, mais vous utilisez la distribution normale standard:
Table de student
Supposons que vous ayez un échantillon de taille n=15 et que vous ayez mesuré la durée de
vie (en heures) de 15 composants électroniques, obtenant les valeurs suivantes :
12,10,14,11,15,13,9,8,16,13,10,12,14,11,15
Grand Échantillon (Distribution Normale Standard)
Supposons maintenant que vous ayez un échantillon de taille n=100 et que vous ayez mesuré
la taille (en centimètres) de 100 arbres dans une forêt, obtenant les valeurs suivantes
Supposons que vous travaillez pour une entreprise de fabrication de composants
électroniques, et que vous devez estimer la durée de vie moyenne d'une puce
électronique qu'ils produisent. Vous décidez de prendre un échantillon de puces
électroniques et de calculer un intervalle de confiance de la moyenne pour
estimer cette durée de vie moyenne.
1.Vous commencez par prélever un échantillon de 30 puces électroniques et
mesurez leur durée de vie, obtenant une moyenne de 1500 heures et un écart
type de 100 heures. Vous décidez de construire un intervalle de confiance de 95
% pour la moyenne.
a. Calculer l'intervalle de confiance de la moyenne.
2.Plus tard, votre entreprise décide que la taille de l'échantillon initial était
insuffisante pour une estimation précise. Vous effectuez un nouvel
échantillonnage de 100 puces électroniques et mesurez leur durée de vie. Vous
obtenez une nouvelle moyenne de 1550 heures et un écart type de 90 heures.
a. Calculer un nouvel intervalle de confiance de 95 % pour la moyenne.
3.Finalement, votre entreprise modifie ses critères de qualité et décide qu'un
intervalle de confiance de 90 % pour la moyenne est suffisant. Vous avez
maintenant un échantillon de 200 puces électroniques, avec une moyenne de
1570 heures et un écart type de 80 heures.
a. Calculer un intervalle de confiance de 90 % pour la moyenne.
Solutions :
1.Pour l'échantillon initial de 30 puces électroniques, nous pouvons utiliser la formule de
l'intervalle de confiance pour la moyenne :
1. Intervalle de confiance = Moyenne ± (Z * (Écart type / √n)), où Z est le score
critique de la distribution normale pour un niveau de confiance de 95 %.
2.Pour un niveau de confiance de 95 %, Z ≈ 1,96.
1. Intervalle de confiance = 1500 ± (1,96 * (100 / √30))
2. Intervalle de confiance ≈ 1500 ± 28,98
3. L'intervalle de confiance est approximativement de 1471,02 à 1528,98 heures.
3.Pour l'échantillon de 100 puces électroniques, avec une nouvelle moyenne et un
nouvel écart type, nous utilisons la même formule :
1. Intervalle de confiance = 1550 ± (1,96 * (90 / √100))
2. Intervalle de confiance ≈ 1550 ± 17,64
3. L'intervalle de confiance est approximativement de 1532,36 à 1567,64 heures.
4.Pour l'échantillon de 200 puces électroniques, avec une nouvelle moyenne et un
nouvel écart type, et un niveau de confiance de 90 %, nous utilisons la formule avec le
score critique approprié (Z ≈ 1,645 pour un niveau de confiance de 90 %) :
1. Intervalle de confiance = 1570 ± (1,645 * (80 / √200))
2. Intervalle de confiance ≈ 1570 ± 14,18
3. L'intervalle de confiance est approximativement de 1555,82 à 1584,18 heures.
Exercice 4

Supposons que vous ayez les données suivantes sur la pression artérielle systolique de
50 patients atteints d'une maladie cardiovasculaire :
Données :
•Pression artérielle systolique (en mmHg) : 130, 132, 135, 128, 136, 134, 131, 129, 137,
132, 130, 138, 135, 133, 136, 131, 134, 132, 137, 129, 128, 130, 131, 133, 135, 138,
132, 134, 136, 129, 128, 130, 131, 133, 135, 138, 132, 134, 136, 129, 128, 130, 131,
133, 135, 138, 132, 134, 136.

calculer un intervalle de confiance à 95 % pour la moyenne de la pression artérielle


systolique de ces patients
Étape 1 : Calculez la moyenne des données

Moyenne = (130 + 132 + 135 + ... + 132 + 134 + 136) / 50 ≈ 132.52


mmHg.

Étape 2 : Calculez l'écart type de l'échantillon (S).

S = √[Σ(X – Xbarre)² / (n - 1)]

S ≈ √[(Σ(X - 132.52)²) / (50 - 1)] ≈ √[(263.57) / 49] ≈ √5.38 ≈


2.32 mmHg.

Étape 3 : Calculez l'erreur standard de la moyenne (SEM)

SEM = S / √n ≈ 2.32 / √50 ≈ 0.33 mmHg.


Étape 4 : Déterminez le facteur de correction Z pour un intervalle de confiance à 95 %.
Vous pouvez utiliser une table de distribution normale standard ou un calculateur en
ligne pour obtenir ce facteur. Pour un intervalle de confiance à 95 %, Z ≈ 1.96.

Étape 5 : Calculez la marge d'erreur (ME).


ME = Z * SEM ≈ 1.96 * 0.33 ≈ 0.65 mmHg.

Étape 6 : Construisez l'intervalle de confiance.


Intervalle de confiance à 95 % : µ ± ME Intervalle de confiance à 95 % : 132.52 ± 0.65
L'intervalle de confiance à 95 % pour la moyenne de la pression artérielle systolique est
d'environ [131.87 mmHg, 133.17 mmHg].

2. calculer la taille de l'échantillon nécessaire pour estimer la moyenne de la pression


artérielle systolique avec une marge d'erreur de 4 % pour un intervalle de confiance de
95%, sachant que l'écart type de la population est de 10 mmHg.
Exercice 5

Supposons que vous travaillez dans un


laboratoire de recherche médicale et que vous
souhaitez estimer la concentration moyenne
d'une substance chimique dans le sang de
patients atteints d'une maladie spécifique. Vous
avez prélevé un échantillon de 25 patients et
mesuré la concentration de cette substance. Les
données sont les suivantes (en mg/dL) :
Data : 42, 38, 41, 44, 40, 39, 43, 42, 41, 45, 43,
40, 41, 42, 39, 40, 42, 44, 43, 40, 41, 39, 43, 46,
Calculer un intervalle de confiance à 95 % et 90% pour la moyenne
42.
de la concentration de cette substance chez tous les patients
atteints de la maladie
Un chercheur souhaite construire un intervalle de confiance de
99% pour la moyenne du taux de sucre dans le sang des
patients atteints de diabète de type 2. Il aimerait que la marge
d'erreur de l'intervalle soit de 5 mg/dL. Il estime que l'écart
type du taux de sucre dans le sang dans la population est
d'environ 20 mg/dL. Quelle taille d'échantillon doit-il utiliser
pour atteindre son objectif ?
Un chercheur effectue une étude sur la pression
artérielle chez un échantillon de patients. Il collecte
des données auprès de 50 patients et construit un
intervalle de confiance à 95% pour la moyenne de la
pression artérielle, obtenant un intervalle de [120
mm Hg, 130 mm Hg]. Quelle est la longueur de cet
intervalle de confiance ?
Le chercheur a obtenu un intervalle de confiance à 95% pour la moyenne de
la pression artérielle, qui est [120 mm Hg, 130 mm Hg]. Pour calculer la
longueur de cet intervalle, soustrayez la borne inférieure de la borne
supérieure :

Longueur de l'intervalle = Borne supérieure - Borne inférieure

Longueur de l'intervalle = 130 mm Hg - 120 mm Hg = 10 mm Hg


La longueur de l'intervalle de confiance est de 10 mm Hg.
Exercice 2 : Réduction de la longueur de l'intervalle
Un chercheur souhaite construire un intervalle de
confiance pour la moyenne du taux de glucose
sanguin chez les patients diabétiques. Il commence
par un échantillon de 40 patients et obtient un
intervalle de confiance à 95% de [140 mg/dL, 150
mg/dL].

Il aimerait réduire la longueur de l'intervalle.


Combien de patients supplémentaires doit-il inclure
dans son échantillon pour réduire la longueur de
l'intervalle de 20 mg/dL tout en maintenant le
même niveau de confiance ?
Exercice 3 : Comparaison de longueurs d'intervalles
Un médecin effectue une étude sur la masse corporelle
de ses patients. Il construit des intervalles de confiance
de 90%, 95% et 99% pour la moyenne de la masse
corporelle.

Les intervalles ont des longueurs de 5 kg, 7 kg et 10 kg


respectivement. Comment ces intervalles de confiance
se comparent-ils en termes de longueur et de niveau de
confiance ?
Les intervalles de confiance pour la moyenne de la masse corporelle ont les
longueurs suivantes :
•Pour le niveau de confiance de 90%, longueur = 5 kg.
•Pour le niveau de confiance de 95%, longueur = 7 kg.
•Pour le niveau de confiance de 99%, longueur = 10 kg.

Comparons ces intervalles en termes de longueur et de niveau de confiance :

•L'intervalle de 99% est le plus large, ce qui est attendu car il offre une plus
grande confiance, mais au prix d'une plus grande incertitude (10 kg de large).
•L'intervalle de 90% est le plus étroit, car il offre une confiance plus faible, mais
avec une plus grande précision (5 kg de large).
•L'intervalle de 95% se situe entre les deux en termes de largeur et de confiance.
Il s'agit d'un compromis entre la largeur de l'intervalle et le niveau de confiance.
Plus le niveau de confiance est élevé, plus l'intervalle est large
Exercice 4 : Réduction de la marge d'erreur
Un chercheur souhaite construire un intervalle de confiance à 99% pour la
moyenne du temps de réaction chez les participants à une expérience. Il
obtient un échantillon de 30 participants et construit un intervalle de [0,2
seconde, 0,3 seconde].

Il souhaite réduire la marge d'erreur à 0,05 seconde tout en maintenant le


même niveau de confiance. Combien de participants supplémentaires doit-il
inclure dans son échantillon ?
Ces exercices vous permettront de pratiquer le calcul de la longueur d'un
intervalle de confiance et de comprendre comment la taille de l'échantillon et
la marge d'erreur affectent cette longueur
Le chercheur doit inclure environ 28 270
participants supplémentaires dans son échantillon
pour réduire la marge d'erreur de 0,05 seconde à 0
tout en maintenant le même niveau de confiance
Distribution d'échantillonnage de la
proportion
Il est fréquent de devoir estimer la proportion, notée "p", d'individus présentant une
caractéristique qualitative spécifique au sein d'une population donnée. Cette estimation de la
proportion "p" est généralement basée sur les résultats obtenus à partir d'un échantillon de
taille "n". La proportion "f" observée dans un échantillon, qui représente la fréquence
d'apparition de cette caractéristique, peut être considérée comme la valeur observée d'une
variable aléatoire "F". Cette variable "F" mesure la fréquence d'occurrence de la
caractéristique dans un échantillon de taille "n" et est souvent appelée "proportion
d'échantillon".
Une question se pose alors : la moyenne des fréquences observées de cette caractéristique,
calculée sur l'ensemble de tous les échantillons de taille "n", est-elle égale à la proportion "p"
de la population ?

Pr. Kamal ZEHRAOUI


Supposons que vous travaillez dans un centre
de recherche en santé publique et que vous
souhaitez estimer la proportion de personnes
dans une ville qui ont reçu leur vaccination
contre la grippe. Vous prenez un échantillon
aléatoire de 400 personnes dans la ville et
découvrez que 260 d'entre elles ont été
vaccinées. Calculez un intervalle de confiance
de 95 % pour estimer la proportion de
personnes vaccinées dans la population.
Vous travaillez pour un institut de recherche et vous devez estimer la proportion de
personnes dans une population donnée qui possèdent un smartphone. Vous souhaitez
obtenir un intervalle de confiance de 95 % avec une précision de ± 2 %. Si vous estimez
que la proportion réelle de personnes possédant un smartphone est d'environ 60 %, quelle
devrait être la taille de l'échantillon nécessaire pour atteindre cet objectif ?
Exercice 2 : Construction d'un intervalle de confiance

Vous avez prélevé un échantillon de 36 scores de tests standardisés, et vous avez


trouvé que la moyenne de l'échantillon est de 85 et l'écart-type de l'échantillon est
de 6.

a) Calculez un intervalle de confiance à 95 % pour la moyenne de la population (µ).


b) Interprétez cet intervalle de confiance.

Pr. Kamal ZEHRAOUI


Correction :
a) Pour calculer l'intervalle de confiance à 95 % pour la moyenne de la
population (µ), nous utiliserons la formule suivante pour l'intervalle de
confiance :
Intervalle de confiance = Moyenne de l'échantillon ± (Erreur standard x Valeur
critique)
Erreur standard (SE) = Écart-type de l'échantillon / √n Valeur critique (pour un
intervalle de confiance à 95 % avec un échantillon de taille 36) ≈ 1,96 (en se
référant à la table des valeurs critiques de la distribution normale)
SE = 6 / √36 = 6 / 6 = 1 Intervalle de confiance = 85 ± (1,96 x 1) = 85 ± 1,96
L'intervalle de confiance à 95 % est donc (83,04, 86,96).
b) Cela signifie que nous sommes à 95 % confiants que l'intervalle réel de la
moyenne de la population se situe entre 83,04 et 86,96. En d'autres termes, si
vous prélevez de nombreux échantillons et que vous calculez des intervalles
de confiance similaires pour chacun d'eux, vous vous attendez à ce que 95 %
de ces intervalles contiennent la vraie moyenne de la population.

Pr. Kamal ZEHRAOUI


Dans cet exercice, nous allons construire des intervalles de confiance à
différents niveaux de confiance (95 %, 99 % et 90 %) pour la moyenne d'une
population en utilisant la distribution d'échantillonnage. Supposons que nous
ayons un échantillon de 36 mesures de la durée de sommeil (en heures) d'un
groupe d'adultes en bonne santé. Les statistiques de l'échantillon sont les
suivantes : la moyenne est de 7 heures et l'écart-type est de 1,5 heures.
Nous allons calculer les intervalles de confiance pour la moyenne de la
population à ces trois niveaux de confiance.

Pr. Kamal ZEHRAOUI


Correction :
Pour construire un intervalle de confiance pour la moyenne de la population, nous
utilisons la formule suivante :
Intervalle de confiance = Moyenne de l'échantillon ± (Erreur standard x Valeur
critique)
L'erreur standard (SE) est calculée comme suit :
SE = Écart-type de l'échantillon / √(taille de l'échantillon)
Dans notre cas, l'écart-type de l'échantillon est de 1,5 heures et la taille de
l'échantillon est de 36.
SE = 1,5 / √36 = 1,5 / 6 = 0,25 heures.
Maintenant, nous allons calculer les intervalles de confiance pour différents niveaux de
confiance :
a) Intervalle de confiance à 95 % :
 Valeur critique à 95 % (Z) ≈ 1,96 (en utilisant la table des valeurs critiques de la
distribution normale pour un niveau de confiance de 95 %).
Intervalle de confiance à 95 % = 7 ± (0,25 x 1,96) ≈ 7 ± 0,49 heures.
Pr. Kamal ZEHRAOUI
L'intervalle de confiance à 95 % est donc (6,51, 7,49) heures.
b) Intervalle de confiance à 99 % :
 Valeur critique à 99 % (Z) ≈ 2,58 (en utilisant la table des valeurs critiques de la
distribution normale pour un niveau de confiance de 99 %).
Intervalle de confiance à 99 % = 7 ± (0,25 x 2,58) ≈ 7 ± 0,645 heures.
L'intervalle de confiance à 99 % est donc (6,355, 7,645) heures.

c) Intervalle de confiance à 90 % :
 Valeur critique à 90 % (Z) ≈ 1,645 (en utilisant la table des valeurs critiques de la
distribution normale pour un niveau de confiance de 90 %).
Intervalle de confiance à 90 % = 7 ± (0,25 x 1,645) ≈ 7 ± 0,41125 heures.
L'intervalle de confiance à 90 % est donc (6,58875, 7,41125) heures.

Pr. Kamal ZEHRAOUI


Supposons que vous menez une enquête sur les temps de réaction des conducteurs
lorsqu'ils sont exposés à un signal d'arrêt soudain. Vous souhaitez construire un intervalle
de confiance à 95 % pour la moyenne des temps de réaction. Vous aimeriez que la largeur
de cet intervalle de confiance soit de 0,5 seconde.
a) Vous avez mené une petite enquête préliminaire et trouvé un échantillon de 25
conducteurs dont les temps de réaction moyens étaient de 1,8 seconde, avec un écart-type
de 0,4 seconde. Pouvez-vous utiliser cet échantillon pour construire l'intervalle de confiance
que vous souhaitez ? Sinon, quelle taille d'échantillon vous faudrait-il pour atteindre cet
objectif ?

Pr. Kamal ZEHRAOUI


Correction :
a) Pour construire un intervalle de confiance, nous pouvons utiliser la formule suivante :
Intervalle de confiance = Moyenne de l'échantillon ± (Erreur standard x Valeur critique)
L'erreur standard (SE) est calculée comme suit :
SE = Écart-type de l'échantillon / √(taille de l'échantillon)
Dans cet exercice, la largeur souhaitée de l'intervalle de confiance est de 0,5 seconde, ce qui signifie que
l'erreur standard doit être de 0,5 / 2 = 0,25 seconde.
Nous avons un échantillon de 25 conducteurs avec un écart-type de 0,4 seconde. Cela signifie que nous
pouvons calculer l'erreur standard pour cet échantillon actuel :
SE = 0,4 / √25 = 0,4 / 5 = 0,08 seconde.
L'erreur standard de cet échantillon est de 0,08 seconde, ce qui est inférieur à l'erreur standard souhaitée de
0,25 seconde. Par conséquent, cet échantillon ne nous permet pas de construire l'intervalle de confiance avec
la largeur souhaitée.
Pour calculer la taille d'échantillon nécessaire pour obtenir la largeur souhaitée de l'intervalle de confiance,
nous utilisons la formule suivante pour l'erreur standard :
SE = Écart-type de la population / √(taille de l'échantillon)
Nous devons réorganiser cette formule pour résoudre la taille de l'échantillon (n) :
n = (Écart-type de la population / Erreur standard souhaitée)^2
En utilisant les valeurs données :
n = (0,4 / 0,25)^2 = (1,6)^2 = 2,56.
Donc, nous aurions besoin d'un échantillon d'au moins 3 conducteurs pour atteindre l'objectif de construire un
intervalle de confiance avec une largeur de 0,5 seconde.

Pr. Kamal ZEHRAOUI


Un fabricant de piles électriques affirme que la
durée de vie moyenne de ses piles est de 50
heures. Cependant, un échantillon de 30 piles
est prélevé, et les durées de vie des piles sont
mesurées comme suit :
48, 49, 50, 51, 50, 49, 48, 51, 50, 49, 50, 51,
52, 48, 49, 50, 51, 49, 50, 52, 50, 49, 48, 51,
50, 49, 50, 51, 50, 49
Vous êtes chargé de déterminer si l'affirmation
du fabricant est valide à un niveau de confiance
Pr. Kamal ZEHRAOUI
de 95%. Effectuez un test de conformité d'une
Tests d’hypothèses

Consiste à identifier une disparité significative dans les contextes suivants :

•Entre la population sous étude et une valeur de référence spécifique (Test de


comparaison à une valeur théorique ou test de conformité).

•Entre deux populations distinctes (Test de comparaison de population ou test


d'homogénéité).
•En ce qui concerne la relation entre deux variables (Test de corrélation ou
d'association).

•En ce qui concerne l'ajustement des données par rapport à une loi de
distribution particulière (Test d'adéquation).
Pr. Kamal ZEHRAOUI
Test de conformité d'une moyenne

Formuler les hypothèses :


•H0 (hypothèse nulle) : μ=μ0​(la moyenne de la population est égale à une valeur
spécifiée).
•H1 (hypothèse alternative) : μ≠μ0​(la moyenne de la population n'est pas égale
à la valeur spécifiée).

Calculer la statistique
de test :

Pr. Kamal ZEHRAOUI


Définir le niveau de signification :

•Choisissez un niveau de signification, généralement α=0,05 ou α=0,01, pour


déterminer la probabilité d'erreur de type I

Prendre une décision :


•Comparez la statistique de test à la valeur critique. Si la statistique de test est dans
la région de rejet déterminée par le niveau de signification, rejetez l'hypothèse nulle
au profit de l'hypothèse alternative.

Pr. Kamal ZEHRAOUI


Pr. Kamal ZEHRAOUI
Test de Khi-deux

Les tests du χ², également appelés tests du "qui-2", sont des analyses statistiques non
paramétriques utilisées pour évaluer des hypothèses. Leur nom provient de la lecture de
l'écart critique dans la table de la loi du χ². Ces tests se déclinent principalement en trois
catégories :

1.Le test d'ajustement du χ², ou test d'adéquation, qui compare de manière globale la
distribution observée dans un échantillon statistique à une distribution théorique.

2.Le test d'indépendance du χ², qui évalue si deux caractéristiques au sein d'une population
sont indépendantes l'une de l'autre.

3.Le test d'homogénéité du χ², qui examine si des échantillons proviennent d'une même
population.
Pr. Kamal ZEHRAOUI
Test de Khi-deux
d’indépendance
Le test du Chi-deux (χ²) est une méthode statistique utilisée pour déterminer si une
association ou une relation significative existe entre deux variables catégorielles (ou
nominales). Il est couramment utilisé pour analyser des données de tableau de
contingence ou de fréquence.

Calcul du Chi-deux :
Le calcul du Chi-deux implique plusieurs étapes :
•Étape 1 : Créez un tableau de contingence à partir de vos données.
•Étape 2 : Calculez les fréquences attendues pour chaque cellule sous
l'hypothèse d'indépendance des variables. La formule est : fréquence
attendue = (total de la ligne * total de la colonne) / total général.
•Étape 3 : Calculez la statistique de test du Chi-deux à l'aide de la
formule : χ² = Σ [(fréquence observée - fréquence attendue)² / fréquence
attendue].
•Étape 4 : Déterminez les degrés de liberté (df) pour le test.
Degrés de liberté (df) :
Le nombre de degrés de liberté dépend de la taille du tableau de
contingence. Pour un tableau 2x2, les degrés de liberté sont 1.
Généralement, pour un tableau RxC, les degrés de liberté sont (R-1)(C-
Interprétation du résultat du test du Chi-deux :

Le résultat du test du Chi-deux est une statistique χ² et une valeur de p (probabilité).


Vous pouvez interpréter les résultats comme suit :

•Si p < seuil de signification (généralement 0,05), vous rejetez l'hypothèse nulle et
concluez qu'il y a une association significative entre les variables.

•Si p ≥ seuil de signification, vous ne rejetez pas l'hypothèse nulle et concluez qu'il n'y a
pas suffisamment de preuves pour montrer une association significative.
Considérons un échantillon de 200 étudiants réparties en deux groupes selon les sexe
en fonction de leur préférence entre deux sports (Foot-Ball et Tennis). Les résultats
sont les suivants :

Foot Tennis
Homme 50 30
Femme 20 100
Le test d'homogénéité
du χ²

Le test d'homogénéité du χ² est utilisé pour déterminer si les fréquences observées


dans deux ou plusieurs échantillons sont significativement différentes, c'est-à-dire s'ils
proviennent de la même population ou distribution.

Pr. Kamal ZEHRAOUI


Un chercheur souhaite étudier la distribution des préférences alimentaires dans trois groupes
d'âge différents : les jeunes (18-25 ans), les adultes (26-40 ans) et les personnes âgées (41
ans et plus). Il a collecté des données sur la préférence alimentaire principale de chaque
groupe. Voici les résultats :
Préférence Personnes
Alimentaire Jeunes Adultes Âgées
Pizza 30 20 10
Hamburger 20 30 25
Salade 15 25 30

Pr. Kamal ZEHRAOUI


L'hypothèse nulle (H0) est que la distribution des préférences alimentaires est la même
dans les trois groupes d'âge.
Étape 1 : Formuler les hypothèses :
•H0 (hypothèse nulle) : Les préférences alimentaires sont homogènes dans les trois
groupes d'âge.
•H1 (hypothèse alternative) : Les préférences alimentaires ne sont pas homogènes
dans les trois groupes d'âge.
Étape 2 : Définir les niveaux de signification :

Pr. Kamal ZEHRAOUI


Étape 3 : Construire le tableau
d'observation :

Préférence
Alimentaire Jeunes Adultes Personnes Âgées Total
Pizza 30 20 10 60
Hamburger 20 30 25 75
Salade 15 25 30 70
Total 65 75 65 205

Pr. Kamal ZEHRAOUI


Pr. Kamal ZEHRAOUI
Pr. Kamal ZEHRAOUI
Pr. Kamal ZEHRAOUI
Pr. Kamal ZEHRAOUI
Pr. Kamal ZEHRAOUI
Pr. Kamal ZEHRAOUI
Pr. Kamal ZEHRAOUI
Pr. Kamal ZEHRAOUI
Pr. Kamal ZEHRAOUI
Pr. Kamal ZEHRAOUI
Pr. Kamal ZEHRAOUI
Pr. Kamal ZEHRAOUI
Pr. Kamal ZEHRAOUI
Pr. Kamal ZEHRAOUI
Pr. Kamal ZEHRAOUI
Pr. Kamal ZEHRAOUI
Pr. Kamal ZEHRAOUI
Pr. Kamal ZEHRAOUI

Vous aimerez peut-être aussi