Examen Final : Statistique Descriptive. Durée : 02h00. Professeur : A.
El Maliki
L’usage de tout document et du téléphone portable est rigoureusement interdit.
Exercice 1 (10 points).
Une vaste enquête sur le thème "les jeunes et la culture de l’écran" a été réalisée auprès d’un échantillon de 500
jeunes de 6 à 17 ans par J.J et D.P. Les auteurs de cet enquête ont évalué :
- X : la fréquence de lecture de livres (Gros lecteur (G), Faible lecteur (F), Non lecteur (N)).
- Y : la durée d’écoute de la télévision un jour de week-end (Faible durée d’écoute (FL), Moyenne durée d’écoute
(MN), Forte durée d’écoute(FT)) ;
Le tableau obtenu en croisant les résultats obtenus pour ces deux items est le suivant (tableau 1) :
Tableau 1 : effectif observé (nij )
Tableau 2 : effectif théorique (n∗ij )
X\ Y FL MN FT ni.
X\ Y FL MN FT
G 170 30 10 210
G 77.70 73.50 58.80
F 10 130 20 160
F 59.20 56.00 44.80
N 5 15 110 130
N 48.10 45.50 36.40
n.j 185 175 140 500
Le calcul de l’indice de χ2 donne χ2 ≃ 536.1748.
1. Quelle est la nature des variables X et Y ? Quelle est la nature du tableau proposé (tableau 1) ?
Donner la valeur de n23 ? Interpréter cette valeur ?
2. Dresser le tableau des fréquences (fréquences partielles et marginales) :
— Calculer la fréquence partielle fij d’apparition de chaque couple (i; j) de modalités des variables.
— Calculer de même les fréquences marginales (fi· ) et (f·j ) pour chaque variable prise isolément.
3. — Quelle est la proportion des gros lecteurs ?
— Quelle proportion des non lecteurs ayant une durée d’écoute forte ?
— Parmi les gros lecteurs, quelle proportion ayant une durée d’écoute faible ?
4. Donner la distribution marginale de X et la distribition conditionnelle de X sachant Y = F T . Dans un même
graphique, représenter ces deux distributions. Les variables X et Y sont-elles indépendantes ? Justifier.
5. On veut montrer qu’il existe un lien entre la durée d’écoute de la télévision et la fréquence de lecture de
livres, en utilisant un test du χ2 au seuil de 1%.
— Expliquer comment on a obtenu l’effectif théorique n∗22 = 56 (tableau 2).
(nij − n∗ij )2
— Former le tableau des contributions au χ2 (cij = ).
n∗ij
— Montrer que l’indice de χ2 vaut 536.1748 (χ2 ≃ 536.1748).
— Déterminer le nombre de degrés de liberté, la valeur critique zα du χ2 au seuil de α = 1%, et conclure.
6. Que mesure l’indice de Cramer C et quel est l’avantage de cet indice sur χ2 ? Calculer la valeur de C ?
Que pouvez-vous dire sur l’intensité du lien entre X et Y ?
7. On veut étudier plus finement le lien existant entre les deux variables étudiées.
— Etant donné la modalité i de la première variable et la modalité j de la seconde, on appelle taux de
liaison entre i et j, la quantité :
fij − (fi· × f·j )
tij = , i = 1, · · · , 3; j = 1, · · · , 3
(fi· × f·j )
nij −n∗
Vérifier qu’on tij = n∗ ij . Calculer les taux de liaison correspondant aux neuf cases du tableau 1.
ij
— On dit que deux modalités s’attirent si le taux de liaison correspondant est positif, qu’elles se re-
poussent s’il est négatif. Dans l’exemple proposé, quelles sont les modalités qui s’attirent ?
Quelles sont celles qui se repoussent ? Quelle interprétation peut-on donner de ces résultats ?
1
Exercice 2 (10 points).
La gérante d’un commerce de détail veut évaluer l’impact, sur le chiffre d’affaires mensuel, des frais déboursés
en publicité dans un quotidien de la région desservie par le commerce. L’entreprise dépense actuellement environ
2$ par mois en réclames publicitaires dans la quotidien est le chiffre d’affaires mensuel est d’environ 2.25$.
N.B. : (Pour simplifier les calculs, on a supposé que le frais en publicité et le chiffre d’affaires ont la même grandeur
monétaire en $).
On aimerait évaluer dans quelle mesure une modification Frais en publicité ($) Chiffre d’affaires ($)
dans le budget publicitaire mensuel (X) affecterait le chiffre 2.7 2.6
d’affaires mensuel (Y ). 2.5 2.7
On a donc recueilli, sur une période de 10 mois, les données 3.0 2.8
du tableau ci-contre. 1.5 1.7
De plus, 0.5 1.5
n = 10, x = 2.14, y = 2.26, Sx2 = 0.5684, 3.2 3.1
Sy2 = 0.2584 et COV (x, y) = 0.3566. 2.1 2.4
2.3 2.1
On veut analyser ces données avec les techniques de la ré- 1.7 1.8
gression linéaire simple. 1.9 1.9
1. Représenter le nuage de points de la série double (X, Y ). Selon cette représentation, est-ce qu’un modèle de
régression linéaire est plausible pour ces données ? Expliquer.
2. — Calculer les moyens x̄ et ȳ, les variances Sx2 , Sy2 et la covariance cov(X, Y ).
— Vérifier que le coefficient de corrélation rxy vaut 0.93 (rxy ≃ 0.93).
— Comment qualifier la liaison linéaire entre X et Y ?
3. — Déterminer la droite de régression de Y en X de la forme ŷ = âx + b̂.
— Sur le même graphique de la question 1, placer le centre de gravité G = (x̄, ȳ) et tracer la droite
d’ajustement trouvée.
4. — Quelle signification concrète pourrait-on donner à b̂.
— Que représente la pente â de la droite de régression. Interpréter sa valeur ?
— Quel est l’impact sur le chiffre d’affaires mensuel pour une augmentation de 0.5$ dans les frais mensuels
de publicité ?
5. Quel est l’écart entre la valeur observée de Y en x5 = 0.5 et la valeur estimé avec la droite de régression ?
Comment appelle-t-on cet écart ?
6. Calculer le coefficient de détermination R2 . Quelle interprétation pouvez-vous en donner ?
7. — Calculer la variance résiduelle Se2 et comparer-la à la variance totale Sy2 . Commenter ?
— En servant de cette question et des questions (1., 2., 6.), discuter de la validation du modèle de régression.
8. Quelle serait une bonne estimation du chiffre d’affaires mensuel si on dispose de 2.0$ en frais de publicité ?
Dans ce cas, quel est l’écart entre le chiffre d’affaires estimé et celui réellement obtenu ?
9. La vraie grandeur monétaire du frais en publicité est en 1k$ et celle du chiffre d’affaires est en 100k$.
Est-ce que votre conclusion sur la validité du modèle de régression obtenu reste la même ? expliquer.
Exercice 3 (Bonus, 2 points).
cov(X, Y )
Soit (xi , yi ); i = 1, · · · , n une série statistique bivariée. Soit ŷi = âxi + b̂ avec â = et b̂ = ȳ − âx̄.
Sx2
Soit ei = yi − ŷi ; i = 1, · · · , n. Sachant que :
n n n n
1X 1X 1X 2 1X
ē = ei , Sy2 = (yi − ȳ)2 , Se2 = e , Sŷ2 = (ŷi − ȳ)2
n i=1 n i=1 n i=1 i n i=1
n
X n
X
1. Démontrer que ei = 0 et que xi ei = 0.
i=1 i=1
2. Déduire que la variance totale est la somme de la variance de régression et de la variance résiduelle :
Sy2 = Sŷ2 + Se2
................................................................................................................................. Bon courage !