Modèles de Régression Linéaire Appliquée
Modèles de Régression Linéaire Appliquée
3
Table des matières
5 Sélection de variables 63
5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.2 Critères de qualité d’un modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
5.2.1 Qualité de l’estimation, erreur quadratique moyenne (EQM) . . . . . . 64
5.2.2 Qualité de la prédiction, erreur quadratique moyenne de prédiction
(EQMP) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4
Table des matières
6 Annales corrigées 73
6.1 Examens partiels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
6.1.1 Sujet 1 (durée : 1h30) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
6.1.2 Sujet 1 : éléments de correction . . . . . . . . . . . . . . . . . . . . . . . 77
6.1.3 Sujet 2 (durée : 1h30) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
6.1.4 Sujet 2 : éléments de correction . . . . . . . . . . . . . . . . . . . . . . . 83
6.1.5 Sujet 3 (durée : 2h) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
6.1.6 Sujet 1 - Éléments de correction . . . . . . . . . . . . . . . . . . . . . . . 91
6.2 Examens terminaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
6.2.1 Sujet 1 (durée : 3h) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
6.2.2 Sujet 1 - Éléments de correction . . . . . . . . . . . . . . . . . . . . . . . 100
6.2.3 Sujet 2 (durée : 3h) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
6.2.4 Sujet 2 : Éléments de correction . . . . . . . . . . . . . . . . . . . . . . . 109
6.2.5 Sujet 2 bis (durée : 2h) - Entraînement . . . . . . . . . . . . . . . . . . . 113
6.2.6 Sujet 3 (durée : 2h) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
6.2.7 Sujet 3 : Éléments de correction . . . . . . . . . . . . . . . . . . . . . . . 123
5
6
Chapitre 1
1.1 Introduction
On dispose au point de départ des observations (x1 , y1 ), . . . , (xn , yn ) de n couples (X1 , Y1 ), . . . , (Xn , Yn )
de variables aléatoires réelles.
Théorème de la variance totale : E[var(Yi |Xi )] ≤ var(Yi ). Interprétation : le phénomène
aléatoire représenté par les Xi peut servir à expliquer, ou plutôt à décrire, celui représenté par
les Yi , puis éventuellement à le prédire.
On va donc chercher une fonction f telle que pour tout i, f (Xi ) "approche au mieux" Yi .
Deux questions :
— Quel sens donner à "approcher au mieux" ?
— Quelle forme de fonction f choisir ?
Des réponses :
— Se donnant une fonction de perte (ou fonction de coût) l, comme par exemple la fonction
de perte absolue définie par l(y, y0 ) = |y−y0 | ou la
hPfonction de perte
i quadratique définie
n
par l(y, y ) = (y − y ) , on vise f minimisant E i=1 l(Yi , f (Xi )) .
0 0 2
Article de Francis Galton, Regression towards mediocrity in hereditary stature, Journal of the
Anthropological Institute 15 : 246-63 (1886), à l’origine de l’anglicisme régression. Travaux
antérieurs sur les diamètres de graines de pois de senteur et de leur descendance (1885).
7
Chapitre 1. Le modèle de régression linéaire simple
À l'origine de la régression
Francis Galton
(1822-1911)
8
1.2. De très nombreux exemples
Données Insee sur le prix et la consommation de tabac (1951−2009) Espérance de vie et consommation d’alcool par pays
7
80
Espérance de vie à la naissance en 2009
75
Consommation par jour par adulte (g)
70
65
5
60
4
55
50
3
Prix relatif (indice 100 en 1970) Consommation d’alcool (en L d’alcool pur / adulte de plus de 15 ans) en 2008
Données Air Breizh sur l’année 2000 Données CIRAD sur la hauteur des eucalyptus
140
25
120
100
Hauteur
maxO3
20
80
15
60
5 10 15 20 25 30 30 40 50 60 70
9
Chapitre 1. Le modèle de régression linéaire simple
Yi = β0 + β1 Xi + εi , pour i = 1 . . . n,
où
— Xi est une variable aléatoire observée appelée régresseur ou variable explicative,
— Yi est une variable aléatoire observée, appelée variable à expliquer,
— β0 et β1 sont des paramètres réels inconnus appelés paramètres de régression ou cœfficients
de régression,
— les εi sont des variables aléatoires indépendantes des Xi , non observées, appelées
erreurs ou bruits, auxquelles on impose certaines conditions complémentaires.
Yi = β0 + β1 xi + εi , pour i = 1 . . . n, (1.1)
où
— xi est déterministe, et il existe au moins un couple (i, j) tel que xi , x j ,
— Yi est une variable aléatoire observée,
— β0 et β1 sont des paramètres réels inconnus,
— les εi sont des variables aléatoires non observées vérifiant les conditions (C1 ) à (C3 ),
On a ainsi :
— E[Yi ] = β0 + β1 xi pour tout i = 1 . . . n,
— cov(Yi , Y j ) = 0 pour tout i , j et var(Yi ) = σ2 pour tout i = 1 . . . n.
10
1.4. Estimation (ponctuelle) et prédiction dans le cas général
Y = β0 1 + β1 x + ε = Xβ + ε,
avec
Y1 1 x1 1 x1 ε1
β0
!
.. .. .. .. .. , ..
Y = , 1 = , x = , X = β= et ε = .
. . . . . β1 .
Yn 1 xn 1 xn εn
Représentation géométrique :
E(X) désigne le sous-espace vectoriel de Rn engendré par les vecteurs 1 et x. On remarque
que la projection orthogonale de Y sur le sous-espace vectoriel engendré par 1 est Ȳ1.
11
Chapitre 1. Le modèle de régression linéaire simple
β̂0 = Ȳ − β̂1 x̄ P
Pn n Pn Pn Pn
i=1 xi Yi − i=1 xi Ȳ xi (Yi −Ȳ) (xi −x̄)Yi (x −x̄)(Yi −Ȳ)
β̂1 = Pn x2 −Pn x x̄ = Pi=1 = Pi=1 = Pn i
i=1
n n
2 2 2
i=1 i i=1 i i=1 (xi −x̄) i=1 (xi −x̄) i=1 (xi −x̄)
Preuve. On note L(β0 , β1 ) = ni=1 (Yi − β0 − β1 xi )2 . La fonction L est une fonction de deux
P
variables réelles. Ses points critiques sont obtenus par la résolution du système :
∂L
∂β0 (β0 , β1 ) = 0
∂L
(β0 , β1 ) = 0.
∂β
1
Pn
(x −x̄)(Y −Ȳ)
On obtient le point critique (β̂0 , β̂1 ) = Ȳ − β̂1 x̄, i=1Pn i (x −x̄)i 2 , et on vérifie que ce point cri-
i=1 i
tique correspond à un minimum local à l’aide des notations de Monge. p = ∂∂βL2 (β̂0 , β̂1 ) = 2n,
2
q = ∂β∂0 ∂β ∂2 L
2L Pn Pn 2
β̂ , β̂ = = β̂ , β̂ = 2 = 4(n n x2 − ( n x )2 ).
P P
1
( 0 1 ) 2 i=1 x i , r ∂β12 ( 0 1 ) 2 i=1 xi
, donc pr − q i=1 i i=1 i
Pn Pn 2 Pn 2 Pn 2
L’inégalité de Cauchy-Schwarz donne ( i=1 xi ) ≤ i=1 1 . i=1 xi ≤ n i=1 xi , avec égalité
2
lorsque (x1 , . . . , xn ) est colinéaire à (1, . . . , 1), c’est-à-dire lorsque tous les xi sont égaux (ce qui
n’est pas possible par hypothèse). On a donc pr − q2 > 0 et (β̂0 , β̂1 ) est bien un minimum local.
Remarque : la droite de régression des MCO calculée passe par le centre de gravité (x̄, ȳ) du
nuage de points.
Retour sur les exemples (Figure 1.2) : tracé des droites de régression des MCO calculées sur
les observations.
P
De même, β̂0 = Ȳ − β̂1 x̄ = ni=1 n1 − x̄wi Yi , donc les estimateurs des MCO sont bien des
estimateurs linéaires.
Pour la suite, on note au préalable que :
1. ni=1 wi = ni=1 Pn x(x
i −x̄
= 0,
P P
−x̄)2 i=1 i
12
1.4. Estimation (ponctuelle) et prédiction dans le cas général
Données Insee sur le prix et la consommation de tabac (1951−2009) Espérance de vie et consommation d’alcool par pays
7
80
Espérance de vie à la naissance en 2009
75
Consommation par jour par adulte (g)
70
+
65
5
60
4
55
50
3
Prix relatif (indice 100 en 1970) Consommation d’alcool (en L d’alcool pur / adulte de plus de 15 ans) en 2008
Données Air Breizh sur l’année 2000 Données CIRAD sur la hauteur des eucalyptus
140
25
120
+
100
Hauteur
maxO3
20
80
+
15
60
5 10 15 20 25 30 30 40 50 60 70
13
Chapitre 1. Le modèle de régression linéaire simple
Alors :
E[β̂1 ] = E[ ni=1 wi Yi ] = ni=1 wi (β0 + β1 xi ) = β1 ni=1 wi xi = β1 , et
P P P
E[β̂0 ] = E[Ȳ − β̂1 x̄] = E[β0 + β1 x̄ + ε̄] − β1 x̄ = β0 .
En outre, Pn 2
Pn 1 2 x
var(β̂0 ) = i=1 n2 − 2 x̄w n + x̄ wi σ = n − 0 + x̄
2 2 2 1 2 n w 2 σ2 = 1
+ Pn x̄ σ2 = Pn i=1 i 2 σ2 ,
i
P
i=1 i n i=1 i −x̄)
(x 2 n i=1 (xi −x̄i )
Pn 1 Pn Pn Pn 1 Pn 1
cov(β̂0 , β̂1 ) = cov( i=1 ( n − x̄wi )Yi , i=1 wi Yi ) = i=1 j=1 ( n − x̄wi )w j cov(Yi , Y j ) = i=1 ( n −
x̄wi )wi σ2 = − Pn (xx̄ −x̄)2 σ2 ,
P i=1 i σ2
et var(β̂1 ) = ni=1 w2i σ2 = Pn (x 2.
i=1 i −x̄)
Interprétation.
Thèorème 2 (Gauss Markov). Parmi les estimateurs linéaires sans biais de β0 et β1 respectivement
linéaires en (Yi )i=1...n , β̂0 et β̂1 sont de variance minimale.
Problème : les εi ne sont pas observés donc pour pouvoir estimer la variance σ2 , on introduit
les résidus.
Définition 3. On appelle résidus les quantités ε̂i = Yi − Ŷi , pour i = 1 . . . n, où Ŷi = β̂0 + β̂1 xi . Les
variables Ŷi sont appelées valeurs ajustées.
PropriétésP des résidus : les ε̂i sont des variables aléatoires observées, centrées, de somme
nulle i.e. ni=1 ε̂i = 0 (donc non indépendantes), corrélées négativement et hétéroscédastiques.
Pn
Une idée naturelle : estimer la variance σ2 par n1 i=1 ε̂i ,
2 mais c’est un estimateur biaisé,
n σ . On choisit donc plutôt :
d’espérance égale à n−2 2
n
1 X 2
σ̂ = 2
ε̂i ,
n−2
i=1
14
1.4. Estimation (ponctuelle) et prédiction dans le cas général
Preuve. On a
ε̂i = β0 +β1 xi +εi − β̂0 − β̂1 xi = Ȳ−β1 x̄− ε̄+β1 xi +εi − Ȳ+ β̂1 x̄− β̂1 xi = (εi − ε̄)+(β1 − β̂1 )(xi − x̄). D’où
ε̂2i = (εi − ε̄)2 + (β1 − β̂1 )2 (xi − x̄)2 + 2(β1 − β̂1 )(xi − x̄)(εi − ε̄).
Pn Pn Pn Pn Pn
(xi −x̄)Yi β0 i=1 (xi −x̄)+β1P i=1 (xi −x̄)xi + i=1 (xi −x̄)εi (x −x̄)(εi −ε̄)
Or β̂1 = Pi=1
n 2 = n 2 = β1 + Pn i
i=1
2 , d’où
i=1 (xi −x̄) i=1 (xi −x̄) i=1 (xi −x̄)
Pn Pn Pn Pn
i=1 ε̂i = − ε̄)2 + − β̂1 )2 (xi − x̄)2 − 2 − β̂1 )2 (xi − x̄)2
2
i=1 (εi i=1 (β1 i=1 (β1
Pn Pn hP i
n
= i=1 (εi − ε̄)2 − i=1 (β1 − β̂1 )2 (xi − x̄)2 , et E i=1 ε̂i
2 = (n − 1)σ2 − σ2 = (n − 2)σ2 .
Thèorème 3. La somme des carrés totale (SCT) est égale à la somme des carrés expliquée (SCE) plus
la somme des carrés résiduelle (SCR) :
n
X n
X n
X
(Yi − Ȳ) = 2
(Ŷi − Ȳ) +
2
(Yi − Ŷi )2 .
i=1 i=1 i=1
| {z } | {z } | {z }
SCT SCE SCR
Interprétations.
SCE 2
R2 = = corr(Yi , Ŷi ) .
SCT
1.4.4 Prédiction
A partir d’une nouvelle valeur explicative xn+1 , on souhaite prédire une nouvelle observation
d’une variable Yn+1 = β0 + β1 xn+1 + εn+1 , avec E[εn+1 ] = 0, var(εn+1 ) = σ2 et cov(εn+1 , εi ) = 0
pour tout i = 1 . . . n i.e. Yn+1 non corrélée avec les (Yi )i=1...n utilisées pour estimer les cœffi-
cients de régression.
p
Pour cela, on introduit Ŷn+1 = β̂0 + β̂1 xn+1 .
15
Chapitre 1. Le modèle de régression linéaire simple
p p
L’erreur de prédiction est définie par ε̂n+1 = Yn+1 − Ŷn+1 (inconnue), dont la variance est
égale à
(xn+1 − x̄)2
!
p 1
var(ε̂n+1 ) = σ 1 + + Pn
2
2
.
n i=1 (xi − x̄)
Preuve laissée en exercice.
Y = β0 1 + β1 x + ε = Xβ + ε,
avec
Y1 1 x1 1 x1 ε1
β0
!
.. .. .. .. .. , ..
Y = , 1 = , x = , X = β= ε = .
. . . . . et .
β1
Yn 1 xn 1 xn εn
Estimateurs des moindres carrés ordinaires, valeurs ajustées, résidus et projection ortho-
gonale
On commence par remarquer que ni=1 (Yi − β0 − β1 xi )2 = (Y − Xβ)0 (Y − Xβ) = kY − Xβk2 , où
P
k.k est la norme euclidienne de Rn .
Si l’on note
β̂0
!
β̂ = ,
β̂1
alors par définition, β̂ ∈ argminβ∈R2 (Y − Xβ)0 (Y − Xβ).
On cherche donc le point critique de la fonction L : β 7→ (Y − Xβ)0 (Y − Xβ) = Y0 Y − Y0 Xβ −
β0 X0 Y + β0 X0 Xβ = Y0 Y − 2β0 X0 Y + β0 X0 Xβ.
β = (X0 X)−1 X0 Y.
16
1.4. Estimation (ponctuelle) et prédiction dans le cas général
Représentation géométrique.
i=1 ε̂i .
On a, en notant Π1 la matrice de projection orthogonale sur le sous-espace vectoriel de Rn
engendré par 1,
n
X
(Yi − Ȳ)2 = (Y − Π1 Y)0 (Y − Π1 Y)
i=1
= Y0 (In − Π1 )0 (In − Π1 )Y
= Y0 (In − ΠX + ΠX − Π1 )0 (In − Π1 )Y
= Y0 (In − ΠX )(In − Π1 )Y + Y0 (ΠX − Π1 )0 (In − Π1 )Y
= Y0 (In − ΠX )Y + Y0 (ΠX − Π1 )(In − Π1 )Y
= Y0 (In − ΠX )Y + Y0 (ΠX − Π1 − Π1 + Π1 )Y
= Y0 (In − ΠX )Y + Y0 (ΠX − Π1 − Π1 + Π1 )Y
= Y0 (In − ΠX )Y + Y0 (ΠX − Π1 )Y
Xn n
X
= (Yi − Ŷi ) +
2
(Ŷi − Ȳ)2 .
i=1 i=1
On a alors
kΠX Y − Π1 Yk2
R2 = = cos2 θ,
kY − Π1 Yk2
17
Chapitre 1. Le modèle de régression linéaire simple
d’où
n
n n 1 X
ln L(β0 , β1 , σ2 , Y1 , . . . , Yn ) = − ln(2π) − ln σ2 − 2 (Yi − β0 − β1 xi )2 .
2 2 2σ i=1
n
i=1 ε̂i . L’estimateur du maximum de vraisemblance σ de σ est biaisé : on lui préfèrera
1 P 2 e2 2
n
en général σb2 .
18
1.5. Inférence sous hypothèse gaussienne
— 1
σ2
(β̂
− β)0 V −1 (β̂ − β) ∼ χ2 (2),
— β̂ et σb2 sont indépendants.
— Une région de confiance simultanée pour (β0 , β1 ) de niveau de confiance (1 − α) est donnée par
n
1 X
, β β̂ β 2
+ β̂ β β̂ β + 2
β̂ β 2
α) .
(β ), n( − ) 2nx̄( − )( − ) x ( − ) ≤ f (1 −
0 1
0 0 0 0 1 1 i 1 1
2,n−2
2σb2
i=1
Remarque : la région de confiance simultanée pour (β0 , β1 ) est une ellipse. On parlera parfois
d’ellipse de confiance.
19
Chapitre 1. Le modèle de régression linéaire simple
On peut ensuite prendre, pour un niveau α ∈]0, 1[, comme région de rejet ou région critique
dans le cas d’un test bilatère :
R(H0 ) = {y, |T0 (y)| ≥ tn−2 (1 − α/2)}.
Le test de significativité (H0 ) : β0 = 0 contre (H1 ) : β0 , 0 permet de tester l’utilité de la
constante β0 dans le modèle.
l’intérêt de l’introduction du R (et l’interprétation des cas limites pour les valeurs de R2 ).
2
Remarque : dans les sorties de logiciels, les p-valeurs des tests de significativité des variables
explicatives sont données, avec un "indice" de significativité des variables explicatives.
20
1.6. Exercices
1.6 Exercices
Exercice 1 : Questions de cours - QCM
2. La droite de régression calculée sur les observations passe par le point (x̄, ȳ). Est-ce toujours
le cas ?
a) Oui.
b) Non.
3. Les estimateurs des moindres carrés ordinaires des cœfficients de régression sont-ils indé-
pendants ?
a) Oui.
b) Non.
c) Pas toujours.
4. Est-il possible de trouver des estimateurs des cœfficients de régression de plus faible va-
riance que celle des estimateurs des moindres carrés ordinaires ?
a) Oui.
b) Non.
c) Peut-être.
5. Les estimateurs des moindres carrés ordinaires des cœfficients de régression sont-ils égaux
aux estimateurs du maximum de vraisemblance sous hypothèse gaussienne ?
a) Oui.
b) Non.
c) Pas toujours.
21
Chapitre 1. Le modèle de régression linéaire simple
p p
ε̂n+1 l’erreur de prédiction correspondante. La variance de ε̂n+1 est minimale lorsque :
a) xn+1 = 0.
b) xn+1 = x̄.
c) La variance ne dépend pas de la valeur de xn+1 .
9. Le coefficient de détermination R2 calculé sur les observations vaut 1. Les points (xi , yi )
sont-ils alignés ?
a) Oui.
b) Non.
c) Pas nécessairement.
10. Peut-on utiliser un test d’adéquation du khi-deux pour tester la normalité des variables
εi et Yi ?
a) Oui.
b) Non.
Dans ses premiers travaux sur l’hérédité, Francis Galton a cherché à mettre en évidence un
lien entre le diamètre de graines de pois de senteur et le diamètre moyen de leur descendance.
Il a mesuré pour cela le diamètre de 7 graines, et le diamètre moyen de leur descendance.
Les résultats qu’il a obtenus sont les suivants :
Déterminer les valeurs des estimateurs des moindres carrés ordinaires des cœfficients de
régression et des résidus de la régression linéaire simple correspondante calculés sur ces
observations. Représenter les observations, la droite de régression et les résidus calculés sur
un graphique.
On dispose des données Insee sur le prix relatif (indice 100 à 1970) et la consommation de
tabac (en grammes par adulte de plus de 15 ans et par jour) de 1951 à 2009. Les prix relatifs
étant notés xi pour i = 1 . . . 59 et les consommations correspondantes yi pour i = 1 . . . 59, on
a les résultats numériques suivants :
59
X 59
X 59
X 59
X 59
X
xi = 6806.5 x2i = 891776 xi yi = 35295.02 yi = 328.07 y2i = 1895.363.
i=1 i=1 i=1 i=1 i=1
22
1.6. Exercices
Déterminer les valeurs des estimateurs des moindres carrés ordinaires des cœfficients de
régression, de l’estimateur sans biais de la variance, et du cœfficient de détermination de la
régression linéaire simple correspondante calculés sur ces observations.
1. Déterminer ces estimateurs et montrer qu’ils sont égaux aux estimateurs des moindres
carrés ordinaires.
2. Quel résultat a-t-on retrouvé ici ?
Les données suivantes, publiées par Chicago Tribune en 1993, montrent la consommation de
confiseries en million de livres (variable Y) et la population en millions d’habitants (variable
X) dans 17 pays en 1991. On note yi la consommation et xi la population du ième pays,
i = 1 . . . , 17.
17
X 17
X 17
X 17
X 17
X
xi = 751.8 x2i = 97913.92 yi = 13683.8 y2i = 36404096.44 xi yi = 1798166.66
i=1 i=1 i=1 i=1 i=1
23
Chapitre 1. Le modèle de régression linéaire simple
1. Ecrire le modèle sous forme matricielle. Donner les expressions des estimateurs des MCO
β̂0 et β̂1 de β0 et β1 . Donner les valeurs de ces estimateurs calculés sur les observations.
2. Ecrire l’équation d’analyse de la variance et calculer le coefficient de détermination R2 .
3. Donner l’expression de l’estimateur sans biais σb2 de σ2 . Calculer sa valeur sur les observa-
tions.
Dans les questions qui suivent, on suppose les εi i.i.d. de loi N(0, σ2 ).
4. Déterminer les lois du vecteur aléatoire β̂ = (β̂0 , β̂1 ) et des variables marginales β̂0 et β̂1 .
5. Donner les expressions des estimateurs σ̂(β̂0 ) et σ̂(β̂1 ) des écart-types σ(β̂0 ) et σ(β̂1 ) de β̂0 et
β̂1 . Donner les valeurs de ces estimateurs calculés sur les observations.
6. Déterminer un intervalle de confiance à 95% pour β1 . Tester l’hypothèse nulle (H0 ) : β1 = 0
contre l’alternative (H1 ) : β1 , 0 au niveau 5%. Commenter.
7. Tester l’hypothèse nulle (H0 ) : β0 = 0 contre l’alternative (H1 ) : β0 , 0 au niveau 5%.
Commenter.
Yi = βxi + εi , i = 1, · · · , n,
où les bruits εi sont des variables aléatoires vérifiant les conditions standards de la régression
(à rappeler). On définit deux estimateurs de β :
Pn Pn
i=1 xi Yi Yi
β̂ = Pn 2 et β = Pi=1
∗
n
i=1 xi i=1 xi
On dispose des données issues du rapport publié par l’OMS en février 2011 sur la consom-
mation d’alcool dans le monde en projection pour l’année 2008 et de l’espérance de vie à la
naissance en 2009 pour 188 pays. Les consommations d’alcool (en L d’alcool pur par adulte
de plus de 15 ans pour l’année 2008) pour ces 188 pays sont notées xi pour i = 1 . . . 188. Les
espérances de vie à la naissance en 2009 sont notées pour les mêmes pays yi pour i = 1 . . . 188.
On a les résultats numériques suivants :
24
1.6. Exercices
188
X 188
X 188
X 188
X 188
X
xi = 1250.77 x2i = 12699.04 xi yi = 88858.02 yi = 12935 y2i = 907647.
i=1 i=1 i=1 i=1 i=1
1. Pour un modèle de régression linéaire simple complet, déterminer les valeurs des esti-
mateurs des moindres carrés ordinaires des cœfficients de régression et du cœfficient de
détermination calculés sur ces données.
2. Pour un modèle de régression linéaire simple sans constante, déterminer les valeurs de
l’estimateur des moindres carrés ordinaires du cœfficient de régression et du cœfficient de
détermination (défini dans l’exercice 6) calculés sur ces données.
3. Que constate-t-on ? Faut-il pour autant préférer le modèle de régression linéaire simple
sans constante au modèle de régression linéaire simple complet ?
25
Chapitre 1. Le modèle de régression linéaire simple
26
Chapitre 2
On cherche donc à généraliser le modèle précédent, en considérant non pas une mais plu-
sieurs variables explicatives.
On ne considère pas dans ce chapitre le caractère éventuellement aléatoire des variables
explicatives, quitte à conditionner sachant les valeurs de ces variables.
2.2 Modélisation
On introduit le modèle statistique suivant :
où
— p ≤ n,
— Yi est une variable aléatoire observée, appelée variable à expliquer,
27
Chapitre 2. Le modèle de régression linéaire multiple
— xi,0 , xi,1 , . . . , xi,p−1 sont des valeurs réelles déterministes appelées par extension directe
du cas aléatoire variables explicatives. Souvent xi,0 = 1 pour tout i = 1 . . . n, mais PAS
TOUJOURS.
— β0 , β1 , . . . , βp−1 sont des paramètres réels inconnus appelés paramètres de régression ou
cœfficients de régression,
— les εi sont des variables aléatoires, non observées, appelées erreurs ou bruits, aux-
quelles on impose certaines conditions complémentaires.
Les conditions standards imposées aux εi sont les conditions (C1 ) à (C3 ) vues dans le chapitre
précédent i.e.
— (C1 ) : E[εi ] = 0 pour tout i = 1 . . . n (centrage),
— (C2 ) : cov(εi , ε j ) = 0 pour tout i , j (non corrélation),
— (C3 ) : var(εi ) = σ2 (inconnue) pour tout i = 1 . . . n (homoscédasticité).
Y = Xβ + ε, (2.1)
avec
Y1 x1,0 . . . x1,p−1 β0 ε1
.. X = ... .. β = ... ..
Y = , , ε = .
. .
et .
Yn xn,0 . . . xn,p−1 βp−1 εn
Exemple des données de l’OMS sur l’espérance de vie : Yi = l’espérance de vie dans le ième
pays, xi,0 = le PIB, xi,1 = le revenu moyen par habitant, xi,2 = le budget consacré à la santé.
28
2.4. Estimateur des moindres carrés ordinaires
Exemple des données Insee : xi,3 = 1 si une loi anti-tabac a été votée au cours de l’année i, 0
sinon.
Exemple des données de l’OMS : , xi,3 = 1 si le pays est dans une zone géographique parti-
culière, 0 sinon, xi,4 = 1 si le pays est en guerre, 0 sinon...
Exemple des données Air Breizh : xi6 = 1 si le vent a pour direction l’est, 0 sinon, xi7 = 1 si
le vent a pour direction l’ouest, 0 sinon, xi8 = 1 si le vent a pour direction le nord, 0 sinon,
xi9 = 1 si le vent a pour direction le sud, 0 sinon, etc.
Exemple des données Cirad : xi,3 = 1 si l’eucalyptus i est situé dans le bloc A de la plantation,
0 sinon, xi,4 = 1 si l’eucalyptus i est situé dans le bloc B de la plantation, 0 sinon, etc.
2.3.4 Interactions
On peut envisager le cas où les variables explicatives interagissent entre elles. Ce phéno-
mène est modélisé par des produits des différentes variables. Ces interactions peuvent être
d’ordres variés.
Remarque : les modèles de régression linéaire multiple avec des variables explicatives qua-
litatives seront traités en cours d’ANOVA.
29
Chapitre 2. Le modèle de régression linéaire multiple
Définition 5. L’estimateur des moindres carrés ordinaires de β dans le modèle de régression linéaire
multiple (2.1) est défini par
p−1
2
n
X X
β̂ ∈ argmin β = argmin kY − Xβk2 ,
Yi − j xi, j
β∈Rp β∈R p
i=1 j=0
Le vecteur β̂ = (X0 X)−1 X0 Y est bien un point critique de L puisque ∇L(β̂) = 2X0 Xβ̂−2X0 Y = 0.
Ce point critique correspond à un minimum. En effet, la matrice hessienne de L en β̂ vaut
2X0 X qui est définie positive.
On introduit maintenant, comme pour la régression linéaire simple, le sous-espace vectoriel
E(X) de Rn engendré par les vecteurs colonnes de X. Par définition, Xβ̂ est un vecteur de
E(X) dont la distance euclidienne avec Y est la distance minimum entre Y et tout vecteur de
E(X). Par conséquent, si l’on note ΠX la matrice de projection orthogonale sur E(X), alors
Xβ̂ = ΠX Y. Là encore, on peut montrer que la matrice ΠX s’écrit aussi X(X0 X)−1 X0 , d’où
Xβ̂ = X(X0 X)−1 X0 Y, puis β̂ = (X0 X)−1 X0 Y.
Proposition 1. L’estimateur des MCO β̂ est un estimateur linéaire sans biais de β, dont la matrice
de variance covariance est donnée par
Preuve.
Puisque β̂ = (X0 X)−1 X0 Y, il s’agit bien d’un estimateur linéaire (en Y). De
plus, E[β̂] =
E[(X X) X Y] = (X X) X Xβ = β, donc β̂ est sans biais. Enfin, Var(β̂) = Var (X0 X)−1 X0 Y =
0 −1 0 0 −1 0
(X0 X)−1 X0 Var(Y)X(X0 X)−1 = (X0 X)−1 X0 σ2 In X(X0 X)−1 = σ2 (X0 X)−1 .
Thèorème 8 (Gauss Markov). L’estimateur β̂ des moindres carrés ordinaires est l’unique estimateur
linéaire sans biais de variance minimale parmi les estimateurs linéaires sans biais de β.
Preuve (sans l’unicité).
Soit β̃ un estimateur linéaire sans biais de β. β̃ s’écrit donc β̃ = AY, avec AXβ = β pour tout β
c’est-à-dire AX = Ip .
30
2.5. Valeurs ajustées, résidus
Puisque la matrice A(In − ΠX )A0 est symétrique réelle positive (rappel sur la relation d’ordre
partielle entre matrices symétriques réelles), on en conclut que β̂ est de variance minimale
parmi les estimateurs linéaires sans biais.
20
15
30 40 50 60 70
Circonférence à 1m30
Définition 6. Le vecteur aléatoire Ŷ = ΠX Y = X(X0 X)−1 X0 Y est appelé le vecteur des valeurs
ajustées.
Le vecteur ε̂ = Y − Ŷ = (In − ΠX )Y est appelé le vecteur des résidus.
La matrice ΠX est parfois appelée la matrice "chapeau" (hat matrix en anglais), et souvent notée dans
ce cas H. Ses cœfficients sont notés hi,j .
31
Chapitre 2. Le modèle de régression linéaire multiple
Proposition 3. Un estimateur sans biais de la variance σ2 est donné par σb2 =SCR/(n − p) =
kε̂k2 /(n − p).
SCE SCR
R2 = =1− .
SCT SCT
Le cœfficient de détermination sans constante R2sc est défini par :
SCEsc SCR
R2sc = =1− .
SCTsc SCTsc
Interprétations géométriques dans les deux cas. Interprétations des cas limites.
Conséquence : on ne peut pas utiliser ce critère comme critère de comparaison entre deux
modèles dont les nombres de variables explicatives diffèrent... Idée du R2 ajusté comme
critère de comparaison dans ce cas.
2.8 Prédiction
A partir d’une nouvelle valeur explicative xn+1 = (xn+1,0 , . . . , xn+1,p−1 ), on souhaite prédire une
nouvelle observation d’une variable Yn+1 = β0 xn+1,0 + . . . + βp−1 xn+1,p−1 + εn+1 = xn+1 β + εn+1 ,
32
2.9. Estimation par intervalles de confiance et tests d’hypothèses asymptotiques
avec E[εn+1 ] = 0, var(εn+1 ) = σ2 et cov(εn+1 , εi ) = 0 pour tout i = 1 . . . n i.e. Yn+1 non corrélée
avec les Yi , i = 1 . . . n, utilisées pour construire β̂.
p
Pour cela, on introduit Ŷn+1 = xn+1 β̂.
p p
L’erreur de prédiction est définie par ε̂n+1 = Yn+1 − Ŷn+1 (inconnue).
p
Elle est centrée, de variance égale à var(ε̂n+1 ) = var(xn+1 β + εn+1 − xn+1 β̂) = var(εn+1 ) +
xn+1 Var(β̂)x0n+1 = σ2 (1 + xn+1 (X0 X)−1 x0n+1 ).
2
p p
On remarque par ailleurs que : var(ε̂n+1 ) = E Yn+1 − Ŷn+1 appelée aussi erreur quadratique
moyenne de prédiction (EQMP), qu’on utilisera plus tard pour faire de la sélection de variables
ou de modèle.
33
Chapitre 2. Le modèle de régression linéaire multiple
1. Calcul de l’estimateur des MCO de β, β̂(n) à partir de Y(n) , puis du vecteur des résidus
ε̂(n) .
2. Tirage de n éléments notés (ε̂∗1 , . . . , ε̂∗n ), appelés résidus bootstrapés pris au hasard
avec remise dans {ε̂1 , . . . , ε̂n }.
3. A partir de ε̂∗ = (ε̂∗1 , . . . , ε̂∗n )0 , calcul de Y∗ = X(n) β̂(n) + ε̂∗ .
0
−1 0
4. Calcul de l’estimateur bootstrapé : β̂(n)∗ = X(n) X(n) X(n) Y∗ .
Si d désigne une distance sur les lois de probabilité, alors :
√ √ (P)
d L n β̂(n)∗ − β̂(n) |Y(n) , L n β̂(n) − β →n→+∞ 0.
√
Puisque les variables n β̂(n)∗ − β̂(n) se calculent à partir de Y(n) , on peut simuler empiri-
√ √
quement la loi L n β̂(n)∗ − β̂(n) |Y(n) qui "approche" la loi L n β̂(n) − β . On peut ainsi
déterminer des quantiles empiriques, etc.
34
2.10. Exercices
2.10 Exercices
Exercice 1 : Questions de cours
Y = Xβ + ε,
où le vecteur Y à valeurs dans Rn représente la variable à expliquer, X est une matrice réelle
de taille n × p de rang p, β ∈ Rp (inconnu) et ε est le vecteur des bruits à valeurs dans Rn .
1. Quelles sont les conditions standards imposées au vecteur des bruits ? Expliquer comment
l’analyse du modèle est facilitée par ces conditions.
2. Rappeler les définitions de l’estimateur des moindres carrés ordinaires de β, de la valeur
ajustée de Y, puis du vecteur des résidus. Quelle est l’interprétation géométrique de ces
vecteurs aléatoires ?
3. Proposer un calcul matriciel de l’estimateur des moindres carrés ordinaires, et préciser
les propriétés de cet estimateur. Retrouver à partir du calcul matriciel les estimateurs des
moindres carrés ordinaires obtenus lorsque le modèle est un modèle de régression linéaire
simple.
4. Le vecteur des résidus ε̂ a-t-il des propriétés analogues à celles de ε ?
5. Donner un estimateur naturel de la variance du modèle. Cet estimateur est-il sans biais ?
6. Peut-on prévoir l’évolution de la somme des carrés résiduelle avec l’ajout d’une variable
explicative au modèle ?
7. Préciser l’équation d’analyse de la variance et son interprétation géométrique.
8. Donner la définition du cœfficient de détermination R2 , ainsi que son interprétation géo-
métrique. Discuter des cas limites, et de l’utilisation du R2 comme mesure de la qualité
explicative du modèle.
9. Comment peut-on mesurer la qualité prédictive du modèle ?
10. Peut-on construire des régions de confiance pour β sans faire d’hypothèse sur la loi de ε ?
On reprend les données du Cirad présentées en cours, donnant 1429 mesures de la circonfé-
rence à 1 mètre 30 du sol et de la longueur du tronc d’eucalyptus d’une parcelle plantée. On
a représenté le nuage de points sur le graphique fourni en Annexe 1.1.
1. On cherche à expliquer la longueur du tronc d’un eucalyptus comme une fonction affine
de la circonférence du tronc, à une erreur aléatoire près.
a) Ecrire le modèle de régression correspondant, de façon analytique puis de façon vectorielle,
en veillant à bien poser les hypothèses.
b) Les valeurs calculées sur les observations des estimateurs des moindres carrés ordinaires
des cœfficients de régression sont égales à 9.04 et 0.26, celle du cœfficient de détermination
R2 à 0.7683, et celle de la somme des carrés résiduelle à 2051.457. Représenter la droite de
régression obtenue sur le graphique fourni.
2. On cherche maintenant à expliquer, à une erreur aléatoire près, la longueur du tronc
d’un eucalyptus comme une fonction linéaire des variables explicatives suivantes : 1, la
circonférence et la racine carrée de la circonférence.
35
Chapitre 2. Le modèle de régression linéaire multiple
b) Donner la valeur de l’estimateur des moindres carrés ordinaires β̂ de β calculé sur les
observations. Représenter sur le graphique fourni la courbe de régression obtenue.
c) Donner l’expression d’un estimateur σb2 sans biais de la variance du modèle. Donner les
valeurs de cet estimateur et d’un estimateur sans biais de la matrice de variance-covariance
de β̂ calculés sur les observations.
d) Calculer les valeurs de la somme des carrés expliquée puis du cœfficient de détermination
R2 sur les observations. Comparer ce dernier résultat à la valeur du R2 dans le modèle de
régression linéaire simple. Que peut-on en conclure ?
3. Quelle valeur peut-on prédire pour la longueur du tronc d’un eucalyptus dont la circon-
férence à 1m30 du sol est de 48cm dans chaque modèle ? Estimer la variance de l’erreur de
prédiction correspondante dans les deux modèles. Commenter les résultats.
Soit X une matrice n × p de rang p. Soit Ŷ le projeté orthogonal sur l’espace engendré par les
n
Pn de X d’un vecteur Y de R .
vecteurs colonnes
Montrer que i=1 (Yi − Ŷi ) = 0 si l’un des vecteurs colonnes de X est le vecteur 1 = (1, . . . , 1)0 .
Soit Z une matrice n × q de rang q, dont le premier vecteur colonne est 1, et X une matrice
n × p de rang p composée des q vecteurs colonnes de Z et de p − q autres vecteurs linéairement
indépendants (q ≤ p ≤ n). On considère les deux modèles de régression linéaire multiple
suivants :
Y = Zβ + ε
Y = Xβ̃ + ε̃,
Y = Xβ + ε,
36
2.10. Exercices
37
Chapitre 2. Le modèle de régression linéaire multiple
38
Chapitre 3
3.1 Introduction
Y = Xβ + ε,
avec
Y1 x1,0 . . . x1,p−1 β0 ε1
.. X = ... .. β = ... ..
Y = , , et ε = .
. .
.
Yn xn,0 . . . xn,p−1 βp−1 εn
La matrice du plan d’expérience X est supposée de plein rang, c’est-à-dire rang(X) = p. Cela
implique en particulier que la matrice symétrique X0 X est définie positive.
On souhaite maintenant faire de l’inférence statistique (non asymptotique) sous une hypo-
thèse usuelle :
— (C4 ) : ε est un vecteur gaussien.
39
Chapitre 3. Le modèle de régression linéaire multiple sous hypothèse gaussienne
d’où
n n 1
ln L(β, σ2 , Y1 , . . . , Yn ) = − ln(2π) − ln σ2 − 2 kY − Xβk2 .
2 2 2σ
La fonction (β, σ2 ) 7→ ln L(β, σ2 , Y , . . . , Yn ) admet un seul point critique (β̃, σe2 ) tel que
1
kY − Xβ̃k2 kε̂k2 n − p b2
β̃ = β̂ = (X0 X)−1 X0 Y, et σe2 = = = σ .
n n n
On vérifie facilement que ce point critique correspond bien à un maximum.
Thèorème 11. Sous les conditions (C1 ) à (C4 ), les estimateurs β̂ et σb2 vérifient :
— Pour toute matrice réelle M de taille q × p de rang q (q ≤ p), alors
h i
Mβ̂ ∼ N Mβ, σ2 M(X0 X)−1 M0 ,
et
1 h i0 h
−1 0 −1
i h i
M( β̂ − β) M(X 0
X) M M(β̂ − β) ∼ χ2 (q).
σ2
— (n − p)σb2 /σ2 ∼ χ2 (n − p).
— Les estimateurs β̂ et σb2 sont indépendants.
Preuve : Application directe des propriétés de base des vecteurs gaussiens puis du théorème
de Cochran.
On a : β̂ = (X0 X)−1 X0 (Xβ + ε) = β + (X0 X)−1 X0 ε, d’où Mβ̂ = Mβ + M(X0 X)−1 X0 ε. Puisque ε ∼
N(0, σ2 In ) on a bien Mβ̂ ∼ N(Mβ, σ2 M(X0 X)−1 X0 [M(X0 X)−1 X0 ]0 ) = N(Mβ, σ2 M(X0 X)−1 M0 ),
puis
h i0 h i−1 h i
M(β̂ − β) σ2 M(X0 X)−1 M0 M(β̂ − β) ∼ χ2 (q).
40
3.4. Intervalles et régions de confiance pour les paramètres - Intervalles de prédiction
β̂ j − β j
q ∼ T (n − p).
σ (X X) j+1, j+1
b2
0 −1
Corollaire 2. Sous les conditions (C1 ) à (C4 ), si M est une matrice réelle de taille q × p de rang q
(q ≤ p),
1 h i0 h i−1 h i
M(β̂ − β) M(X0 X)−1 M0 M(β̂ − β) ∼ F (q, n − p).
qσb2
On peut ensuite à partir du Corollaire 2 construire une région de confiance pour m = Mβ, où
M est une matrice réelle de taille q × p de rang q (q ≤ p).
Proposition 6. Soit α ∈]0, 1[. On note fq,n−p (u) le u-quantile de la loi F (q, n − p).
Une région de confiance de niveau de confiance (1 − α) pour m = Mβ est donnée par :
q 1 h i0 h i−1 h i
Î(M) = , β̂ 0 −1 0
β̂ α) .
m ∈ M − m M(X M M − m ≤ f (1 −
R X) q,n−p
qσb2
41
Chapitre 3. Le modèle de régression linéaire multiple sous hypothèse gaussienne
Thèorème 12. Un intervalle de prédiction pour Yn+1 de niveau de confiance (1 − α) est donné par
" q q #
p p p
In+1
b = Ŷn+1 − tn−p (1 − α/2) σ2 (1 + xn+1 (X0 X)−1 xn+1 ); Ŷn+1 + tn−p (1 − α/2) σ2 (1 + xn+1 (X0 X)−1 xn+1 ) .
b 0 b 0
β̂ j
T(Y) = q ,
σ (X X) j+1, j+1
b2
0 −1
Il est aussi possible d’utiliser directement les intervalles de confiance construits ci-dessus
pour retrouver ce résultat : si 0 < Î j , on rejette l’hypothèse (H0 ) : β j = 0 au profit de l’alterna-
tive (H1 ) : β j , 0.
42
3.5. Tests d’hypothèses sur les cœfficients de régression
1 h i0 h i−1 h i
F(Y) = Mβ̂ − m M(X0 X)−1 M0 Mβ̂ − m ,
qσb2
Exemples :
— Test de nullité d’un cœfficient ou test de (non) significativité d’une variable explicative.
En prenant la matrice M = (0 . . . 0 1 0 . . . 0) égale au vecteur ligne ne contenant que
des 0 sauf le (j + 1)ème élément qui vaut 1, on obtient la statistique :
β̂2j
F(Y) = = T(Y)2 ,
σb2 [(X0 X)−1 ] j+1,j+1
sachant qu’une loi de Fisher à (1, n − p) degrés de liberté est exactement la loi du carré
d’une variable de loi de Student à n − p degrés de liberté.
On retouve donc précisément le test introduit dans le paragraphe précédent.
— Test de nullité simultanée de plusieurs cœfficients c’est-à-dire de (H0 ) : β j1 = . . . =
β jq = 0 contre (H1 ) : il existe k ∈ {1, . . . , q} tel que β jk , 0 (j1 ≤ . . . ≤ jq ), ou test de
validité du sous-modèle
Y = X(p−q) β(p−q) + ε(p−q) ,
où X(p−q) est la matrice formée des p − q vecteurs colonnes de X dont on aura retiré
les colonnes j1 , . . . , jq , β(p−q) est un vecteur de Rp−q , et où ε(p−q) ∼ N(0, σ2 In ).
Choix de la matrice M : Mk,l = δlj .
k
— Dans le cas où xi,0 = 1 pour tout i, test de (H0 ) : β1 = . . . = βp−1 = 0 contre (H1 ) : il
existe k ∈ {1, . . . , p − 1} tel que βk , 0, ou test de validité globale du modèle (complet).
On choisit :
0 1 0 0 . . . 0
0 0 1 0 . . . 0
M = .
...
0 0 0 0 ... 1
43
Chapitre 3. Le modèle de régression linéaire multiple sous hypothèse gaussienne
Thèorème 13. - Le test du rapport de vraisemblance maximale de niveau α de l’hypothèse nulle (H0 ) :
Mβ = m contre l’alternative (H1 ) : Mβ , m a comme région critique l’ensemble R(H0 ) = {y, F̃(y) >
fq,n−p (1 − α)}, avec
kXβ̂ − Xβ̂(M) k2 /q kY − Xβ̂(M) k2 − kY − Xβ̂k2 /q
F̃(Y) = = . (3.1)
kY − Xβ̂k2 /(n − p) kY − Xβ̂k2 /(n − p)
β̂(M) est l’estimateur des moindres carrés ordinaires de β sous la contrainte Mβ = m. Il est donné par
h i−1
β̂(M) = β̂ + (X0 X)−1 M0 M(X0 X)−1 M0 (m − Mβ̂).
- La statistique du test du rapport de vraisemblance maximale F̃(Y) définie par (3.1) est égale à la
statistique de test F(Y). Le test du rapport de vraisemblance maximale est donc équivalent au test
construit intuitivement.
Preuve. On considère le test du rapport de vraisemblance maximale de l’hypothèse nulle
(H0 ) : Mβ = m contre l’alternative (H1 ) : Mβ , m, basé sur la statistique de test :
Mβ̂(M) − m = 0
44
3.5. Tests d’hypothèses sur les cœfficients de régression
ou encore :
h i−1
β̂(M) = β̂ + (X0 X)−1 M0 M(X0 X)−1 M0 (m − Mβ̂).
On a enfin
!n/2
n n
sup(β,σ2 )∈Rp × R+ ,Mβ=m L(β, σ , Y1 , . . . , Yn ) =
2
exp − .
2πkY − Xβ̂(M) k2 2
!n/2
kY − Xβ̂k2
ρ(Y) = .
kY − Xβ̂(M) k2
Le test du rapport de vraisemblance maximale de (H0 ) contre (H1 ) a une région critique de
la forme {y, ρ(y) < ρα }, ce qui est équivalent à rejeter (H0 ) lorsque
Il s’agit maintenant de montrer que kY − Xβ̂(M) k2 − kY − Xβ̂k2 = kXβ̂ − Xβ̂(M) k2 , puis que
On considère le sous-espace affine (vectoriel si m = 0) de E(X) défini par E(M) = {Xβ, Mβ = m}.
On a alors la décomposition suivante :
⊥
M
E (M)⊥
= E(X) ⊥
E(X) ∩ E(M)⊥ .
45
Chapitre 3. Le modèle de régression linéaire multiple sous hypothèse gaussienne
(SCR(M) − SCR)/q
F(Y) = ,
SCR/(n − p)
où SCR(M) est la somme des carrés résiduelle dans le sous-modèle, SCR la somme des carrés
résiduelle dans le modèle complet.
Si xi,0 = 1 pour tout i, et j1 ≥ 1, on peut aussi écrire :
46
3.6. Exercices
3.6 Exercices
Y = Xβ + ε,
où le vecteur Y à valeurs dans Rn représente la variable à expliquer, X est une matrice réelle
de taille n × p de rang p, β = (β0 , . . . , βp−1 )0 ∈ Rp (inconnu) et ε est le vecteur des bruits
aléatoires à valeurs dans Rn .
On pose pour le vecteur des bruits ε les conditions standards du modèle de régression
linéaire multiple, ainsi qu’une hypothèse gaussienne.
1. Comment cette hypothèse gaussienne se formule-t-elle ?
2. Quelles conditions impose-t-elle sur les variables εi et Yi ?
3. Les estimateurs du maximum de vraisemblance de β et σ2 sont-ils sans biais ? Expliquer.
4. Quelle est la loi de ces estimateurs ? Sont-ils indépendants ?
5. Le produit des intervalles de confiance (individuels) de niveau de confiance 1 − α pour les
β j ( j = 0 . . . p − 1) correspond-il à la région de confiance simultanée de niveau de confiance
(1 − α) pour β ? Justifier la réponse.
6. Montrer que le test de Student de nullité d’un cœfficient de régression β j est équivalent au
test du rapport de vraisemblance maximale correspondant.
7. Montrer que la statistique du test du rapport de vraisemblance maximale permettant de
tester la validité globale du modèle peut s’écrire en fonction du cœfficient de détermination
R2 .
8. Peut-on tester la validité de n’importe quel sous-modèle à partir des intervalles de
confiance individuels pour les β j (j = 0 . . . p − 1) ?
9. Peut-on tester la validité d’un sous-modèle à partir des valeurs des cœfficients de dé-
termination calculés sur les observations dans le modèle complet et dans le sous-modèle ?
Expliquer.
10. Imaginer une procédure de sélection de variables explicatives basée sur les tests de
validité de sous-modèles.
47
Chapitre 3. Le modèle de régression linéaire multiple sous hypothèse gaussienne
où les xi, j , j = 1, 2, 3, sont déterministes, et le vecteur des εi est un vecteur gaussien centré de
matrice de variance covariance σ2 In .
En posant :
et en notant y l’observation de Y, on a
50 0 0 0 100
0 20 15 4 50
X0 X = , X0 y = , y0 y = 640.
0 15 30 10 40
0 4 10 40 80
On admettra que
−1
20 15 4 1100 −560 30
1
15 30 10 = −560 784 −140 .
13720
4 10 40 30 −140 375
1. Donner la valeur de n.
2. Interpréter les 0 de la matrice X0 X.
3. Estimer les paramètres β0 , β1 , β2 , β3 par la méthode du maximum de vraisemblance
et donner un estimateur sans biais de σ2 . Quelle est la loi des estimateurs obtenus ? Ces
estimateurs sont-ils indépendants ?
4. Donner les valeurs de ces estimateurs calculés sur les observations.
5. Donner un intervalle de confiance de niveau de confiance 95% pour σ2 .
6. Tester la validité globale du modèle au niveau 5%.
7. Construire un test de niveau 5% de l’hypothèse (H0 ) : β3 = 0 contre (H1 ) : β3 , 0 de deux
façons différentes. Que peut-on conclure ?
8. Construire un test de niveau 5% de l’hypothèse (H0 ) : β3 = −4β2 contre (H1 ) : β3 , −4β2 de
deux façons différentes. Que peut-on conclure ?
9. On suppose que l’on dispose de nouvelles valeurs xn+1,1 = 1, xn+1,2 = −1 et xn+1,3 = 0.5.
Donner un intervalle de prédiction de niveau de confiance 95% pour la variable Yn+1 telle
que Yn+1 = β0 + β1 xn+1,1 + β2 xn+1,2 + β3 xn+1,3 + εn+1 , avec (ε1 , . . . , εn+1 ) ∼ N(0, σ2 In+1 ).
48
3.6. Exercices
Yi = β0 + β1 xi + β2 x2i + εi , 1 ≤ i ≤ n,
où les xi sont déterministes, et les εi sont des variables aléatoires i.i.d. de loi gaussienne
centrée de variance σ2 .
On observe les valeurs :
i 1 2 3 4 5 6 7 8 9 10 11
xi −5 −4 −3 −2 −1 0 1 2 3 4 5
yi −3.37 −2.11 −2.24 1.59 3.28 3.96 6.42 8.57 10.71 14.32 15.91
Yi = β0 xi + β1 cos(xi ) + εi , −n ≤ i ≤ n (n ≥ 1),
où xi = iπ/n et les εi sont des variables aléatoires i.i.d. de loi gaussienne centrée de variance σ2 .
1. Vérifier que
n n
X X π2 (n + 1)(2n + 1)
cos2 (xi ) = n + 1 et x2i = .
3n
i=−n i=−n
49
Chapitre 3. Le modèle de régression linéaire multiple sous hypothèse gaussienne
Y = Xβ + ε,
avec β = (β0 , β1 , β2 )0 .
Remarque : on considère ici que les variables explicatives Pi et Vi sont déterministes.
1. Préciser Y, X, ε et les hypothèses faites sur ε. Ces hypothèses sont-elles standards ?
2. On suppose que X est de plein rang avec
1.38783 −0.23195 −0.03336
(X0 X)−1 = −0.23195 0.04608 −0.01167
−0.03336 −0.01167 0.04535
Oi = β + βT6 T6,i + βT9 T9,i + βT12 T12,i + βN6 N6,i + βN12 N12,i + βV Vi + εi pour i ∈ {1, . . . , n},
Question préliminaire. Écrire le modèle de façon matricielle et rappeler les conditions impo-
sées aux variables Oi .
50
3.6. Exercices
On a lancé sur les données fournies par Air Breizh une procédure de régression linéaire à
l’aide du logiciel R (fonction lm), et on a obtenu la sortie suivante :
Coefficients :
Estimate Std. Error t value Pr(>|t|)
(Intercept) 63.1193 3.5993 ??? < 2e-16 ***
T6 -1.6338 ??? -5.171 2.74e-07 ***
T9 0.2184 0.4863 0.449 ??? ???
T12 2.6335 0.3299 ??? ??? ???
N6 -0.1585 0.2482 -0.639 0.523
N12 -2.2416 0.3134 -7.153 1.49e-12 ***
V 1.1124 0.1624 6.850 1.18e-11 ***
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 16.97 on 1179 degrees of freedom
Multiple R-Squared: 0.488, Adjusted R-squared: 0.4854
F-statistic: ??? on ??? and ??? DF, p-value: < 2.2e-16
On souhaite expliquer la longueur du tronc d’un eucalyptus (en m) d’une parcelle plantée à
partir de sa circonférence à 1m30 du sol (en cm). On dispose pour cela de n observations, et
on introduit le modèle de régression linéaire multiple :
√
Yi = β0 + β1 xi + β2 xi + εi pour i ∈ {1, . . . , n},
Question préliminaire. Ecrire le modèle de façon matricielle et rappeler les conditions impo-
sées aux variables Yi .
On a lancé sur les données fournies par le Cirad, à l’aide du logiciel SAS (PROC REG), une pro-
cédure de régression linéaire multiple, puis deux procédures de régression linéaires simples,
avec comme seule variable explicative : soit la circonférence à 1m30, soit la racine carrée de
cette circonférence. On a obtenu les sorties fournies en Annexe 1.2.
51
Chapitre 3. Le modèle de régression linéaire multiple sous hypothèse gaussienne
52
Chapitre 4
4.1 Introduction
On rappelle l’expression vectorielle du modèle de régression linéaire multiple (p ≤ n) :
Y = Xβ + ε,
avec
Y1 x1,0 . . . x1,p−1 β0 ε1
.. X = ... .. β = ... ..
Y = , , et ε = .
. .
.
Yn xn,0 . . . xn,p−1 βp−1 εn
La matrice du plan d’expérience X est supposée de plein rang, c’est-à-dire rang(X) = p. Cela
implique en particulier que la matrice symétrique X0 X est définie positive.
Dans ce chapitre, on s’interroge dans un premier temps sur la pertinence du modèle de façon
globale. Plus précisément, on se pose les questions fondamentales suivantes :
1. La relation E[Y] = Xβ est-elle bien vérifiée (choix des variables explicatives, linéarité,
bruits centrés i.e. (C1 ) satisfaite) ?
2. Les bruits sont-ils bien non-corrélés ((C2 ) satisfaite) ?
3. Les bruits sont-ils bien homoscédastiques ((C3 ) satisfaite) ?
4. Le vecteur des bruits est-il bien de loi gaussienne ((C4 ) satisfaite) ?
53
Chapitre 4. Détection (et correction) des écarts au modèle
Remarque : on ne se penche pas ici sur la pertinence de l’hypothèse que X est de plein rang,
qui est vérifiable directement. On peut d’ailleurs remédier au problème dans le cas contraire
ou dans un cas "presque" contraire ,→ régressions biaisées - ridge, LASSO, régression sur
composantes principales, PLS, etc.
Dans un second temps, on se pose la question suivante : y a-t-il des observations "remar-
quables" ou "suspectes", mettant éventuellement en cause le modèle, ou en tout cas sur
lesquelles l’attention devra se porter précisément ?
Rappel. Propriétés des résidus sous les hypothèses (C1 ) à (C3 ) : E[ε̂] = 0, Var(ε̂) = σ2 (In − ΠX ).
De plus, ε̂ et Ŷ sont non corrélés. Sous l’hypothèse (C4 ), le vecteur ε̂ suit en plus une loi
gaussienne.
On notera dans ce cours H ("hat matrix") la matrice de projection ΠX , et ses éléments hi,k ,
1 ≤ i ≤ n, 1 ≤ k ≤ n.
ε̂i
Ti = q .
σ (1 − hi,i )
b2
Remarque : les résidus studentisés ne sont pas indépendants (à cause de σb2 ) et sont peu
robustes à des erreurs grossières sur la ième observation (à cause de l’estimation de σ2 par
σb2 ). On préfère donc en général utiliser les résidus studentisés par validation croisée.
Définition 9. On désigne par résidus studentisés par validation croisée les variables définies
par :
Yi − xi βc(i)
Ti∗ = q ,
σ(i) (1 + xi (X(i) X(i) ) xi )
c2 0 −1 0
54
4.2. Analyse des résidus
où xi est le ième vecteur ligne de la matrice X, X(i) correspond à la matrice X dont on a supprimé la
ième ligne, βc (i) est l’estimateur des moindres carrés ordinaires de β et σ est l’estimateur sans biais
c2
(i)
de la variance, obtenus tous deux après suppression de la ième observation.
ε̂i
Ti∗ = q .
σ(i) (1 − hi,i )
2
c
3. Sous les hypothèses (C1 ) à (C4 ), si X(i) est de rang p, alors les Ti∗ sont i.i.d. de loi T (n − p − 1).
Preuve. Pour la troisième propriété, on montre que Ti∗ correspond à la statistique d’un test
de validité d’un sous-modèle.
Remarque : La deuxième propriété permet de voir que les fortes valeurs de Ti seront encore
mieux repérées sur les Ti∗ , et qu’en pratique, pour avoir t∗i , on n’aura pas besoin de relancer
une procédure d’estimation par moindres carrés ordinaires en supprimant la ième observa-
tion.
55
Chapitre 4. Détection (et correction) des écarts au modèle
Retour sur la signification du résidu : utilisation pour la détection de données mal ajustées
par le modèle, i.e. isolées en la variable à expliquer Y.
Définition 11. Soit α ∈]0, 1[. La donnée (xi , yi ) est dite aberrante au niveau α si |t∗i | > tn−p−1 (1 −
α/2).
56
4.4. Mesures d’influence
Deux exemples de mesures d’influence basées sur l’estimation β̂(i) après suppression de la
ième observation.
L’influence de la ième donnée peut être mesurée par le décentrage de cet ellipsoïde après
suppression de cette donnée.
Définition 13. La distance de Cook pour la ième donnée est définie par :
Proposition 10.
1 hi,i 1 hi,i
Ci = T2 = ε̂2 .
p 1 − hi,i i p (1 − h )2 σb2 i
i,i
57
Chapitre 4. Détection (et correction) des écarts au modèle
Cook suggère de comparer chaque valeur observée de Ci aux quantiles de niveaux 0.1 à 0.5
d’une loi de Fisher à (p, n − p) degrés de liberté, bien que les Ci ne suivent pas exactement
cette loi (ce n’est pas un test exact !).
Interprétation d’une valeur observée de Ci élevée :
— Soit t2i élevée : donnée aberrante,
— soit hi,i /(1 − hi,i ) élevée : donnée ayant un effet levier,
— soit les deux.
58
4.5. Correction des écarts au modèle
(M) : Y = Xβ + ε,
où Y est un vecteur aléatoire à valeurs dans Rn , X une matrice de plan d’expérience de taille
n × p et de rang p, mais où le vecteur des bruits ε vérifie les conditions suivantes :
— (C1 ) : E[ε] = 0,
— (C02 ) : Var(ε) = σ2 Ω, Ω étant une matrice symétrique définie positive connue, différente
de In .
Exemples :
1. Régression pondérée : Ω = diag(w21 , . . . , w2n ). Les bruits sont non corrélés mais hété-
roscédastiques.
2. Bruits suivant un processus AR(1) (auto-régressif d’ordre 1) : εt = ϕεt−1 + ηt , avec
|ϕ| < 1, E[ηt ] = 0, cov(ηi , ηk ) = σ2 δki . Alors
1 ϕ ϕ2 . . . ϕn−1
ϕ 1 ϕ . . . ϕn−2
1 ϕ2 ϕ 1 . . . ϕn−3
Ω= .
1 − ϕ2 .. .. .. ..
..
. . . . .
ϕn−1 ϕn−2 ϕn−3 ... 1
(M∗ ) : Y∗ = X∗ β + ε∗ .
Ce nouveau modèle (M∗ ) vérifie les conditions standards d’un modèle de régression linéaire
multiple et la matrice X∗ est de rang p.
59
Chapitre 4. Détection (et correction) des écarts au modèle
Le calcul de l’estimateur des MCO dans ce nouveau modèle donne ce qu’on appelle l’esti-
mateur des moindres carrés généralisés β̂MCG .
Définition 15. L’estimateur des moindres carrés généralisés (ou estimateur d’Aitken) est
défini par
β̂MCG = (X0 Ω−1 X)−1 X0 Ω−1 Y.
Remarque : la matrice P n’est pas unique. On peut prendre par ex. la matrice racine carrée
de Ω (obtenue par diagonalisation de Ω), mais aussi la racine carrée de Ω multipliée par
une matrice Q orthogonale quelconque. Peu importe : le choix de P n’intervient pas dans
l’expression de l’estimateur des moindres carrés généralisés...
Propriétés : β̂MCG est un estimateur linéaire sans biais, de variance σ2 (X0 Ω−1 X)−1 . Par le
théorème de Gauss-Markov appliqué dans le modèle (M∗ ), on peut montrer que β̂MCG est de
variance minimale parmi les estimateurs linéaires sans biais de β.
Enfin, l’estimateur défini par
Remarque de conclusion : si le modèle ne peut finalement pas être amélioré, on aura recours
à des procédures d’estimation robuste afin de réduire l’influence des données "suspectes",
ou des procédures de régression non paramétrique.
Yi − xi βc(i)
Ti∗ = q ,
σ(i) (1 + xi (X(i) X(i) ) xi )
2
c 0 −1 0
60
4.6. Exercice : Compléments / questions de cours
où βc
(i) et σ(i) sont respectivement l’estimateur des moindres carrés ordinaires de β et l’esti-
c2
2. Distance de Cook.
a) Montrer que βc(i) = β̂ − 1−hi,i (X X) xi (Yi − xi β̂). Quel est l’impact sur la valeur de β̂ de la
1 0 −1 0
(β̂ − βc
(i) ) X X(β̂ − β(i) )
0 0 c
Ci =
pσb2
1 hi,i 1 hi,i
Ci = Ti2 = ε̂2 .
p 1 − hi,i p (1 − h )2 σb2 i
i,i
3. Effet levier.
Montrer que P
P P = hi,i = p,
— tr(H)
— i k h2i,k = p,
— 0 ≤ hi,i ≤ 1 pour tout i,
— −0.5 ≤ hi,k ≤ 0.5 pour tout k différent de i,
— si hi,i = 1 ou 0, alors hi,k = 0 pour tout k différent de i.
Que peut-on déduire de ces propriétés ?
61
Chapitre 4. Détection (et correction) des écarts au modèle
62
Chapitre 5
Sélection de variables
5.1 Introduction
Dans ce chapitre, on s’intéresse à la question du choix de la matrice du plan d’expérience
pour le modèle de régression linéaire, c’est-à-dire à celle du choix des variables explicatives.
On suppose ici que l’on a un modèle de régression linéaire multiple exact à p variables
explicatives (p ≤ n) :
Y = Xβ + ε,
avec
Y1 x1,0 . . . x1,p−1 β0 ε1
.. X = ... .. β = ... ..
Y = , , et ε = .
. .
.
Yn xn,0 . . . xn,p−1 βp−1 εn
63
Chapitre 5. Sélection de variables
Définition 16. L’erreur quadratique moyenne associée au sous-modèle (Mξ ) est définie par
h i
EQM(ξ) = E kXβ − Xξ βbξ k2 .
Remarque : valable si le choix de ξ n’est pas basé sur les données utilisées pour estimer βξ .
Etude dans un cas simple, tendance fréquente des termes de biais et de variance : le meilleur
ξ, noté ξ∗ , serait celui qui réalise le meilleur compromis biais-variance.
Mais EQM(ξ) est inconnue (donc ξ∗ est inaccessible, on parle d’"oracle") ⇒ nécessité de
construire des critères facilement accessibles, ou d’estimer EQM(ξ).
64
5.3. Critères de sélection de variables
Définition 17. L’erreur quadratique moyenne de prédiction associée au sous-modèle (Mξ ) est
définie par h i
EQMP(ξ) = E (Yn+1 − x0n+1,ξ βbξ )2 .
SCR(ξ− ) − SCR(ξ)
R2 (ξ) − R2 (ξ− ) =
SCT
kΠXξ Yk2 − kΠXξ− Yk2
= par Pyhtagore
SCT
kΠXξ− ΠXξ Y + (I − ΠXξ− )ΠXξ Yk2 − kΠXξ− Yk2
=
SCT
k(I − ΠXξ− )ΠXξ Yk2
= .
SCT
Ainsi le cœfficient de détermination R2 (ξ) est supérieur à R2 (ξ− ) : le cœfficient de détermi-
nation décroît à la suppression d’une variable explicative.
Choisir le (sous)-modèle dont la somme des carrés résiduelle est la plus petite ou dont le R2
est le plus grand revient donc à choisir le modèle complet : la somme des carrés résiduelle
et le R2 sont donc globalement de mauvais critères de sélection de variables.
Ils restent cependant utiles pour choisir entre deux modèles ayant le même nombre de va-
riables explicatives.
65
Chapitre 5. Sélection de variables
Cp de Mallows
Définition 19. Le critère du Cp introduit par Mallows en 1973 est défini par :
SCR(ξ)
Cp (ξ) = − n + 2|ξ|.
σb2
Représentation graphique de Cp (ξ).
Proposition 12. Si ξ ne dépend pas de Y, σb2 Cp (ξ) est un estimateur sans biais de EQM(ξ).
Important : on utilise donc ce critère sur un autre jeu de données que celui utilisé pour
l’estimation...
Choisir un modèle qui minimise le critère du Cp dans ces conditions revient alors à choisir
un modèle qui en moyenne à une erreur quadratique moyenne minimale.
On remarque enfin que si le sous-modèle (Mξ ) est correct, et si ξ ne dépend pas de Y, SCR(ξ)
estime sans biais (n − |ξ|)σ2 et Cp (ξ) ' |ξ|. Par conséquent, une règle usuelle est de retenir un
sous-modèle (Mξ ) si Cp (ξ) ≤ |ξ|.
p−1
X X
σb2 Cp (ξ) = (β̂2j − σb2 ) − (β̂2j − 2σb2 ).
j=0 j∈ξ
A |ξ| fixé, choisir le sous-modèle dont le Cp est minimum revient à choisir le modèle dont
les paramètres estimés sont les plus grands en valeur absolue : ce plénomène est appelé biais
de sélection ⇒ idée du shrinkage, EMCO sous contrainte de norme (régressions ridge, PLS,
lasso...).
66
5.3. Critères de sélection de variables
Remarque : une variante consiste à réduire par la variance estimée dans le modèle complet
(plus pratique pour la mise en œuvre d’une méthode ascendante !).
67
Chapitre 5. Sélection de variables
68
5.6. Exercices
On réitère ensuite cette étape en partant du modèle retenu, jusqu’à ce qu’on ne puisse plus
supprimer de variable ou lorsqu’un certain seuil est atteint par la p valeur du test.
5.6 Exercices
Exercice 1 : Analyse de sorties R - Données Air Breizh
(données pour la seule année 1994, année durant laquelle certains capteurs étaient en panne)
sous les conditions standards et sous hypothèse gaussienne.
On fournit en Annexe 1.3 plusieurs résultats graphiques obtenus après mise en œuvre de la
régression via la fonction lm du logiciel R. Le nuage de points correspondant, avec la droite
de régression obtenue sont représentés sur la figure 1. Les résidus studentisés sont ensuite
représentés sur la figure 2 en fonction du jour, puis en fonction des valeurs ajustées. Les
éléments diagonaux de la matrice de projection H sont représentés sur la figure 3 ainsi que
la distance de Cook.
Que peut-on conclure de ces graphes ?
69
Chapitre 5. Sélection de variables
Oi = β + βT6 T6,i + βT9 T9,i + βT12 T12,i + βN6 N6,i + βN12 N12,i + βV Vi + ηi pour i ∈ {1, . . . , 1186},
pour 1186 données ne comprenant pas celles de l’année 1994 sous les conditions standards
et sous hypothèse gaussienne.
a) Après mise en œuvre de cette régression via la fonction lm du logiciel R, on a obtenu les
résultats suivants :
Coefficients :
Estimate Std. Error t value Pr(>|t|)
(Intercept) 63.1193 3.5993 17.537 < 2e-16 ***
T6 -1.6338 0.3160 -5.171 2.74e-07 ***
T9 0.2184 0.4863 0.449 0.653
T12 2.6335 0.3299 7.983 3.37e-15 ***
N6 -0.1585 0.2482 -0.639 0.523
N12 -2.2416 0.3134 -7.153 1.49e-12 ***
V 1.1124 0.1624 6.850 1.18e-11 ***
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 16.97 on 1179 degrees of freedom
Multiple R-Squared: 0.488, Adjusted R-squared: 0.4854
F-statistic: 187.3 on 6 and 1179 DF, p-value: < 2.2e-16
AIC: 10091.10, BIC: 10131.73.
Rappeler le résultat du test de validité globale du modèle au niveau 5%.
b) On a effectué les différentes régressions pour tous les sous-modèles possibles (avec la
constante), et on a obtenu les résultats présentés dans les tables de l’Annexe 1.4.
Tester la validité du sous-modèle obtenu en supprimant les variables non significatives au
niveau 5%. Décrire le test de façon détaillée, en justifiant la statistique de test.
À l’aide des différentes méthodes algorithmiques de sélection de variables, sur la base des
critères présentés dans les tables, proposer une sélection de variables explicatives.
On étudie des données, publiées par Chicago Tribune en 1993, montrant la consommation
de confiseries en millions de livres (variable Y) et la population en millions d’habitants
(variable X) dans 17 pays en 1991. On note yi la consommation et xi la population du ième
pays, i = 1 . . . , 17. On obtient les résultats donnés à la fin de l’exercice avec :
X X X X X
xi = 751.8 x2i = 97913.92 yi = 13683.8 y2i = 36404096.44 xi yi = 1798166.66
70
5.6. Exercices
2. On considère maintenant le modèle sans constante Yi = βxi + εi , avec εi i.i.d. de loi N(0, σ2 ),
et on cherche à diagnostiquer d’éventuels écarts au modèle. Pour cela, on met en œuvre la
procédure REG de SAS, avec les options influence et r, avec toutes les observations dans un
premier temps, on retirant deux observations dans un second temps. On obtient les sorties
fournies dans l’Annexe 1.5.
Que peut-on conclure de ces sorties ?
71
Chapitre 5. Sélection de variables
72
Chapitre 6
Annales corrigées
Dans un article de recherche économique publié le 1er avril 2010 par Natixis, on étudie les
effets de l’américanisation sur la croissance moyenne du PIB de 47 pays, entre 1996 et 2007
(avant la crise). Les indicateurs de l’américanisation retenus pour cette étude sont notamment
73
Chapitre 6. Annales corrigées
P = Xβ + ε,
74
6.1. Examens partiels
a) Est-il surprenant que la valeur du R2 dans les modèles (M(1) ) et (M(2) ) soit inférieure à
celle du modèle complet (M) défini ci-dessus ? Expliquer.
b) En première analyse, quel modèle choisirait-on de considérer ? Justifier précisément la
réponse.
6. On souhaite construire un intervalle de prédiction de niveau de confiance 95% pour la
croissance moyenne du PIB d’un pays dont la consommation de Coca-Cola est de 300 Ounces
par habitant, et le nombre de restaurants Mac Donald’s par million d’habitants de 5. Quelle
stratégie peut-on adopter pour construire cet intervalle au vu des résultats obtenus ? Donner
la valeur de l’intervalle ainsi construit.
7. La conclusion de l’article est la suivante : "L’étude montre sans ambiguïté que l’américa-
nisation est défavorable à la croissance.". Que pensez-vous de cette conclusion (vous aurez
noté la date de parution de l’article) ?
Et de la citation d’Albert Brie (Le mot du silencieux - L’hiver nous fait suer) : "La statistique est
moins une science qu’un art. Elle est la poésie des nombres. Chacun y trouve ce qu’il y met." ?
75
Chapitre 6. Annales corrigées
Table de la loi gaussienne : on donne pour différentes valeurs de α ∈ [0, 1], qα tel que
P(N ≤ qα ) = α lorsque N ∼ N(0, 1).
Table de la loi de Student : on donne pour différentes valeurs de n et de α ∈ [0, 1], tn,α tel que
P(T ≤ tn,α ) = α lorsque T ∼ T (n) (on rappelle que la loi de Student est symétrique).
Table de la loi de Fisher : on donne pour différentes valeurs de (n1 , n2 ) et de α ∈ [0, 1], fn1 ,n2 ,α
tel que P(F ≤ fn1 ,n2 ,α ) = α lorsque F ∼ F (n1 , n2 ).
76
6.1. Examens partiels
1. a) L’estimateur des MCO de β est défini par β̂ = argminβ∈Rp kY − Xβk2 . Si E(X) désigne
l’espace vectoriel engendré par les vecteurs colonnes de X, le vecteur Xβ̂ est le vecteur de
E(X) dont la distance à Y est minimale. En d’autres termes, Xβ̂ est le projeté orthogonal de
Y sur E(X).
b) Après avoir tracé le projeté orthogonal de Y sur E(X), on trouve que Xβ̂obs = 2X , d’où
β̂obs = 2.
2. On ajoute la constante au modèle. On note X0 le vecteur constant et X1 le vecteur (2, 1)0 .
Les vecteurs X0 et X1 étant non colinéaires, l’espace E(X) engendré par ces vecteurs est R2
tout entier. Par conséquent, le projeté orthogonal de Y sur E(X) est égal à Y. De plus, on peut
voir que Y = 5X0 − X1 . On a donc β̂0,obs = 5 et β̂1,obs = −1.
3. Le modèle s’écrit également Yi = β0 + β1 xi + εi , pour i ∈ {1, 2}, avec y1 = 3, y2 = 4, x1 = 2,
x2 = 1. Avec les formules de la régression linéaire simple, on obtient bien β̂1,obs = −1 et
β̂0,obs = 7/2 − (−1).3/2 = 5.
1 C1 M1
.. .. ..
Ici, la matrice X s’écrit : X = .
. . .
1 C47 M47
Les conditions standards sont les conditions (C1 ) à (C3 ) du cours (centrage, non corrélation
et homoscédasticité des εi ).
2. Un estimateur sans biais de Var(β̂) est donné par σb2 (X0 X)−1 , où σb2 = SCR/(47 − 3) =
(P0 P − P0 X(X0 X)−1 X0 P)/44 est un estimateur sans biais de la variance des P . La valeur de σb2
i
est 2.718764, d’où la valeur de l’estimateur sans biais de Var(β̂) :
0.1603980880 −5.324344e − 04 −3.417543e − 03
−0.0005324344 5.021797e − 06 −1.915377e − 05 .
−0.0034175426 −1.915377e − 05 7.169504e − 04
77
Chapitre 6. Annales corrigées
Or R2obs = 0.1302, d’où F(p) = 3.293, donc la p valeur du test est comprise strictement entre
0.046 et 0.05. On rejette (H0 ) pour un niveau 5%. Le modèle est tout juste globalement
significatif à ce niveau ! !
0 1 0
d) Région de confiance simultanée pour (β1 , β2 ) : en introduisant M = , on trouve
0 0 1
une région de confiance pour (β1 , β2 ) de la forme
( )
1
RC(β1 ,β2 ) = (β1 , β2 ), (β̂1 − β1 , β̂2 − β2 )[M(X X) M ] (β̂1 − β1 , β̂2 − β2 ) ≤ f2,47 (95%) ,
0 −1 0 −1 0
2σb2
c’est-à-dire
n
RC(β1 ,β2 ) (ω) = (β1 , β2 ), 0.1839071(602817.83(β̂1 − β1 )2 + 2 × 16104.649(β̂1 − β1 )(β̂2 − β2 )
o
+ 4222.368(β̂2 − β2 )2 ) ≤ 3.209 .
s
!−1
47 6500
4.420602 − 0.004431 × 300 ± 2.014 × 1.671 1 + (1, 300) (1, 300)0 ,
6500 1501754
78
6.1. Examens partiels
— Le fait que les cœfficients β̂1 et β̂2 soient négatifs pourrait éventuellement indiquer que
la croissance évolue dans le sens opposé à celui de la consommation de Coca-Cola ou
l’implantation de restaurants Mac Donald’s. En aucun cas, on a nécessairement une
relation de CAUSALITÉ !
— Les conclusions se basent sur l’estimation ponctuelle... qui est clairement insuffisante
au vu des résultats des tests sous hypothèse gaussienne.
Enfin, on l’a vu, l’étude doit être complétée par une étude des écarts au modèle. Le R2 observé
est en effet très petit...
79
Chapitre 6. Annales corrigées
YouTube est un site web d’hébergement de vidéos : les internautes peuvent y déposer des
vidéos, les partager et peuvent également y consulter des statistiques relatives à ces vidéos.
On a choisi d’étudier certaines de ces statistiques pour n vidéos musicales, choisies parmi
celles déposées en 2010 et 2011 et les plus visionnées.
On s’intéresse en particulier pour chaque vidéo au nombre de "Favoris", de "J’aime", et de
"Je n’aime pas", qui correspondent respectivement aux nombres d’internautes ayant déclaré
la vidéo comme une de leurs favorites, ayant déclaré l’avoir aimée, et ayant déclaré ne pas
l’avoir aimée (en millions d’internautes).
On cherche ici à expliquer le nombre de "Favoris" en fonction du nombre de "J’aime" et du
nombre de "Je n’aime pas".
On considère pour cela un modèle de régression linéaire multiple de la forme :
où Yi , xi,1 , xi,2 désignent respectivement les nombres de "Favoris", de "J’aime", de "Je n’aime
pas" pour la ième vidéo considérée, et où les εi sont des termes d’erreur aléatoires vérifiant
les conditions standards du modèle de régression linéaire multiple.
Ce modèle peut aussi s’écrire sous la forme matricielle : Y = Xβ + ε, avec
Y1 1 x1,1 x1,2 ε1
β
0
Y = ... , X = ... .. .. , β = β , ε = .. .
. . 1 .
β
εn
Yn 1 xn,1 xn,2
2
On a alors
42 7.763 0.606 0.038 −0.074 −0.038
X0 X = 7.763 3.843 0.281 , (X0 X)−1 = −0.074 0.544 −1.828 ,
0.606 0.281 0.059 −0.038 −1.828 26.043
1. Préciser l’intérêt de chacune des hypothèses du modèle. Selon vous, ces hypothèses sont-
elles pertinentes pour l’étude sur les vidéos musicales de YouTube menée ici ?
2. Quel est le nombre n de vidéos considérées dans cette étude ?
3. Rappeler la définition de l’estimateur des moindres carrés ordinaires β̂ de β, et donner
une interprétation géométrique du vecteur des valeurs ajustées Ŷ = Xβ̂. En déduire une
expression matricielle de β̂, puis une interprétation géométrique du vecteur des résidus
ε̂ = Y − Ŷ.
4. Donner les lois de β̂, de Ŷ, et de ε̂. Ces vecteurs aléatoires sont-ils indépendants ?
5. La valeur de l’estimateur des moindres carrés ordinaires β̂ calculé sur les observations est
β̂obs = (0.011, 1.003, −0.877)0 . Expliquer comment cette valeur a pu être obtenue à partir des
données fournies ci-dessus.
80
6.1. Examens partiels
81
Chapitre 6. Annales corrigées
Table de la loi gaussienne : on donne pour différentes valeurs de α ∈ [0, 1], qα tel que
P(N ≤ qα ) = α lorsque N ∼ N(0, 1).
Table de la loi de Student : on donne pour différentes valeurs de n et de α ∈ [0, 1], tn,α tel que
P(T ≤ tn,α ) = α lorsque T ∼ T (n) (on rappelle que la loi de Student est symétrique).
Table de la loi de Student : on donne pour les valeurs de n allant de 38 à 45 et pour différentes
valeurs de q la valeur de pq = P(T ≤ q) lorsque T ∼ T (n).
Table de la loi de Fisher : on donne pour différentes valeurs de (n1 , n2 ) et de α ∈ [0, 1], fn1 ,n2 ,α
tel que P(F ≤ fn1 ,n2 ,α ) = α lorsque F ∼ F (n1 , n2 ).
82
6.1. Examens partiels
avec SCT = kY − Ȳ1k2 , SCE = kŶ − Ȳ1k2 et SCR = kY − Ŷk2 . Elle correspond au théorème
de Pythagore dans le triangle rectangle formé du vecteur Y − Ȳ1 et des deux vecteurs
orthogonaux Ŷ − Ȳ1 et Y − Ŷ.
Le cœfficient de détermination est défini par R2 = SCE/SCT et on a géométriquement
R2 = cos2 θ où θ est l’angle formé par les vecteurs Ŷ − Ȳ1 et Y − Ȳ1.
7. SCE = kŶ − Ȳ1k2 = kŶk2 − kȲ1k2 par Pythagore et donc SCE = β̂0 X0 Xβ̂ − nȲ2 . On a ainsi
SCEobs = (0.011, 1.003, −0.877)(X0 X)(0.011, 1.003, −0.877)0 − 42(7.686/42)2 = 2.175.
8. SCT = SCE/R2 donc SCTobs = 2.217, et SCR = SCT − SCE donc SCRobs = 0.042.
9. Un estimateur sans biais de σ2 est donné par σb2 = SCR/39, et σb2 obs = 0.042/39 = 0.0011.
10. Test de (H0 ) : β1 = β2 = 0 contre (H1 ) : il existe j ∈ {1, 2}, β j , 0.
2
Statistique de test : F(Y) = 1−R
R 39
2 2 qui suit sous (H0 ) la loi F (2, 39).
La région critique du test est donnée par R(H0 ) = {y, F(y) > f2,39 (0.95)}.
On a f2,39 (0.95) = 3.238. Or R2obs = 0.981, d’où F(y) = 1006.82 : on rejette clairement (H0 ) pour
un niveau 5% !
11. Un intervalle de prédiction pour Yn+1 de niveau de confiance 95% est donné par
83
Chapitre 6. Annales corrigées
" q
p
Î = Ŷn+1 − t39 (0.975) σb2 (1 + (1, 0.4, 0.02)(X0 X)−1 (1, 0.4, 0.02)0 );
p
q #
p
Ŷn+1 + t39 (0.975) σ (1 + (1, 0.4, 0.02)(X X) (1, 0.4, 0.02) ) .
b2 0 −1 0
p p
On a (Ŷn+1 )obs = (1, 0.4, 0.02)β̂obs = 0.39466, d’où Îobs = [0.326; 0.463].
12. Pour le test de (H q 0 ) : β1 ≤ 0 contre (H1 ) : β1 > 0, on rejette (H0 ) lorsque la statistique
de test T1 (Y) = β̂1 / 0.544σb2 est supérieure à t39 (0.95) = 1.685. Or ici T1 (y) = 41 donc on
de (H0 ) : β2 ≥ 0 contre (H1 ) : β2 < 0, on rejette (H0 )
rejette (H0 ) au profit de (H1 ). Pour le testq
lorsque la statistique de test T2 (Y) = β̂2 / 26.043σb2 est inférieure à t39 (0.05) = −1.685. Or ici
T2 (y) = −5.18 donc on rejette (H0 ) au profit de (H1 ) là aussi pour un niveau 5%.
Ces résultats ne sont certes pas très surprenants : on peut en effet imaginer que toutes choses
égales par ailleurs, plus on a de "J’aime", plus on aura de "Favoris", et moins on a de "Je
n’aime pas", plus on aura de "Favoris". Mais l’interprétation ne peut se faire que "toutes
choses égales par ailleurs"... L’interprétation individuelle de chaque cœfficient estimé dans
un modèle complet n’est pas conseillée !
q
13. Si T0 désigne la statistique du test de significativité de la constante, T0 (Y) = β̂0 / 0.038σb2 et
T0 (y) ' 1.7 donc la p-valeur du test est donnée par p ' Pβ0 =0 (|T0 (Y)| > 1.7) = 2∗(1−P(T ≤ 1.7)),
où T ∼ T (39). Ainsi p ' 0.098, et par exemple pour un niveau 5%, la constante n’est pas
significative.
14. Voir cours. En particulier, faire attention à la nouvelle définition du cœfficient de déter-
mination.
15. Les deux cœfficients de détermination sont assez proches l’un de l’autre dans les deux
modèles, très bons, mais non comparables, donc on ne peut pas se baser sur ce critère pour
choisir un modèle. La constante n’étant pas significative pour un niveau classique 5%, on
pourra s’autoriser à travailler dans le modèle sans constante. Le modèle avec constante reste
néanmoins plus facile à interpréter.
84
6.1. Examens partiels
1. Qu’induisent les hypothèses faites sur les εi pour les Yi ? Qu’en pensez-vous par rapport
aux données étudiées ici ?
2. Quelle condition supplémentaire impose-t-on sur les xi, j dans le modèle (M0,j ) ? Dans le
modèle (M j ) ? Que se passe-t-il si cette condition n’est pas vérifiée ?
3. Pour les modèles considérés, on a mis en œuvre sous le logiciel R une procédure de
régression linéaire simple et on a obtenu les sorties données en Annexe 2.2.
a) Rappeler les définitions des éléments de ces sorties désignés par : Estimate, [Link],
t value, Multiple R-squared.
b) Sur la base de ces sorties, quel modèle de régression linéaire simple choisiriez-vous pour
ajuster les données ? Justifiez votre réponse.
c) Tester l’hypothèse (H0 ) β j ≤ 0 contre (H1 ) β j > 0 au niveau 5% dans le modèle retenu à la
question précédente. Que peut-on en déduire ?
85
Chapitre 6. Annales corrigées
Y1 1 x1,1 x1,2 ε1
β0
.. .. .. .. ..
Y = , X = , β = β1 , ε = .
. . . . .
β2
εn
Yn 1 xn,1 xn,2
6. Préciser les lois de β̂ et de σb2 et expliquer comment ces lois permettent de construire un
test de (non) significativité de chaque variable explicative du modèle.
7. Tester au niveau 5% la (non) significativité de chaque variable explicative du modèle.
8. Construire des intervalles de confiance de niveau de confiance 95% pour β j pour j ∈ {0, 1, 2}
et retrouver les réponses à la question 7.
9. Donner à l’aide des tables données un encadrement ou une majoration des p-valeurs des
tests de (non) significativité des variables explicatives du modèle, et retrouver les réponses
à la question 7.
86
6.1. Examens partiels
NOM : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Prénom : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Y1 1 x1,1 · · · x1,p−1 β0 ε1
Y = ... , X = ... .. .. , β = ... , ε = ... .
. .
Yn 1 xn,1 · · · xn,p−1 βp−1 εn
On suppose que les conditions standards des modèles de régression linéaire et l’hypothèse
gaussienne sont vérifiées. On reprend les notations usuelles du cours, et notamment, on note
ΠX la matrice de projection orthogonale sur le sous-espace vectoriel E(X) de Rn engendré
par les vecteurs colonnes composant la matrice X, et 1 le vecteur de Rn égal à (1, . . . , 1)0 .
1. Parmi les variables suivantes, lesquelles sont de valeur observée ou calculable sur les
observations :
Y,
ε,
ε̂,
Ŷ,
Y − Xβ.
87
Chapitre 6. Annales corrigées
88
6.1. Examens partiels
Table de la loi gaussienne : on donne pour différentes valeurs de α ∈ [0, 1], qα tel que
P(N ≤ qα ) = α lorsque N ∼ N(0, 1).
Table de la loi de Student : on donne pour différentes valeurs de n et de α ∈ [0, 1], tn,α tel que
P(T ≤ tn,α ) = α lorsque T ∼ T (n) (on rappelle que la loi de Student est symétrique).
Table de la loi de Student : on donne pour différentes valeurs de q et pour n = 47, 48, 49, 50,
51 ou 52 la valeur de pn,q = P(T ≤ q) lorsque T ∼ T (n).
q 1.7 1.8 1.9 2 2.1 2.2 2.3 2.4 2.5 2.6 2.7
pn,q 0.952 0.961 0.968 0.974 0.979 0.984 0.987 0.99 0.992 0.994 0.995
Table de la loi de Fisher : on donne pour différentes valeurs de (n1 , n2 ) et de α ∈ [0, 1], fn1 ,n2 ,α
tel que P(F ≤ fn1 ,n2 ,α ) = α lorsque F ∼ F (n1 , n2 ).
Table de la loi du Khi Deux : on donne pour différentes valeurs de n et de α ∈ [0, 1], kn,α tel
que
P(K ≤ kn,α ) = α lorsque K ∼ χ2 (n).
89
Chapitre 6. Annales corrigées
90
6.1. Examens partiels
1. On suppose que les Yi sont indépendantes, de loi gaussienne d’espérance linéaire ou af-
fine en xi, j , et de même variance σ2 . L’indépendance peut être vérifiée, mais elle semble peu
crédible. On a un risque de corrélation spatiale entre les états par exemple. L’hypothèse de
normalité peut se vérifier à l’aide d’un test, mais elle peut être crédible, contrairement à l’hy-
pothèse linéaire qui le sera plus ou moins en fonction de j et l’hypothèse d’homoscédasticité
qui elle est peu crédible (états du Sud très différents sans doute des états du Nord, états très
urbains différents des états plus ruraux...).
2. Dans le modèle (M0,j ), on impose qu’il existePau moins un couple (i, i0 ) tel que i , i0 , et
xi, j , xi0 , j . Dans le modèle (M j ), on impose que x2i,j , 0 autrement dit que les xi,j ne soient
pas tous nuls.
Si la condition n’est pas vérifiée dans le modèle (M0, j ), on a un modèle dont la seule variable
explicative est la constante, autrement dit on aura Ŷ = Ȳ1.
Si la condition n’est pas vérifiée dans le modèle (M j ), cela signifie qu’on suppose que les Yi
constituent un échantillon de la loi gaussienne centrée, de variance σ2 , et que l’on cherche
juste à estimer la variance inconnue σ2 .
q
3. a) Pour chaque j = 1, . . . , 4, Estimate correspond à β̂ j , [Link] à σb2 (X0 X)−1 j+1, j+1
,t
value à la statistique du test de Student de (non) significativité de la variable x.,j c’est-à-
q
dire β̂ / σb2 (X0 X)−1
j j+1, j+1
, Multiple R-squared au cœfficient de détermination R2 = kXβ̂ −
Ȳ1k /kY
2 − Ȳ1
k2 dans le modèle (M0, j ), R2sc = kXβ̂k2 /kYk2 dans le modèle (M j ).
b) On retient le modèle M0,2 qui est un modèle avec constante, dont toutes les variables sont
significatives au niveau 5% et dont le R2obs est satisfaisant.
c) On teste (H0 ) : β2 ≤ 0 contre (H1 ) : βq2 > 0 dans ce modèle au niveau 5%. On rejette (H0 )
1. L’estimateur des MCO de β est défini par β̂ = argminβ∈R3 kY − Xβk2 . Si E(X) désigne
l’espace vectoriel engendré par les vecteurs colonnes de X, le vecteur Xβ̂ est le vecteur de
E(X) dont la distance à Y est minimale. En d’autres termes, Xβ̂ est le projeté orthogonal de
Y sur E(X). La matrice de projection orthogonale sur E(X) étant égale à X(X0 X)−1 X0 , on a
Xβ̂ = X(X0 X)−1 X0 Y, d’où X0 Xβ̂ = X0 Y et X0 X étant inversible, β̂ = (X0 X)−1 X0 Y. On obtient
alors β̂obs = (X0 X)−1 X0 y = (−40.6318018, 0.3308978, 4.0138012)0 .
91
Chapitre 6. Annales corrigées
2. Par Pythagore, on a SCR = Y0 Y − Y0 X(X0 X)−1 X0 Y et σb2 = SCR/48, d’où σb2 obs = y0 y −
y0 X(X0 X)−1 X0 y/48 ' 20.8386.
3. Première méthode : SCE = kXβ̂ − Ȳ1k2 = kXβ̂k2 − nȲ2 = Y0 X(X0 X)−1 X0 Y − 51Ȳ2 , d’où
SCEobs = 4743.068 puis on utilise l’équation d’analyse de la variance pour trouver SCTobs =
SCEobs + SCRobs = 4743.068 + 48 × 20.8386 = 5743.321.
Deuxième méthode : SCT = Y0 Y − 51Ȳ2 , d’où SCTobs = 5743.322 et ensuite SCEobs = SCTobs −
SCRobs = 5743.322 − 48 × 20.8386 = 4743.069.
4. Le cœfficient de détermination est défini par R2 = SCE/SCT, d’où R2obs = 0.82584.
5. Test de (H0 ) : β1 = β2 = 0 contre (H1 ) : il existe j ∈ {1, 2}, β j , 0.
R2 48
Statistique de test : F(Y) = 1−R 2 2 qui suit sous (H0 ) la loi F (2, 48).
La région critique du test est donnée par R(H0 ) = {y, F(y) > f2,48 (0.95)}.
On a f2,48 (0.95) = 3.191. Or R2obs = 0.82584, d’où F(y) = 113.8 : on rejette clairement (H0 ) pour
un niveau 5% !
6. On a β̂ = (X0 X)−1 X0 Y et Ŷ = X(X0 X)−1 X0 Y. Puisque Y ∼ Nn (Xβ, σ2 In ), β̂ ∼ Nn (β, σ2 (X0 X)−1 ).
Puisque 48 ∗ σb2 /σ2 = kε̂k2 , et que ε̂ = ε − Π ε, par le théorème de Cochran, 48 ∗ σb2 /σ2 ∼ χ2 (48).
X
De plus, β̂ = β + (X0 X)−1 X0 ΠX ε, et comme par le théorème de Cochran, ΠX ε et ε − ΠX ε
sont indépendants, on en déduit que les variables β̂ j et σb2 sont indépendantes, puis que sous
q
(H0 ), T j (Y) = β̂ j / σb2 (X0 X)−1
j+1,j+1
, que l’on choisira comme statistique de test, suit une loi de
Student à 48 degrés de liberté.
7. Test de (H0 ) : β j = 0 contre (H1 ) : β j , 0.
q
Statistique de test : T j (Y) = β̂ j / σb2 (X0 X)−1
j+1,j+1
.
Loi de T j (Y) sous (H0 ) : Student à 48 degrés de liberté.
Région critique : R(H0 ) = {y, |T j (y)| > t48 (0.975)} = {y, |T j (y)| > 2.011}.
On a T0 (y) = −11.583, T1 (y) = 1.966, et T2 (y) = 11.025 donc seule la variable poverty n’est
pas significative au niveau 5%.
8. Un intervalle de confiance pour β j est donné par
r r
IC(β j ) = β̂ j − 2.011 σb2 (X0 X)−1 ; β̂ + 2.011 σb2 (X0 X)−1 ,
j+1,j+1 j j+1,j+1
doù IC(β0 )obs = [−47.69; −33.58], IC(β1 )obs = [−0.0076; 0.669], et IC(β3 )obs = [3.282; 4.746]. On a
0 < IC(β0 )obs , 0 ∈ IC(β1 )obs et 0 < IC(β3 )obs , donc on retrouve les conclusions de la question 7.
9. On a vu que T0 (y) = −11.583 donc la p-valeur du test correspondant est donnée par
p0 ' Pβ0 =0 (|T0 (Y)| > 11.58) = 2 ∗ (1 − P(T ≤ 11.583)), où T ∼ T (48). D’après les tables on
obtient p0 << 2 ∗ (1 − 0.995) = 0.01. Ainsi p0 < 0.05, et on retrouve que pour un niveau 5%
par exemple (même beaucoup moins), la constante est significative.
On a vu que T1 (y) = 1.966 donc la p-valeur du test est donnée par p1 ' Pβ1 =0 (|T1 (Y)| > 1.966) =
2∗(1−P(T ≤ 1.966)), où T ∼ T (48). D’après les tables, on obtient 0.968 ≤ P(T ≤ 1.966) ≤ 0.974,
et 0.052 ≤ p1 ≤ 0.064 en particulier, p > 0.05 et on retrouve le résultat de la question 7 pour
la variable poverty.
Enfin, on a vu que T2 (y) = 11.025 donc la p-valeur du test est donnée par p2 ' Pβ2 =0 (|T2 (Y)| >
11.025) = 2 ∗ (1 − P(T ≤ 11.025)), où T ∼ T (48). D’après les tables on obtient p2 << 2 ∗ (1 −
0.995) = 0.01. Ainsi p2 < 0.05, et on retrouve le résultat de la question 7 pour la variable
single.
92
6.1. Examens partiels
1. Parmi les variables suivantes, lesquelles sont de valeur observée ou calculable sur les
observations :
× Y,
ε,
× ε̂,
× Ŷ,
Y − Xβ.
93
Chapitre 6. Annales corrigées
ln Li = β0 + β1 Si + β2 Hi + β3 Ai + εi pour i = 1 . . . 20,
où Li est une variable aléatoire représentant l’abondance de l’Erebia ligea dans la ième station,
Si , Hi et Ai désignent respectivement la surface, l’humidité et l’altitude de cette ième station,
les εi sont des termes d’erreur aléatoires tels que
— E[εi ] = 0 pour tout i,
— cov(εi , ε j ) = 0 pour tout i , j,
— var(εi ) = σ2 pour tout i.
Ce modèle s’écrit sous la forme matricielle classique :
Y = Xβ + ε,
Par ailleurs, SCRobs = 3.4499 et si y désigne la valeur observée de Y, X0 y = (40.7378, 527.2645, 111.4137, 22.89)0 .
94
6.2. Examens terminaux
95
Chapitre 6. Annales corrigées
On souhaite savoir si une nouvelle variable qualitative "paysage" précisant le type de paysage
de la station a un effet sur l’abondance de l’Erebia ligea.
Le facteur paysage possède quatre niveaux, et on dispose pour ces quatre niveaux (notés de
1 à 4) de n1 = 7, n2 = 3, n3 = 5 et n4 = 5 observations respectivement. On note (Li j ) j=1...ni les
abondances correspondant à un paysage de type i (i = 1 . . . 4), et (li j ) j=1...ni les observations
correspondantes.
On a relevé les valeurs suivantes : 7j=1 l1j = 108, 3j=1 l2j = 67, 5j=1 l3j = 50 et 5j=1 l4j = 101,
P P P P
P7 2 P3 2 P5 2 P5 2
j=1 l1j = 2200, j=1 l2j = 2449, j=1 l3j = 2032, j=1 l4j = 3547.
Z j = γ0 + γ1 X1j + γ2 X2j + η j ,
P2j P20
avec γ0 = β0 , γ1 = β1 et γ2 = β5 , η j = 1
2 ε
i=2j−1 i
pour j ∈ {1, . . . , 8}, η9 = 1
4 i=17 εi .
Ce modèle s’écrit matriciellement
Z = X̄γ + η,
avec γ = (γ0 , γ1 , γ2 )0 et η = (η1 , . . . , η9 )0 .
96
6.2. Examens terminaux
97
Chapitre 6. Annales corrigées
Table de la loi gaussienne : on donne pour différentes valeurs de α ∈ [0, 1], qα tel que
P(N ≤ qα ) = α lorsque N ∼ N(0, 1).
Table de la loi de Student : on donne pour différentes valeurs de n et de α ∈ [0, 1], tn,α tel que
P(T ≤ tn,α ) = α lorsque T ∼ T (n) (on rappelle que la loi de Student est symétrique).
Table de la loi de Student : on donne pour différentes valeurs de q et pour différentes valeurs
de n la valeur de pn,q = P(T ≤ q) lorsque T ∼ T (n).
q 1.5 1.6 1.7 1.8 1.9 2 2.1 2.2 2.3 2.4 2.5 5
p16,q 0.923 0.935 0.946 0.955 0.962 0.969 0.974 0.979 0.982 0.986 0.988 1
p17,q 0.924 0.936 0.946 0.955 0.963 0.969 0.975 0.979 0.983 0.986 0.989 1
p18,q 0.925 0.936 0.947 0.956 0.963 0.97 0.975 0.979 0.983 0.986 0.989 1
p19,q 0.925 0.937 0.947 0.956 0.964 0.97 0.975 0.98 0.984 0.987 0.989 1
p20,q 0.925 0.937 0.948 0.957 0.964 0.97 0.976 0.98 0.984 0.987 0.989 1
Table de la loi de Fisher : on donne pour différentes valeurs de (n1 , n2 ) et de α ∈ [0, 1], fn1 ,n2 ,α
tel que P(F ≤ fn1 ,n2 ,α ) = α lorsque F ∼ F (n1 , n2 ).
98
6.2. Examens terminaux
99
Chapitre 6. Annales corrigées
4. a) L’estimateur du maximum de vraisemblance est égal à β̂, celui de σ2 à 16σb2 /20 = SCR/20.
b) β̂ suit une loi gaussienne d’espérance β, de variance σ2 (X0 X)−1 . Par le théorème de Cochran,
on montre que 20σb2 suit une loi du khi-deux à 16 degrés de liberté, et que β̂ et σb2 sont
indépendants (voir cours pour la preuve).
c) Une région de confiance simultanée pour (β1 , β2 , β3 ) de niveau de confiance 95% est donnée
par :
n 3 1
(β1 , β2 , β3 ) ∈ R, 558.654(β̂1 − β1 )2 + 44.397(β̂2 − β2 )2 + 1.259(β̂3 − β3 )2
3σ
b2
o
+ 284.89(β̂1 − β1 )(β̂2 − β2 ) − 19.852(β̂1 − β1 )(β̂3 − β3 ) − 3.98(β̂2 − β2 )(β̂3 − β3 ) ≤ f3,16 (0.95) ,
avec β̂obs = (1.0279467, 0.5924485, −1.8816683, −0.7553206)0 , σb2 obs = 0.2156187 et f3,16 (0.95) =
3.239. Cette région de confiance est un ellipsoïde.
d) Soit (H0 ) : β1 = β2 = β3 = 0 contre (H1 ) : β1 , β2 ou β3 , 0. Un test de (H0 ) contre (H1 ) a pour
région critique {Y, F(Y) > 3.239} , avec
1
F(Y) = 558.654β̂21 + 44.397β̂22 + 1.259β̂23 + 284.89β̂1 β̂2 − 19.852β̂1 β̂3 − 3.98β̂2 β̂3 .
3σb2
100
6.2. Examens terminaux
On a F(y) = 61.27. On rejette donc clairement l’hypothèse nulle. Le modèle est globalement
significatif au niveau 5%.
√
e) Pour la constante, la p valeur du test de significativité est égale à p = P(|T| > |β̂0,obs |/ 0.20939)
avec T ∼ T (16) i.e. p = 2 − 2P(T ≤ 2.246) ∈ [0.036, 0.042] donc la constante est significative
au niveau 5%.
Pour la première variable √ explicative potentielle S, la p valeur du test de significativité est
égale à p = P(|T| > |β̂1,obs |/ 0.002372) avec T ∼ T (16) i.e. p = 2 − 2P(T ≤ 12.16) ' 0 donc la
variable surface est significative au niveau 5%.
Pour la variable humidité H, p = 2 − 2P(T ≤ 11.33) ' 0 donc la variable humidité est
significative au niveau 5%.
Pour la variable altitude A, p = 2 − 2P(T ≤ 1.65) ∈ [0.108, 0.13] donc la variable altitude n’est
pas significative au niveau 5%.
i = 1...4
(
1. Li j = αi + εi j , ,
j = 1 . . . ni
101
Chapitre 6. Annales corrigées
1 0 0 0
)
.. .. .. ..
. . . .
7
1 0 0 0
0 1 0 0
0 1 0 0
0 1 0 0
X = 0 0 1 0
) .
.. .. .. ..
. . . .
5
0 0 1 0
0 0 0 1
)
.. .. .. ..
. . . .
5
0 0 0 1
4. La p valeur du test étant égale à 0.715, pour un niveau 5%, on accepte l’hypothèse d’absence
d’effet du facteur paysage.
5. Le test d’effet du facteur paysage ne débouche pas sur un test de comparaison de deux
cœfficients directement.
6. Modèles d’analyse de la variance à un facteur sous d’autres contraintes identifiantes
classiques (analyse par cellule de référence, contrainte d’orthogonalité ou de type somme).
Le test d’effet du facteur reste le même (voir cours).
102
6.2. Examens terminaux
2. Les termes d’erreur ne sont plus homoscédastiques. On peut certes toujours calculer
l’EMCO dans le nouveau modèle. Il est sans biais. Cependant, sous l’hypothèse de normalité,
il n’est pas de variance minimale parmi les estimateurs linéaires sans biais dans ce modèle.
3. On a P−1 Z = P−1 X̄β + P−1 η, et Var(P−1 η) = P−1 σ2 ΩP−1 = σ2 I donc on retrouve un modèle
de régression linéaire avec les conditions standards.
4. On peut alors calculer l’EMCO dans ce nouveau modèle. Cet estimateur est appelé
estimateur des moindres carrés généralisés, et son expression est donnée par γ̂MCG =
(X̄0 Ω−1 X̄)−1 X̄0 Ω−1 Z.
5. Par application du théorème de Gauss-Markov dans le nouveau modèle vérifiant les
conditions standards, l’estimateur des moindres carrés généralisés est bien sans biais de
variance minimale parmi les estimateurs linéaires sans biais de γ.
103
Chapitre 6. Annales corrigées
104
6.2. Examens terminaux
On considère dans cette partie le modèle de régression linéaire multiple à 2 variables expli-
catives suivant :
1. On a mis en œuvre sous le logiciel R une procédure de régression linéaire multiple pour
le modèle (Mln 3,ln 2 ). Compléter la sortie obtenue ci-dessous.
Coefficients :
Estimate Std. Error t value Pr(>|t|)
(Intercept) -179.3450 20.1054 ??? 1.08e-14 ???
log(X3) ??? 5.3455 10.077 < 2e-16 ***
log(X2) 1.3953 0.7654 ??? ??? ???
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 5.315 on ??? degrees of freedom
Multiple R-Squared: 0.7409, Adjusted R-squared: ???
F-statistic: ??? on ??? and ??? DF, p-value: ???
105
Chapitre 6. Annales corrigées
pour i ∈ {1 . . . 114}.
1. On met en œuvre des procédures de sélection de variables exhaustives à l’aide des logiciels
SAS et R, pour les critères du R2 ajusté, du Cp , et du BIC. On obtient les sorties données en
Annexe 3.6.
a) Quel est le lien entre l’utilisation de ces différents critères pour une sélection de variables
et les tests de validité de sous-modèles ?
b) Expliquer les sorties données en Annexe 3.6.
c) Quel modèle peut-on finalement retenir ?
2. On met en œuvre une procédure de sélection de variables backward, puis une procédure
de sélection de variables forward avec le logiciel SAS. On obtient les sorties données en
Annexe 3.7.
a) Quel critère de sélection de variables est utilisé dans ces procédures ?
b) Quels sont les critères d’arrêt de ces procédures ?
c) Décrire pas à pas la procédure de sélection backward.
d) Commenter les sorties obtenues pour les modèles retenus par les deux procédures. Com-
parer au modèle retenu à la question 1.
3. Après une étude soigneuse des résidus et des éventuelles données remarquables pour
le modèle retenu à la question 1, on ne remet pas en cause ce modèle. On obtient dans ce
modèle, pour la France qui a une consommation annuelle moyenne d’alcool par adulte de
plus de 15 ans de 12.48 L, un nombre annuel moyen de cigarettes consommées par habitant
de 2058, un QI moyen de ses habitants de 98, un PIB par habitant de 34092.259 dollars, et un
indice de démocratisation de 7.77 (seulement !), un intervalle de prédiction pour l’espérance
de vie calculé sur les observations égal à [70.2; 86.8].
Expliquer comment cet intervalle a été calculé.
106
6.2. Examens terminaux
Table de la loi gaussienne : on donne pour différentes valeurs de α ∈ [0, 1], qα tel que
P(N ≤ qα ) = α lorsque N ∼ N(0, 1).
Table de la loi de Student : on donne pour différentes valeurs de n et de α ∈ [0, 1], tn,α tel que
P(T ≤ tn,α ) = α lorsque T ∼ T (n) (on rappelle que la loi de Student est symétrique).
Table de la loi de Student : on donne pour différentes valeurs de q et pour différentes valeurs
de n la valeur de pn,q = P(T ≤ q) lorsque T ∼ T (n).
q 1.8 1.81 1.82 1.83 1.84 1.85 1.86 1.87 1.88 1.89 1.9
p111,q 0.963 0.963 0.964 0.965 0.966 0.967 0.967 0.968 0.969 0.969 0.970
p112,q 0.963 0.964 0.964 0.965 0.966 0.967 0.967 0.968 0.969 0.969 0.970
p113,q 0.963 0.964 0.964 0.965 0.966 0.967 0.967 0.968 0.969 0.969 0.970
Table de la loi de Fisher : on donne pour différentes valeurs de (n1 , n2 ) et de α ∈ [0, 1], fn1 ,n2 ,α
tel que P(F ≤ fn1 ,n2 ,α ) = α lorsque F ∼ F (n1 , n2 ).
107
Chapitre 6. Annales corrigées
Table de la loi de Fisher : on donne pour différentes valeurs de q et pour différentes valeurs
de (n1 , n2 ) la valeur de pn1 ,n2 ,q = P(F ≤ q) lorsque F ∼ F (n1 , n2 ).
q 10 20 30
p1,111,q 0.99798 0.99998 1
p1,112,q 0.99799 0.99998 1
p1,113,q 0.99799 0.99998 1
p2,111,q 0.9999 1 1
p2,112,q 0.9999 1 1
p2,113,q 0.9999 1 1
p3,111,q 0.99999 1 1
p3,112,q 0.99999 1 1
p3,113,q 0.99999 1 1
Table de la loi du Khi Deux : on donne pour différentes valeurs de n et de α ∈ [0, 1], kn,α tel
que
P(K ≤ kn,α ) = α lorsque K ∼ χ2 (n).
108
6.2. Examens terminaux
j
1. On impose E[εi ] = 0 ∀i = 1 · · · 114 (centrage), cov(εi , ε j ) = σ2 δi (non corrélation et homos-
cédasticité), puis ε ∼ N(0, σ2 I114 ) (hypothèse gaussienne sur le vecteur ε).
2. Les estimateurs des MCO sont donnés par :
β̂ = Ȳ − β̂ x̄
0 P114 1 .,1P114
,
P114 P114 P114
i=1 xi,1 Yi − i=1 xi,1 Ȳ xi,1 (Yi −Ȳ) (xi,1 −x̄.,1 )Yi i=1 (xi,1 −x̄.,1 )(Yi −Ȳ)
β̂
1
= P 114 2 P 114 = Pi=1
114 2
= Pi=1
114 2
= P114 2
i=1 x − i=1 xi,1 x̄.,1
i,1 i=1 (xi,1 −x̄.,1 ) i=1 (xi,1 −x̄.,1 ) i=1 (xi,1 −x̄.,1 )
2 P114
l’estimateur usuel de la variance est donné par σb2 = 1
112 i=1 ε̂2i , où ε̂i = Yi − β̂0 − β̂1 xi,1 .
3. Lois des estimateurs sous!l’hypothèse gaussienne :
P114 2
i=1 xi,1
β̂0 ∼ N β0 , P114 2
σ , β̂1 ∼ N β1 , P114
2 1
2
σ et 112σb2 /σ2 ∼ χ2 (112).
2
114 i=1 (xi,1 −x̄.,1 ) i=1 (xi,1 −x̄.,1 )
Indépendance ? β̂ = (β̂0 , β̂1 )0 et σb2 sont indépendants par le théorème de Cochran. En re-
vanche, β̂0 et β̂1 sont indépendants si et seulement si x̄.,1 = 0.
β̂ est un estimateur linéaire (en les Yi ), sans biais de β = (β0 , β1 )0 , de variance minimale parmi
les estimateurs linéaires sans biais de β (théorème de Gauss-Markov).
σb2 est un estimateur sans biais de σ2 .
4. Tous les modèles considérés contiennent le même nombre de variables explicatives. On
peut donc pour les comparer utiliser le critère du R2 . Ici, les trois modèles les plus pertinents
sont les modèles (M3 ), (Mln 3 ) et (Mln 4 ) qui ont des R2 respectivement égaux à 0.7205, 0.7331
et 0.716. On aura une préférence pour le modèle (Mln 3 ), dont le R2 est le plus élevé et dont
les toutes les variables explicatives sont significatives à 5% par exemple.
5. a) Graphe 1 : nuage de points et droite de régression estimée. On peut y vérifier la tendance
linéaire, et regarder les points qui s’écartent de la droite (valeurs aberrantes si points éloignés
en la variable à expliquer, effet levier si points éloignés en la variable explicative).
Graphe 2 : résidus studentisés par validation croisée en fonction du pays, fonction de lissage,
droites horizontales en les quantiles de niveaux 0.025 et 0.975 de la loi de Student à 111 degrés
de liberté, c’est-à-dire ici −1.982 et 1.982 (cf tables). On peut y observer les valeurs aberrantes
(résidus dont la valeur absolue dépasse 1.982), c’est-à-dire ici les pays 1, 52, 55 et dans une
moindre mesure 113, y vérifier la non auto-corrélation des résidus.
Graphe 3 : résidus studentisés par validation croisée en fonction des valeurs ajustées, fonction
de lissage, droites horizontales en les quantiles de niveaux 0.025 et 0.975 de la loi de Student
à 111 degrés de liberté. On peut y observer les valeurs aberrantes, les mêmes bien sûr, y
vérifier l’homoscédasticité des résidus (qui peut ceci dit être discutée dans le cas présent car
le lisseur semble présenter une légère tendance particulière).
Graphe 4 : QQ plot des résidus = tracé des quantiles empiriques des résidus studentisés
par VC en fonction des quantiles théoriques d’une loi gaussienne. Ici, vu que le nombre
d’observations est grand (114), même si la loi des résidus studentisés par VC est une loi de
Student, elle peut être approchée par une loi gaussienne. On valide donc ici la loi de Student
avec un grand nombre de degrés de liberté.
109
Chapitre 6. Annales corrigées
Graphe 5 : résidus studentisés par VC en fonction des ln xi,4 et une fonction de lissage. Si la
fonction de lissage a une tendance linéaire, cela peut indiquer l’oubli d’une variable explica-
tive, ou au moins la pertinence de l’ajout de cette variable dans le modèle. Ici, effectivement,
il peut être intéressant de rajouter la variable ln x4 .
Graphe 6 : tracé des hi,i , éléments diagonaux de la matrice chapeau H = X(X0 X)−1 X0 et de la
droite horizontale au niveau du seuil 4/114 = 0.035. On y repère les pays à effet levier, ici 17,
23, 34, 69, 90, et dans une moindre mesure 37, 89, 114.
Graphe 7 : tracé des distances de Cook et du seuil égal au quantile de la loi de Fisher de
niveau 0.1 à 2 et 112 degrés de liberté égal à 0.105. On peut y détecter les points influents.
Ici, aucun point influent, donc aucune donnée n’est à étudier en particulier.
b) Pour les valeurs aberrantes, on peut voir sur le graphe 1 l’éloignement en la variable à
expliquer.
Pour les données à effet levier, on peut voir l’éloignement en la variable explicative.
En conclusion, le modèle n’est pas à remettre en cause, sauf à ajouter peut-être la variable
ln x4 , et à examiner une éventuelle hétéroscédasticité.
1. La sortie complétée :
Coefficients :
Estimate Std. Error t value Pr(>|t|)
(Intercept) -179.3450 20.1054 -8.920 1.08e-14 ***
log(X3) 53.8656 5.3455 10.077 < 2e-16 ***
log(X2) 1.3953 0.7654 1.823 0.072 .
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 5.315 on 111 degrees of freedom
Multiple R-Squared: 0.7409, Adjusted R-squared: 0.7362
F-statistic: 158.7 on 2 and 111 DF, p-value: < 2.2e-16
2. Le modèle est globalement significatif au niveau 5% (cf dernière ligne de la sortie : p-value:
< 2.2e-16).
3. Variables significatives au niveau 5% : la constante et ln x3 . Variables significatives au
niveau 10% : la constante, ln x3 et ln x2 .
4. La variable ln x2 n’est pas significative au niveau 5% alors qu’elle l’était dans le modèle
(Mln 2 ). Cela s’explique par une forte corrélation entre les variables ln x2 et ln x3 . Par ailleurs,
le modèle (Mln 2 ) n’était pas très pertinent (R2 environ égal à 0.5), mais l’ajout de la variable
ln x2 au modèle (Mln 3 ) permet néanmoins de passer d’un R2a de 0.7308 à 0.7362. Il peut donc
être intéressant de la garder. Regarder les autres critères de sélection de variables est conseillé
ici.
5. Une région de confiance simultanée pour (β1 , β2 )0 de niveau de confiance 95% est donnée
par :
!0
β1 β̂1 − β1 β̂1 − β1
( ! ! ! )
1 2.361 12.573
, ≤ 3.078 .
β2 2σb2 β̂2 − β2 12.573 115.159 β̂2 − β2
110
6.2. Examens terminaux
Pour confirmer la réponse à la question 2, il s’agit de regarder si le vecteur (0, 0)0 appartient
à cette région de confiance, autrement dit de regarder si
!0
β̂1 β̂1
! !
1 2.361 12.573
≤ 3.078.
2σb2 β̂2 12.573 115.159 β̂2
1. a) Considérons un modèle (M) et le modèle (M− ) contenant toutes les variables explicatives
de (M) sauf une variable, notée x. On a vu en cours que le R2a du modèle (M) est strictement
supérieur à celui du modèle (M− ) si et seulement si la statistique du test de Fisher de
significativité de la variable x est strictement supérieure à 1. De même, le Cp du modèle (M)
est strictement inférieur à celui du modèle (M− ) si et seulement si la statistique variante
du test de Fisher de significativité de la variable x est strictement supérieure à 2. Enfin, le
BIC du modèle (M) est strictement inférieur à celui du modèle (M− ) si et seulement si la
statistique du test de Fisher de significativité de la variable x est strictement supérieure à
(114 − p)(e2 ln 114/114 − 1), où p est le nombre de variables explicatives du modèle (M).
b) La sortie SAS donne les valeurs des R2a , R2 , Cp et BIC pour les 10 meilleurs modèles du
point de vue du R2a . Les modèles sont rangés par ordre décroissant des valeurs du R2a , la
première colonne donne les nombres de variables explicatives des modèles.
La sortie R donne pour p allant de 2 à 9, les valeurs du R2a , du Cp ou du BIC du meilleur modèle
parmi les modèles ayant un nombre p de variables explicatives. Chaque ligne correspond à
un nombre p et au meilleur modèle à p variables explicatives. Les lignes sont rangées par
ordre décroissant en fonction des valeurs du critère considéré, les intensités des couleurs
décroissent également en fonction des valeurs de ce critère. Un bloc de couleur au niveau
d’une certaine variable indique que cette variable est dans le modèle.
c) Les critères du Cp et du BIC, qui sont plus fiables que celui du R2a (cf question a), indiquent
que le modèle contenant la constante, x1 , ln x3 , x4 , ln x4 et x5 est préférable aux autres modèles.
2. a) Le critère utilisé par les différentes procédures algorithmiques de SAS est celui des tests
de significativité des variables explicatives.
b) Dans la procédure backward, le critère d’arrêt est le suivant : on s’arrête lorsque toutes
les variables explicatives du modèle sont significatives au niveau 10%. Dans la procédure
forward, on s’arrête lorsqu’aucune variable significative au niveau 50% ne peut être ajoutée.
c) A chaque étape, on retire la variable dont la p-value pour le test de significativité est la
plus élevée et supérieure à 10%.
111
Chapitre 6. Annales corrigées
112
6.2. Examens terminaux
L’Annexe 3.8, l’Annexe 3.11 (recto-verso), et l’Annexe 3.12 seront à rendre avec la copie.
L’espérance de vie est un indicateur influençant de nombreuses décisions politiques notam-
ment sur les plans sanitaire et économique. Pouvoir comprendre et éventuellement prédire
cette espérance de vie est donc un enjeu d’importance.
Nous cherchons ici à compléter l’étude, menée dans le sujet d’examen, sur l’espérance de vie
de 114 pays au travers de données sur les consommations moyennes d’alcool et de tabac, le
QI moyen, ainsi que le PIB par habitant et l’indice de démocratisation de ces pays.
On rappelle que l’on a introduit les variables suivantes : pour le ième pays étudié (i ∈
{1, . . . , 114}),
— Yi son espérance de vie,
— xi,1 la consommation annuelle moyenne d’alcool de ses adultes de plus de 15 ans (en
L d’alcool pur),
— xi,2 le nombre annuel moyen de cigarettes consommées par ses habitants,
— xi,3 le QI moyen de ses habitants,
— xi,4 son PIB par habitant (en dollar international),
— xi,5 son indice de démocratisation (note sur 10).
où les εi sont des termes d’erreur aléatoires supposés vérifier les conditions suivantes :
— E[εi ] = 0 pour tout i,
— cov(εi , ε j ) = 0 pour tout i , j,
— var(εi ) = σ2 pour tout i,
— ε = (ε1 , . . . , ε114 )0 suit une loi gaussienne.
Ce modèle s’écrit sous la forme matricielle classique : Y = Xβ + ε.
1. Estimation de β et σ2 .
a) Quelle hypothèse sur X doit-on faire pour pouvoir calculer l’estimateur des moindres
carrés ordinaires β̂ de β ? Expliquer.
b) Sous cette hypothèse, donner l’expression de β̂.
c) L’estimateur β̂ est-il un estimateur :
— sans biais ?
— de variance minimale parmi les estimateurs linéaires sans biais de β ?
— d’erreur quadratique moyenne minimale ?
113
Chapitre 6. Annales corrigées
2. Pour le modèle considéré, on a mis en œuvre sous le logiciel SAS une procédure de
régression linéaire multiple. On a obtenu la sortie donnée en Annexe 3.8 (à rendre).
Compléter la sortie obtenue sur l’Annexe 3.8 (à rendre), en précisant la commande SAS
utilisée pour obtenir cette sortie et les justifications nécessaires, et la rendre avec la copie (ne
pas oublier d’y inscrire son nom !).
On a mis en œuvre une procédure de regréssion linéaire multiple pour le modèle (Mm ) à
l’aide du logiciel R, afin de pouvoir tracer des graphes complémentaires de son choix. Ces
graphes sont reportés en Annexe 3.11 (à rendre).
1. Tracer sur les quatre premiers graphes de l’Annexe 3.11 (à rendre) les droites horizon-
tales représentant les seuils permettant de détecter les éventuelles valeurs aberrantes, les
éventuelles données à effet levier et les éventuelles données influentes.
2. Compléter le questionnaire de l’Annexe 3.11 (à rendre) et rendre cette annexe avec la copie
(ne pas oublier d’y inscrire son nom !).
Compléter le questionnaire de l’Annexe 3.12 (à rendre) et rendre cette annexe avec la copie
(ne pas oublier d’y inscrire son nom !).
114
6.2. Examens terminaux
Table de la loi gaussienne : on donne pour différentes valeurs de α ∈ [0, 1], qα tel que
P(N ≤ qα ) = α lorsque N ∼ N(0, 1).
Table de la loi de Student : on donne pour différentes valeurs de n et de α ∈ [0, 1], tn,α tel que
P(T ≤ tn,α ) = α lorsque T ∼ T (n) (on rappelle que la loi de Student est symétrique).
Table de la loi de Student : on donne pour différentes valeurs de q et pour différentes valeurs
de n la valeur de pn,q = P(T ≤ q) lorsque T ∼ T (n).
q 2.9 2.91 2.92 2.93 2.94 2.95 2.96 2.97 2.98 2.99
p110,q 0.99775 0.99781 0.99788 0.99794 0.99800 0.99806 0.99812 0.99817 0.99823 0.99828
p111,q 0.99775 0.99782 0.99788 0.99794 0.99800 0.99806 0.99812 0.99817 0.99823 0.99828
p112,q 0.99775 0.99782 0.99788 0.99795 0.99801 0.99807 0.99812 0.99818 0.99823 0.99828
Table de la loi de Fisher : on donne pour différentes valeurs de (n1 , n2 ) et de α ∈ [0, 1], fn1 ,n2 ,α
tel que P(F ≤ fn1 ,n2 ,α ) = α lorsque F ∼ F (n1 , n2 ).
115
Chapitre 6. Annales corrigées
Table de la loi du Khi Deux : on donne pour différentes valeurs de n et de α ∈ [0, 1], kn,α tel
que
P(K ≤ kn,α ) = α lorsque K ∼ χ2 (n).
116
6.2. Examens terminaux
117
Chapitre 6. Annales corrigées
Ce modèle peut s’écrire sous la forme d’un modèle de régression linéaire multiple :
Y = Xβ + ε.
1. Définitions, hypothèses.
a) Préciser Y, X, β, ε et les hypothèses faites sur ε.
b) Rappeler la définition de l’estimateur des moindres carrés ordinaires β̂ de β. Sous une
hypothèse nécessaire (à préciser) sur X, donner l’expression de β̂.
c) Déterminer un estimateur σb2 sans biais de la variance résiduelle σ2 .
2. Pour le secteur économique de l’automobile, gravement touché par la crise économique
actuelle, on a
1496.5823 −150.9911 44.04131
(X0 X)−1 = −150.9911 45.58669 −34.78859 ,
44.04131 −34.78859 31.63375
et
1 h i0 h
−1 0 −1
i h i
M( β̂ − β) M(X 0
X) M M(β̂ − β) ∼ χ2 (q).
σ2
— 12σb2 /σ2 ∼ χ2 (12).
— Les estimateurs β̂ et σb2 sont indépendants.
Construire de façon détaillée, à partir de ces résultats, un test de significativité globale du
modèle au niveau 5%. Quelle est la conclusion du test ?
c) Construire une région de confiance simultanée pour (β1 , β2 ) de niveau de confiance 95%
et retrouver le résultat précédent.
d) La fonction de production donnée par (6.2) est plus facile à interpréter si elle est à
rendements d’échelle constants, c’est-à-dire si β1 + β2 = 1. Construire un test de l’hypothèse
(H0 ) β1 + β2 = 1 contre l’alternative (H1 ) β1 + β2 , 1 au niveau 5%. Quelle est la conclusion
de ce test ?
e) Donner un encadrement de la p-valeur du test de la question précédente. Retrouver la
conclusion précédente.
Une généralisation du modèle de Cobb-Douglas défini par (6.2) est le modèle translog :
118
6.2. Examens terminaux
Partie III : Détection d’éventuels écarts au modèle, données aberrantes, leviers, influentes
On fournit en Annexe 3.14 plusieurs résultats numériques ou graphiques obtenus après mise
en œuvre de la régression pour le modèle de Cobb-Douglas défini par (6.2), sous hypothèse
gaussienne.
1. Quels résultats peuvent éventuellement permettre de détecter des écarts au modèle ?
Que peut-on conclure ici ?
2. Quels résultats peuvent éventuellement permettre de détecter des données aberrantes ?
En détecte-t-on ici ?
3. Quels résultats peuvent éventuellement permettre de détecter des données ayant un effet
levier ?
En détecte-t-on ici ?
4. Enfin, quels résultats peuvent éventuellement permettre de détecter des données in-
fluentes ?
En détecte-t-on ici ?
119
Chapitre 6. Annales corrigées
Partie IV
On considère maintenant trois secteurs économiques différents, considérés comme les mo-
dalités d’une variable qualitative ou facteur. On souhaite savoir si ce facteur a un effet sur le
logarithme de la valeur ajoutée.
On considère les trois secteurs suivants : agriculture, industries agricoles et alimentaires,
industries des biens de consommation. On dispose pour ces trois secteurs (notés de 1 à 3)
de n = 15 observations chacun. On note Yi, j = ln Vi, j , où Vi,j est la valeur ajoutée de la jème
année pour le secteur i (i = 1, 2, 3; j = 1, . . . , 15), et yi,j (i = 1, 2, 3; j = 1, . . . , 15) les observations
correspondantes.
1. On suppose que les Yi, j vérifient :
avec :
— E[εi, j ] = 0 pour tout (i, j),
— cov(εi, j , εi0 , j0 ) = 0 pour tout (i, j) , (i0 , j0 ),
— var(εi,j ) = σ2 pour tout (i, j).
En notant Y = (Y1,1 , . . . , Y1,15 , Y2,1 , . . . , Y2,15 , Y3,1 , . . . , Y3,15 )0 , ε = (ε1,1 , . . . , ε1,15 , ε2,1 , . . . , ε2,15 , ε3,1 , . . . , ε3,15 )0 ,
et β = (β1 , β2 , β3 )0 , le modèle précédent peut s’écrire sous la forme classique d’un modèle de
régression linéaire :
Y = Xβ + ε.
1. Donner la forme de la matrice X, et vérifier que les hypothèses standards, ainsi que
l’hypothèse de rang sur la matrice du plan d’expérience sont satisfaites.
2. Donner les expressions de X0 X et de (X0 X)−1 .
3. En déduire des expressions simples de l’estimateur des moindres carrés ordinaires β̂ de β,
du vecteur des valeurs ajustées Ŷ, et de l’estimateur sans biais usuel σb2 de la variance σ2 .
4. On a relevé les valeurs suivantes : 15
P15 P15
j=1 y1j = 156.7362, j=1 y2j = 151.7167, j=1 y3j =
P
P15 2 P15 2 P15 2
155.6461 et j=1 y1j = 1637.84, j=1 y2j = 1534.59, j=1 y3j = 1615.07. Calculer les valeurs de
β̂ et σb2 sur les observations.
5. Le vecteur 1 = (1, . . . , 1) de R45 appartient-il à l’espace engendré par les vecteurs colonnes
de X ? Écrire l’équation d’analyse de la variance dans ce cas.
6. Sous hypothèse gaussienne, construire un test permettant de tester l’absence d’effet du
facteur secteur économique, i.e. un test de (H0 ) : β1 = β2 = β3 au niveau 5%. Quelle est la
conclusion de ce test ?
120
6.2. Examens terminaux
Table de la loi gaussienne : on donne pour différentes valeurs de α ∈ [0, 1], qα tel que
P(N ≤ qα ) = α lorsque N ∼ N(0, 1).
Table de la loi de Student : on donne pour différentes valeurs de n et de α ∈ [0, 1], tn,α tel que
P(T ≤ tn,α ) = α lorsque T ∼ T (n) (on rappelle que la loi de Student est symétrique).
Table de la loi de Student : on donne pour différentes valeurs de q et pour différentes valeurs
de n la valeur de pn,q = P(T ≤ q) lorsque T ∼ T (n).
121
Chapitre 6. Annales corrigées
Table de la loi de Fisher : on donne pour différentes valeurs de (n1 , n2 ) et de α ∈ [0, 1], fn1 ,n2 ,α
tel que P(F ≤ fn1 ,n2 ,α ) = α lorsque F ∼ F (n1 , n2 ).
122
6.2. Examens terminaux
Partie I
ln V1 1 ln K1 ln L1 ln η1
β
0
.. , X = ... .. .. ..
Y = , β = β1 , ε = ,
. . . .
β2
ln η15
ln V15 1 ln K15 ln L15
2. D’après la question précédente, β̂obs = (−9.32697, 0.4718784, 0.8550131)0 et σb2 obs = SCR/12 =
0.005618.
1 h i0 h i−1 h i
F(Y) = Mβ̂ M(X0 X)−1 M0 Mβ̂ ,
2σb2
123
Chapitre 6. Annales corrigées
2σb2
R.
On vérifie que (0, 0) <
d) Ici on prend M = 0 1 1 et m = 1, donc la statistique du test de Fisher est
1
F(Y) = (Mβ̂ − 1)0 (M(X0 X)−1 M0 )−1 (Mβ̂ − 1)
σ2
b
qui suit sous (H0 ) la loi F (1, 12). Pour un niveau 5%, on rejette l’hypothèse (H0 ) lorsque
F(y) ≥ 4.747. On a F(y) = 2.4885. On ne rejette donc pas (H0 ) au niveau 5%.
e) La p-valeur du test est égale à p(y) = P(H0 ) (F(Y) ≥ 2.4885), or sous (H0 ), F(Y) ∼ F (1, 12), donc
√
F(Y) est de même loi que |T|, avec T ∼ T (12). Par conséquent, p(y) = 2(1 − P(T ≤ 2.4885)),
p
√
et comme 0.92 ≤ P(T ≤ 2.4885) ≤ 0.932, 0.136 ≤ p(y) ≤ 0.16. Puisque p(y) > 0.05, on ne
rejette pas (H0 ) au niveau 5%.
Partie II
où SCR1 est la somme des carrés résiduelle dans le modèle translog, SCR étant la somme
des carrés résiduelle dans le modèle de Cobb-Douglas. Sous (H0 ), on sait que F(Y) ∼
F (3, 9), donc on rejette l’hypothèse (H0 ) lorsque F(y) ≥ 3.863. On a ici F(y) = 3(0.067416 −
0.057158)/0.057158 = 0.5384. On ne rejette donc pas l’hypothèse (H0 ) au niveau 5%, c’est-à-
dire qu’on ne rejette pas l’hypothèse que le modèle de Cobb-Douglas est adéquat.
3. a) Le R2 est croissant en fonction du nombre de variables explicatives, donc choisir un
modèle qui a le plus grand R2 dans une collection de modèles revient à choisir systémati-
quement un modèle ayant le plus grand nombre de variables explicatives. Ce n’est donc pas
un bon critère de sélection de variables. En revanche, le R2 reste un bon critère pour choisir
entre deux modèles ayant le même nombre de variables.
b) Il existe quatre types de procédures de sélection de variables : procédures exhaustive,
backward, forward et stepwise. On peut utiliser pour chacune de ces procédures les critères
du R2 ajusté, d’AIC et de BIC, ainsi que le Cp de Mallows, mais les tests de validité de
sous-modèles ne sont pas utilisables avec une procédure de sélection exhaustive.
Pour la procédure exhaustive, on choisit M5 avec les 3 critères. Pour la procédure ascendante
ou forward, on choisit également M5. Enfin, pour la procédure descendante, on choisit M345
avec le R2 ajusté, M5 avec AIC et BIC.
124
6.2. Examens terminaux
c) On teste (H0 ) : M5 est valide contre (H1 ) : il ne l’est pas au niveau 5%. La statistique de test
s’écrit
(SCRM5 − SCR1 )/4
F(Y) = ,
SCR1 /9
où SCR1 est la somme des carrés résiduelle dans le modèle translog, SCRM5 est la somme des
carrés résiduelle dans le modèle M5. Sous (H0 ), on sait que F(Y) ∼ F (4, 9), donc on rejette
l’hypothèse (H0 ) lorsque F(y) ≥ 3.633. On a ici pour le modèle M5,
SCRM5 /13
R2a,M5 = 1 − ,
SCT/14
SCR1 /9
R2a = 1 − ,
SCT/14
d’où
(13(1 − R2a,M5 ) − 9(1 − R2a ))/4
F(Y) = ,
1 − R2a
et F(y) = 0.426. On accepte donc l’hypothèse (H0 ) au niveau 5%, c’est-à-dire qu’on accepte
l’hypothèse que le modèle M5 est valide.
d) Ce modèle peut avoir été sélectionné à l’aide des critères ci-dessus sans que toutes ses
variables explicatives soient significatives.
Partie III
1. Graphes des résidus et graphe quantiles - quantiles gaussiens. Une seule donnée aberrante
ici, ce qui ne vient pas contredire le modèle. Le graphe quantiles - quantiles gaussions semble
assez satisfaisant, mais on a le problème du peu de données : dans ce cas, la loi de Student
des résidus n’est pas proche d’une loi gaussienne. En revanche, on observe une structuration
du graphe des résidus en fonction des valeurs ajustées, mais on a aussi peu d’observations,
donc il est difficile de voir précisément...
2. Graphe des résidus : une donnée aberrante, la 12ème.
3. La donnée des Hat Values peut permettre de détecter des données à effet levier : plusieurs
dépassent 0.2 (seuil de Huber). Les données 3,4,7,11,15.
4. Le quantile de la loi de Fisher à 3 et 12 degrés de liberté de niveau 0.1 étant égal à 0.192,
on peut considérer la donnée 12 comme influente (donnée aberrante).
Partie IV
1. Il s’agit ici d’un modèle d’ANOVA à un facteur avec une contrainte de type analyse par
cellule (constante nulle).
125
Chapitre 6. Annales corrigées
Les hypothèses standards sont vérifiées par ε et la matrice X est bien de rang 3.
2. X0 X = 15I3 et (X0 X)−1 = 15
1
I3 .
1 P15
3. β̂ = (X X) X Y = (Ȳ1• , Ȳ2• , Ȳ3• ), avec Ȳi• = 15
0 −1 0
j=1 Yi, j pour tout i. Le vecteur des valeurs
ajustées est défini par Ŷ = (Ȳ1• , . . . , Ȳ1• , . . . , Ȳ3• , . . . , Ȳ3• )0 , celui des résidus par : ε̂i,j = Yi,j −Ȳi• ,
et σb2 = 1 3
P P15 2
ε̂ = 1 3
P P15
42 i=1 j=1 i, j 42 i=1 (Y − Ȳ )2 .
j=1 i, j i•
126
Bibliographie
[1] Azaïs, J.-M., Bardet, J.-M. (2006). Le modèle linéaire par l’exemple. Régression analyse de la
variance et plans d’expérience, Dunod, Paris.
[2] Cornillon, P.-A., Matzner-Løber, E. Régression avec R, Springer.
[3] Dodge, Y., Rousson, V. Analyse de régression appliquée, Dunod.
[4] Kleinbaum, D. et al. Applied regression analysis and other multivariate methods.
[5] Tomassone, R. La régression, Masson.
127