Estimation Paramétrique et Estimateurs
Estimation Paramétrique et Estimateurs
Définition
Soit Tn un estimateur de g(θ) admettant un moment d’ordre 1. On
appelle biais de l’estimateur Tn par rapport à g(θ) la quantité
Le fait qu’un estimateur soit sans biais ne veut pas dire que cet
estimateur soit de bonne qualité. En effet, ce n’est qu’une indication
en moyenne. L’intérêt est surtout que cette notion permet de définir
une classe d’estimteurs celle des estimateurs sans biais.
Remarque
Soient Tn un estimateur du paramètre θ et ϕ une fonction continue de
R dans R. Si l’estimateur Tn est sans biais, ceci n’implique pas que
l’estimateur ϕ(Tn ) de ϕ(θ) est sans biais.
Définition
Soit Tn un estimateur de g(θ) ∈ R admettant un moment d’ordre 2.
On appelle risque quadratique de l’estimateur Tn la fonction RTn
définie par
RTn (θ) = Eθ (Tn − g(θ))2
RTn (θ) mesure l’erreur que l’on fait si on estime g(θ) par Tn , c’est à
dire la précision de l’estimateur Tn . Elle doit être la plus petite
possible.
Pθ (Y ≤ y) = Pθ (X1 ≤ y, · · · , Xn ≤ y)
n
Y
= Pθ (Xi ≤ y)
i=1
= (Pθ (X1 ≤ y))n
y n
0 si y ≤ 0, θ , si 0 ≤ y ≤ θ, 1 si y > θ
Probabilités et Statistiques Estimation paramétrique 8 / 125
Risque quadratique d’un estimateur
Exemple
Donc Y admet pour densité la fonction
n n−1
g(y, θ) = y 1[0,θ] (y)
θn
et
Z θ
n n
Eθ (Y ) = n
y dy
θ
0
n
= θ
n+1
et donc
n+1
Eθ (T2 ) = Eθ (Y ) = θ
n
et par suite T2 est un estimateur sans biais de θ.
D’autre part, on a
Probabilités et Statistiques 4
Estimation paramétrique θ2 9 / 125
Risque quadratique d’un estimateur
Exemple
R θ n n+1
n
Comme Eθ (Y 2 ) = 0 θ n y dy = 2
n+2 θ , alors
n+1 2
Vθ (T2 ) = Vθ (Y )
n
2 !
n+1 2 n n
2
= θ − θ2
n n+2 n+1
θ2
=
n(n + 1)
Par conséquent
Vθ (T2 ) 3
= ≤1
Vθ (T1 ) n+1
et par suite T2 est meilleur que T1 .
Proposition
Soit Tn un estimateur de θ admettant un moment d’ordre 2. Alors
Démonstration
Par linéarité de l’espérance, on a :
RTn (θ) = Eθ (Tn − θ)2
= Eθ (Tn − Eθ (Tn ) + Eθ (Tn ) − θ)2
= Eθ (Tn − Eθ (Tn ))2
+ 2Eθ ((Tn − Eθ (Tn ))(Eθ (Tn ) − θ)) + (Eθ (Tn ) − θ)2
= Vθ (Tn ) + (Eθ (Tn ) − θ)2 .
Définition
Soit Tn un estimateur de θ admettant un moment d’ordre 2. Un
estimateur sans biais Tn de θ est dit de variance minimum si pour tout
autre estimateur sans biais Sn , on a Vθ (Tn ) ≤ Vθ (Sn ).
Proposition
Soit Tn un estimateur sans biais de θ admettant un moment d’ordre 2
pour tout θ ∈ Θ. Alors Tn est un estimateur sans biais de variance
minimum de θ si et seulement si pour toute variable Sn centrée et
admettant un moment d’ordre 2 pour tout θ ∈ Θ, on a
Eθ (Sn Tn ) = 0.
puisque
Eθ ((Y − Tn )(Tn − θ)) = Eθ (Tn (Y − Tn )) − θEθ (Y − Tn ) = 0 car
Sn = Y − Tn vérifie Eθ (Sn ) = 0 et admet un moment d’ordre 2 tel
que Eθ (Sn Tn ) = 0, et que Eθ (Y − Tn )2 ≥ 0.
Probabilités et Statistiques Estimation paramétrique 14 / 125
Risque quadratique d’un estimateur
Démonstration
Condition nécessaire : Si Eθ (S) = 0, alors pour tout α ∈ R, on a
qui prend ses valeurs dans [0, 1]. Si n grand, elle prend avec une forte
probabilité des valeurs proches de θ, d’après la loi des grands
nombres. Quel que soit le modèle et le paramètre à estimer, prendre
des valeurs proches de ce paramètre au moins pour un grand
échantillon est la qualité principale que l’on attend d’un estimateur.
En toute rigueur, on doit considérer une suite d’estimateurs (Tn ), où
pour tout n ∈ N, Tn est une variable fonction de l’échantillon
(X1 , · · · , Xn ). Par abus de langage, on appelle encore estimateur
cette suite, et on étudie sa convergence.
Définition
Soit (Tn )n∈N une suite d’estimateurs de θ.
1 La suite (Tn )n∈N est dite convergente (consistante) si pour tout
θ∈Θ
Pθ
Tn −→ θ
(Tn converge en probabilité vers θ : pour tout ε > 0,
limn−→+∞ Pθ (|Tn − θ| > ε) = 0).
2 La suite (Tn )n∈N est dite fortement convergente (fortement
consistante) si pour tout θ ∈ Θ
θ P −p.s
Tn −→ θ
Définition
1 La suite (T )
n n∈N est dite consistante en moyenne quadratique si
pour tout θ ∈ Θ
lim Eθ (Tn − θ)2 = 0
n→+∞
Exemple
Soit (X1 , · · · , Xn ) un n−échantillon de loi Pθ et d’Espérance θ.
L’estimateur
n
1X
Xn = Xi
n i=1
est convergent d’après la loi faible des grands nombres. Pour tout
ε > 0 fixé, aussi petit soit-il la probabilité que X n n’appartienne pas
à l’intervalle [θ − ε, θ + ε] tend vers 0 quand n tend vers l’infini.
Remarque
Si limn−→+∞ RTn (θ) = 0 alors l’estimateur sans biais Tn est
convergent. En effet, d’après l’inégalité de Bienaymé-Tchebytchev,
appliquée à la variable aléatoire Tn , on a
Définition
Soit (Tn )n∈N une suite d’estimateurs de θ. On dit que Tn est un
estimateur asypmtotiquement normal si pour tout θ ∈ Θ
√ loi
n(Tn − θ) −→ N (0, Σ(θ))
Proposition
Soit Tn un estimateur convergent du paramètre θ et ϕ une fonction
continue de Θ dans Rk . Alors ϕ(Tn ) est un estimateur convergent de
ϕ(θ).
Exemple
La loi Pθ est la loi uniforme sur ]0, θ], où le paramètre θ est inconnu.
La moyenne empirique X n est un estimateur convergent de
l’espérance de la loi qui vaut θ/2. Donc Tn = 2X n est un estimateur
convergent de θ. Mais X suit la loi uniforme sur ]0, θ], alors
E(log(X)) vaut log(θ) − 1. Toujours d’après la loi des grands
nombres
log(X1 ) + · · · + log(Xn )
n
est un estimateur convergent de log(θ) − 1, donc l’estimateur :
log(X1 ) + · · · + log(Xn )
Sn = exp +1
n
est encore un estimateur convergent de θ.
∂f (x,θ) ∂ 2 f (x,θ)
H4 Les fonctions ∂θi et ∂θi ∂θj sont intégrbles pour tout θ ∈ Θ
| ∂f∂θ
(x,θ)
R
et pour tout i, j ∈ {1, · · · d} ( X i
|dx < ∞ et
2
| ∂∂θfi(x,θ)
R
RX ∂θj |dx < ∞). De plus pour tout B borélien l’intégrale
B f (x, θ)dx est au moins deux fois dérivable sous le signe
d’intégration et on peut permuter intégration et dérivation :
∂ ∂f (x, θ)
Z Z
f (x, θ)dx = dx; j = 1, · · · d
∂θj B B ∂θj
∂2 ∂ 2 f (x, θ)
Z Z
f (x, θ)dx = dx; i, j ∈ {1, · · · d}
∂θi ∂θj B B ∂θi ∂θj
Définition
Si les hypothèses H1 − H4 sont vérifiées, on dit que le modèle est
régulier.
Remarque
Dans le cas discret l’hypothèses H − 4 s’écrit sous la forme
suivante : ∀B ∈ X
∂ P P ∂f (x,θ)
∂θi x∈B f (x, θ) = x∈B ∂θi
∂2 P P ∂ 2 f (x,θ)
∂θi ∂θj x∈B f (x, θ) = x∈B ∂θi ∂θj
Définition
On appelle score le vecteur aléatoire S(X, θ) définit par
∂ log f (X,θ)
∂θ1
S(X, θ) = gradθ log f (X, θ) = ..
.
∂ log f (X,θ)
∂θd
df (X,θ)
d log f (X,θ)
pour d = 1, S(X, θ) = dθ = dθ
f (X,θ) .
Remarque
Le vecteur aléatoire S(X, θ) dépend de θ, ce n’est pas donc un
estimateur.
Exemple
Soit X une variable aléatoire de loi Poisson P(θ). L’espace des
paramètres Θ = R∗+ et l’espace des résultats est X = N. Dans ce
modèle la loi de probabilité est
θx 1
f (x, θ) = e−θ = e−θ exp(x log(θ))
x! x!
Le vecteur score est donc
d log f
S(X, θ) = (X, θ)
dθ
comme log f (x, θ) = −θ + x log θ − log(x!) alors
X
S(X, θ) = −1 +
θ
Théorème
1 Le score est un vecteur aléatoire centré
Démonstration
Pour tout θ ∈ Θ et pour tout i = 1, · · · , d, on a
∂ log f (X, θ)
Eθ =0
∂θi
En effet, on a
Démonstration
or d’après l’hypothèse [H4],
∂f (x, θ) ∂ ∂
Z Z
dx = f (x, θ)dx = 1=0
X ∂θi ∂θi X ∂θi
et donc
E(S(X, θ)) = E(gradθ log(f (x, θ))) = 0Rd
Par définition, on a
∂ log(f(X,Y ) ((x, y), θ)) ∂ log(fX (x, θ)) ∂ log(fY (y, θ))
= +
∂θi ∂θi ∂θi
et donc S((x, y), θ) = S(x, θ) + S(y, θ) ou encore
Conséquence
Soit (X1 , · · · , Xn ) un n−échantillions de même loi que X alors
n
X
S(X1 , · · · , Xn , θ) = S(Xi , θ)
Probabilités et Statistiques i=1
Estimation paramétrique 32 / 125
Information de Fisher
Définition
Dans un modèle régulier, on appelle information de Fisher du modèle
au point θ (apporté par X sur θ) la matrice de covariance du score
S(X, θ) donnée par
I(θ) = Vθ (S(X, θ)) = Eθ S(X, θ)(S(X, θ))t =
!!
∂ log f (X, θ) ∂ log f (X, θ)
Eθ
∂θi ∂θj 1≤i,j≤d
lorsque cette quantité est bien définie (L’espérance est prise par
rapport à Pθ , pour θ fixé).
Définition
Pour d = 1,
2 !
d log f (X, θ)
I(θ) = Vθ (S(X, θ)) = Eθ =
dθ
df (X,θ)
!2
dθ
Eθ
f (X, θ)
Remarque
Pour un modèle régulier, l’information de Fisher est une matrice
symétrique positive comme étant la matrice de covariance du vecteur
aléatoire centré S(X, θ)
Théorème
Dans un modèle régulier , on a la relation suivante
!!
∂ 2 log f (X, θ)
I(θ) = − Eθ = −Eθ (Hθ2 (log f (X, θ)))
∂θi ∂θj 1≤i,j≤d
ainsi
! !
∂ 2 log f (X, θ) 1 ∂f (X, θ) ∂f (X, θ)
Eθ = −Eθ
∂θi ∂θj f 2 (X, θ) ∂θi ∂θj
!
1 ∂f (X, θ) 1 ∂f (X, θ)
= −Eθ
f (X, θ) ∂θi f (X, θ) ∂θj
!
∂ log f (X, θ) ∂ log f (X, θ)
= −Eθ
∂θi ∂θj
Remarque
Dans un modèle régulier, l’information de Fisher I(θ) ≥ 0 pour tout
θ ∈ Θ.
Théorème
Pour un modèle régulier, l’information de Fisher est additive : si X et
Y sont deux variables aléatoires indépendantes dans des modèles
paramétriques au paramètre θ commun alors
Conséquence
Soit (X1 , · · · , Xn ) un n−échantillions de même loi que X de matrice
d’information IX (θ) = I(θ) alors, on a la relation suivante :
X
S(X, θ) = −1 +
θ
et donc
Probabilités et Statistiques Estimation paramétrique 41 / 125
Information de Fisher
Exemple
Exemple
Soit X une v.a.r de loi N (m, σ) (i.e θ = (θ1 , θ2 ) = (m, σ 2 ) et donc
de densité
1 1
f (x, θ) = √ exp − 2 (x − m)2
σ 2π 2σ
d’où
1 1 1
log(f (x, θ)) = − log(2π) − log(σ 2 ) − 2 (x − m)2
2 2 2σ
Comme f est de classe C 2 par rapport à m et σ 2 alors les dérivées
seconde de f sont données par
∂ 2 log(f (x,θ) 2
∂m2
= − σ12 , ∂ log(f (x,θ)
∂(σ 2 )2
= 2σ1 4 − σ16 (x − m)2
et donc
Probabilités et Statistiques Estimation paramétrique 45 / 125
Information de Fisher
Exemple
∂A(λ)
T1 (X)
∂λ. 1 ..
S(X, λ) = gradθ log f (X, λ) = −
.. +
.
∂A(λ) Tr (X)
∂λr
De plus
∂ 2 f (x, λ) ∂ 2 A(λ)
=−
∂λi ∂λj ∂λi ∂λj
et par suite
!! !
∂ 2 f (x, λ) ∂ 2 A(λ)
I(λ) = − Eλ =
∂λi ∂λj 1≤i,j≤r
∂λi ∂λj 1≤i,j≤r
= Hλ2 (A)(λ)
Information et exhaustivité
Proposition
Dans un modèle régulier, pour tout statistique T, on a
IT (θ) ≤ In (θ)
et IT (θ) = In (θ) ⇐⇒ T est exhaustive
Remarque
L’information de Fisher en θ, n’est pas celle en g(θ).
Borne de Rao-Cramer
Soit le modèle statistique (X , A, Pθ : θ ∈ Θ).
On suppose les hypothèses H1 − H4 sont vérifiées et de plus on
suppose
H5 Pour tout θ ∈ Θ la matrice d × d d’information de Fisher I(θ)
existe et elle est symétrique et définie positive.
Borne de Rao-Cramer
Définition
Un estimateur T (X1 , · · · , Xn ) de g(θ) est
R
dit régulier dans un
modèle régulier si Vθ (T (X)) < +∞ et X n T (x)f (x, θ)dx est
dérivable par rapport à θ sous le symbole d’intégration :
V(Tn (X1 , · · · , Xn )) ≥
dg(θ) 2
2
(cov(Tn (X1 , · · · , Xn )), S(X1 , · · · , Xn , θ)) dθ
=
In (θ) In (θ)
Borne de Rao-Cramer
Par définition, l’information de Fisher est le nombre réel défini par
2 !
d log f (X, θ)
I(θ) = Eθ
dθ
Borne de Rao-Cramer
En dérivant par rapport à θ, on a :
dg(θ) d
Z
= T (x)f (x, θ)dx
dθ dθ Xn
df (x, θ)
Z
= T (x) dx
Xn dθ
d log f (x, θ)
Z
= T (x) f (x, θ)dx
ZX
n dθ
= T (x)S(x, θ)f (x, θ)dx
Xn
= E(T (X)S(X, θ))
Remarque
Dans le cas où g est l’identité, on a
1
Eθ (T (X1 , · · · Xn ) − θ)2 ≥
In (θ)
Probabilités et Statistiques Estimation paramétrique 53 / 125
Information de Fisher
Borne de Rao-Cramer
Remarque
Soit Tn un estimateur sans biais de θ. On dit que Tn est efficace si
Remarque
Soit Tn un estimateur sans biais de θ. Si Tn est efficace alors il est à
variance minimum.
Définition
Soit (X1 , · · · , Xn ) un n−échantillon de loi Pθ admettant des
moments jusqu’à l’ordre r. On note mi = Eθ (X1i ), Pour tout
i ∈ {1, · · · r}. on appelle moment empirique d’ordre i, la variable
aléatoire
n
1X
i
Xn= Xi
n k=1 k
Remarque
De même g(X 1 n , · · · , X r n ) un estimateur de g(m1 (θ), · · · , mr (θ))
sera obtenu par. Ainsi
1 La moyenne empirique
n
1X
Xn = Xk
n k=1
Remarque
Comme X1 , · · · , Xn sont indépendantes et de même loi donc
Eθ (X12 )
n(n − 1)
E (X n ) 2
= + 2
(Eθ (X1 ))2
n n
et par suite
Eθ (X12 )
n−1
E Sn02 = Eθ (X12 ) − − (Eθ (X1 ))2
n n
n−1
= Eθ (X12 ) − (Eθ (X1 ))2
n
n−1
= V(X1 )
n
Remarque
Soient (X1 , · · · , Xn ) un n−échantillon de loi Pθ et ϕ une fonction
continue de R dans R telle que ϕ(Xi ) admet un moment d’ordre 1.
Alors E(ϕ(Xi )) peut être estimeé par la moyenne empirique de
l’échantillon (ϕ(X1 ), · · · , ϕ(Xn )) :
n
1X
ϕ(X)n = ϕ(Xi ).
n i=1
Exemple
Soit (X1 , · · · , Xn ) un n−échantillon de loi uniforme sur {1, · · · , θ}
telle que pour tout x ∈ {1, · · · , θ}, P(Xi = x) = 1θ . Ainsi, on a
θ
X i θ(θ + 1) θ+1
E(Xi ) = = = .
i=1
θ 2θ 2
Proposition
Soit (X1 , · · · , Xn ) un n−échantillon de loi Pθ d’espérance m et de
variance σ 2 .
La moyenne empirique X n = n1 nk=1 Xk
P
1
1 n
La variance empirique Sn2 = n−1 k=1 (Xk − X n )
2
P
2
2 La variable aléatoire
!
Xn − m √ Xn − m
= n
√σ σ
n
Démonstration
Pn 2ak 1 Pn 2 1
d’où k=1 a2k − n + n2
≥ 0 ou encore 2
k=1 ak − n + n ≥ 0,
ainsi nk=1 a2k ≥ 1
P
n et
de plus il y a égalité si et seulement si
ak − n1 = 0 pour tout k ∈ {1, · · · n}.
Un calcul simple montre que
n
X
(n − 1)Sn2 = (Xk − m)2 − n(X n − m)2 .
k=1
Pn 2
Or Eθ k=1 (Xk − m) = nVθ (X1 ) et
1
Eθ n(X n − m)2 = nV(X n ) = n nVθ (X1 )
n2
et donc Eθ (Sn2 ) = Vθ (X1 ) = σ 2 .
Démonstration
La loi forte des grands nombres s’applique : pour tout θ ∈ Θ
P −p.s
(X n − m)2 −→
θ
n−→+∞ 0
θ P −p.s
puisque X n − m −→ n−→+∞ 0 et
n
1X Pθ −p.s
(Xk − m)2 −→ 2
n−→+∞ σ .
n k=1
est un estimateur sans biais de σ 2 . Dans ce cas σn2 est meilleur que
Sn2 . On a
n−1
cov(X n , σn2 ) = E((X − E(X))3 )
n
Remarque
p
On peut estimer l’ecart-type
p σppar l’estimateur Sn2 mais il n’est pas
2 E(Sn2 ) (on n’a pas de résultat
sans biais puisque E( Sp n ) 6=
général sur la qualité de Sn2 ) .
Probabilités et Statistiques Estimation paramétrique 67 / 125
Maximum de vraisemblance
0, 1, 1, 0, 1, 1, 1, 0, 0, 1.
p 0,7 0, 8
p6 (1 − p)4 9, 5.10−4 4, 2.10−4
Conséquence
1 Si X est discrète. Pour tout x ∈ X ,
L(x, θ) = f (x, θ) = Pθ (X = x)
2 Si X est v.a de densité fθ . Pour tout x ∈ X ,
L(x, θ) = f (x, θ) = fθ (x)
Probabilités et Statistiques Estimation paramétrique 70 / 125
Maximum de vraisemblance
L(x1 , · · · , xn , .) : Θ −→ R+
n
Y
θ −→ L(x1 , · · · , xn , θ) = f (xi , θ)
i=1
θbn = max(x1 , · · · , xn )
θx
P(X = x) = e−θ .
x!
On se propose d’estimer le paramètre inconnu θ. L’ensemble des
observations possibles est Nn et le paramètre inconnu est θ ∈]0, +∞[.
Ainsi si (x1 , · · · , xn ) ∈ Nn est l’échantillon observé, alors
Pn
θ k=1 xk
L(x1 , · · · , xn , θ) = e−nθ Qn
k=1 xk !
Pn
Alors log L(x1 , · · · , xn , θ) = −nθ + ( k=1 xk ) log(θ) − constante
∂ 2 log L n
2
=− 2
∂m σ
et donc
Remarque
L’EMV lui même n’est pas forcément exhaustive. En effet, soit X une
v.a de loi U[θ, 2θ] de densité
1
f (x, θ) = 1[θ,2θ] (x)
θ
La vraisemblance d’un n−échnatillon (X1 , · · · , Xn ) de même loi que
X est donc
1
Ln (θ) = 1θ≤inf 1≤i≤n Xi ≤sup1≤i≤n Xi ≤2θ
θn
La statistique (inf 1≤i≤n Xi , sup1≤i≤n Xi ) est exhaustive minimale
pour θ.
Remarque
D’autre part, l’EMV θbn est donnée par définition par la valeur
sup1≤i≤n Xi
θ∈ , inf Xi
2 1≤i≤n
Proposition
Sous les hypothèses H1 − H5 , on a pour toute solution θbn de
p.s
l’equation de vraisemblance telle que θbn −→ θ0 où θ0 est la vraie
valeur du paramètre θ, alors
√ loi
n(θbn − θ0 ) −→ N (O, I −1 )
On dit que l’EMV est aymptotiquement efficace.
Probabilités et Statistiques Estimation paramétrique 88 / 125
Vecteurs gaussiens
Définition
Une v.a (X1 , · · · , Xd ) à valeurs dans Rd est dite vecteur gaussien si
pour tout (a1 , · · · , ad ) ∈ Rd la v.a réelle di=1 ai Xi est de loi
P
normale.
Conséquence
Soit (X1 , · · · , Xd ) un vecteur gaussien. Alors chaque composante Xk
est une v.a réelle de loi normale.
Théorème
Soit X = (X1 , · · · , Xd ) une v.a à valeurs dans Rd d’espérance
m = (m1 , · · · , md ) et de matrice de covariance ΣX .
Alors X est un vecteur gaussien ssi sa fonction caractéristique est
donnée par
1
ΦX (s1 , · · · , sd ) = eihs,mi− 2 hs,ΣX si
s1 m1
pour tout s = . où m = .
sd md
Proposition
Soit X = (X1 , · · · , Xd ) un vecteur gaussien à valeurs dans Rd
d’espérance m = (m1 , · · · , md ). X admet une densité sur Rd ssi
sa matrice de covariance ΣX est inversible. Dans ce cas, on a :
1 −1
fX (x1 , · · · , xd ) = d√
1
e− 2 h(x−m),ΣX (x−m)i
(2Π) 2
det ΣX
m1 x1
où m = . et x = .
md xd
Définition
Soit (X1 , · · · , Xn ) un échantillon de la loi normale N (0, 1).
On appelle loi du "Khi-deux" à n degrés de libertés, la loi de la
variable aléatoire réelle
Un = X12 + · · · + Xn2 .
Définition
Soit (X1 , · · · , Xn ) un échantillon de la loi normale N (0, 1).
On appelle loi de Student à n degrés de libertés, la loi de
√
nY
τn = q
X12 + · · · + Xn2
Définition
On appelle loi de Fisher à n et m degrés de libertés, notée F (n, m),
la loi de la variable aléatoire réelle
Un /n mUn
F = =
Vm /m nVm
Remarque
1 La loi de χ2 (n) est la loi Gamma de paramètres ( n2 , 21 ), on a
ainsi
E(Un ) = n et V(Un ) = 2n
Il y a des tables de la loi χ2 (n) pour
√ n ≤ 30.√Dans les
applications on peut admettre que 2Un − 2n − 1 suit
approximativement la loi N (0, 1).
2 Soit la variable aléatoire tn de loi de student à n degrés de
libertés, on a alors
n
E(tn ) = 0, ∀n ≥ 2 et V(tn ) = , ∀n ≥ 3.
n−2
Remarque
La densité de la loi de Student tend vers la densité de la loi normale
N (0, 1) lorsque n tend vers +∞. Il y a des tables de la loi de Student
pour n ≤ 30 ; pour n > 30, dans les applications, on peut admettre
que tn suit approximativement la loi N (0, 1).
Alors, on a
Pn
1 La variable X n = 1
n k=1 Xk suit la loi normale N (m, √σn ) ou
√
n
encore σ (X n − m) suit la loi normale N (0, 1).
1 Pn
2 La variable n−1 S 2 = n−1
σ2 n σ 2 n−1 k=1 (Xk − X n )
2 suit la loi du
χ2 (n − 1).
3 Les variables aléatoires X n et Sn2 sont indépendantes.
√
X√n −m
4 La variable aléatoire Tn = n 2
suit la loi de Student à
Sn
(n − 1) degrés de liberté.
Probabilités et Statistiques Estimation paramétrique 97 / 125
Echantillons gaussiens
Démonstration
1) Le vecteur X = (X1 , · · · , Xn ) est gaussien puisque ses
composantes sont de loi normales et indépendantes, donc X n qui est
une combinaison linéaire des composantes de X est une variable
2
aléatoire de loi normale de paramètres E(X n ) = m et V(X n ) = σn .
2)On pose Xk = σYk + m où Yk est de loi normale N (0, 1) et donc
Z = √1n nk=1 Yk est aussi de loi normale. Ainsi, on a
P
σ
Xn = √ Z + m
n
n
n−1 2 X
S n = Yk2 − Z 2 .
σ2 k=1
Démonstration
Soit maintenant A la matrice orthogonale n × n dont les éléments de
la première ligne sont tous égaux à √1n et soit U = AY où Y est le
vecteur gaussien de composantes Yk .
Le vecteur U est gaussien et sa première composante U1 vaut Z.
Puisque A est orthogonale, on a ||Y ||2 = ||U ||2 et donc
Pn 2 Pn 2
k=1 Yk = k=1 Uk . Ainsi,
n
n−1 2 2 2
X
Sn = ||Y || − Z = Uk2 .
σ2 k=2
Démonstration
3) On a
√ Xn − m 1
Tn = n−1 .
√σ
q
n−1 2
n S
σ2 n
Définition
Soit α ∈ [0, 1] donné. On appelle intervalle de confiance de niveau de
confiance (1 − α) pour le paramètre θ un intervalle Iα (dépendant de
l’observation) qui a la probabilité 1 − α de contenir la vraie valeur
du paramètre θ
Pθ (θ ∈ Iα ) = 1 − α
Remarque
La probabilité (1 − α) est appelée niveau de confiance ou seuil de
confiance (le plus souvent fixé à 0.9, 0.95,0.99 ou 0.999).
P (aα ≤ φ(Tn , θ) ≤ bα ) = 1 − α
P (a(Tn ) ≤ θ ≤ b(Tn )) = 1 − α
ou encore
Remarque
En raison de la signification concrète du paramètre θ, on peut être
amené à construire un intervalle unilatéral de la forme
Exemple
Etant donné un n−échantillon (X1 , · · · , Xn ), on peut construire des
intervalles de confiances à niveau 1 − α donné de la moyenne et de la
variance à l’aide de la moyenne empirique X n et de la variance
empirique Sn2 . La loi de l’échantillon est la loi de Bernoulli B(θ) avec
θ ∈]0, 1[. On se propose de déterminer un intervalle de confiance de
niveau 1 − α pour le paramétre θ qui est l’espérance de la loi B(θ).
Exemple
1 En appliquant l’inégalité de Bienaymé-Tchebytchev :
θ(1 − θ) 1
Pθ |X n − θ| > a ≤ 2
≤ =α
na 4na2
d’où
1
Pθ |X n − θ| ≤ √ ≥1−α
4nα
1 1
ainsi l’intervalle [X n − √4nα , X n + √4nα ] est donc un
intervalle de confiance de niveau d’au moins 1 − α pour θ.
2 En appliquant le théorème central limite, (ce qui fournit un
intervalle meilleur à un niveau donné):
√
pour n suffisamment
n(X n −θ)
grand (nθ ≥ 5 et n(1 − θ) ≥ 5 ), √ suit
θ(1−θ)
approximativement la loi normale N (0, 1)
Exemple
d’où √ !
n(X n − θ)
P | p | ≤ bα =1−α
θ(1 − θ)
or
√ !
n(X n − θ)
P | p | ≤ bα ' φN (0,1) (bα ) − φN (0,1) (−bα )
θ(1 − θ)
Exemple
Pour obtenir l’intervalle de confiance, on résoud en θ l’inégalité
suivante
θ(1 − θ)
(X n − θ)2 ≤ b2α
n
! !
b2 b2 2
ou encore 1+ α θ2 − 2X n + α θ + Xn ≤ 0
n n
Exemple
or le discriminant
!2 !
b2 2 b2
∆= 2X n + α − 4X n 1+ α =
n n
!
b2α b2α
+ 4X n (1 − X n ) >0
n n
l’équation admet donc deux solutions distinctes et l’intervalle de
confiance de niveau
" 1 − α pour θ est défini par ces deux solutions
#
b2 b2
p p
2 2
nX n + α −b b2α /4+nX n −nX n nX n + α +b b2α /4+nX n −nX n
α α
2
n+b2α
, 2
n+b2α
Exemple
p 2
2bα b2α /4+nX n −nX n
La longueur de cet intervalle est L = n+b2α
.
2 2
On peut vérifier que L ≤ n+b bα 2
2 , car bα /4 + nX n − nX n ≤ bα4+n
et
α
ainsi calculer la valeur minimale de n permettant d’obtenir des
intervalles de longueur inférieure à une constante donnée.
Pour simplifier les calculs on procède à une nouvelle approximation
Exemple
1 On remplace θ(1 − θ) par sa valeur maximale 41 , ainsi on a
bα
P |X n − θ| ≤ √ ≥1−α
2 n
σ σ
X n − bα √ , X n + bα √
n n
La fonction pivotale
nσn2
σ2
suit la loi de χ2 (n) qui n’est pas symétrique, ce qui permet de
déterminer un intervalle
!
nσ 2
P aα ≤ 2n ≤ bα =1−α
σ
ou encore
! !
(n − 1)Sn2 (n − 1)Sn2
P ≤ a α + P ≥ bα =α
σ2 σ2