Université de Sousse A.U.
2020-2021
ISSAT Sousse FIA1.
ESTIMATION
1 Introduction
Dans ce chapitre, on suppose que les données x1 , x2 , . . . , xn sont les réalisations indépendantes
d’une même v.a X, appelée variable parente. Il est équivalent de supposer que x1 , x2 , . . . , xn sont
les réalisations des v.a X1 , X2 , . . . , Xn indépendantes de même loi. Nous adoptons ici la seconde
formulation qui est la plus pratique. On dit que (X1 , X2 , . . . , Xn ) est un échantillon.
L’estimation consiste à donner des valeurs approchés à un ou plusieurs paramètres ( souvent
noté θ ∈ R ou Rn à partir d’observations notées généralement x1 , x2 , . . . , xn issues d’une même
population.
2 Principes généraux de l’estimation
2.1 Définition et qualité d’un estimateur
Définition 1 Une statistique s est une fonction des observations x1 , x2 , . . . , xn .
n
1X
par exemple xn = xi , x∗i = min xi , . . ., sont des statistiques.
n
i=1
Remarque
Puisque x1 , x2 , . . . , xn sont des réalisations des v.a X1 , X2 , . . . , Xn , s(x1 , x2 , . . . , xn ) est une
n
1X
réalisation de la v.a s(X1 , X2 , . . . , Xn ). Par exemple xn = xi est une réalisation de
n
i=1
n
1X
Xn = Xi . Pour simplifier les écritures, on note souvent sn = s(x1 , x2 , . . . , xn ) et Sn =
n
i=1
s(X1 , X2 , . . . , Xn ), on donne le même nom de statistique aux deux quantités.
Définition 2 Un estimateur d’une grandeur θ est une statistique Sn à valeurs dans l’ensemble
des valeurs possibles de θ. Une estimation de θ est une réalisation sn de l’estimateur Sn .
Définition 3 Un estimateur Sn de θ est sans biais ssi E(Sn ) = θ. Il est biaisé ssi E(Sn ) 6= θ.
Alors on définit
biais(θ) = E(Sn ) − θ
C’est une fonction non aléatoire de θ
Dans les applications on veut E(Sn ) − θ = 0.
2.2 Variance de l’estimateur
V ar(Sn ) = E[(Sn − E[Sn ])2 ] = E[Sn2 ] − (E[Sn ])2 .
V ar(Sn ) fournit une précision sur l’estimateur. Plus V ar(Sn ) est faible l’estimateur est meilleur.
2.3 Erreur quadratique moyenne d’un estimateur
EQM (Sn ) = E[(Sn − θ)2 ]
L’estimateur Sn est d’autant meilleur que EQM (Sn ) est faible.
Remarque
Rappel : Soit X une v.a et a, b ∈ R, alors E(aX + b) = aE(X) + b et V (aX + b) = a2 V (X).
EQM (Sn ) = V ar(Sn) + (Biais(Sn))2
en effet EQM (Sn ) = E[(Sn−θ)2 ] = E[(Sn−E[Sn ]+E[Sn ]−θ)2 ] = E[(Sn −E[Sn ])2 ]+E[E[Sn ]−
θ)2 ] + 2E[(E[Sn ] − θ)(Sn − E[Sn )] = V ar(Sn) + E[(Biais(Sn))2 ].
Définition 4 On dit que l’estimateur Sn est convergent si Sn −→P θ quand n −→ +∞
C’est à dire P ( lim | Sn − θ |= 0) = 1 ∀θ ∈ Ω.
n−→+∞
2.3 Condition suffisante de convergence
Si biais(Sn ) −→n−→+∞ 0 et V ar(Sn ) −→n−→+∞ 0 alors Sn convergent
En effet
biais(Sn ) −→n−→+∞ 0
=⇒ EQM (Sn ) −→n−→+∞ 0 ⇐⇒ Sn −→M Q P
n−→+∞ θ =⇒ Sn −→n−→+∞ θ
V ar(Sn ) −→n−→+∞ 0
3 Exemples
3.1 Exemple 1
Soit (X1 , X2 , . . . , Xn ) un echantillon tel que E(Xi ) = m et V ar(Xi ) = σ 2 .
n
1X
On suppose que σ 2 est connue et on désire estimer θ = m. Comparer Sn = Xn = Xi et
n
i=1
n
2 X
Sn0 = Xn = iXi
n(n + 1)
i=1
3.2 Exemple 2
Les mêmes hypothèses que l’exemple 1 mais on veut estimer σ 2 , on distinguera deux cas m est
n n
c2 = 1 f2 = 1
X X
connu et m est inconnu. Comparer σ (Xi − m)2 et σ (Xi − Xn )2
n n
i=1 i=1
4 Fonction de vraisemblance, efficacité d’un
estimateur
Définition 5 Quand les observations sont toutes discrètes ou toutes continues, on appelle fonc-
tion de vraisemblance de l’echantillon (X1 , X2 , . . . , Xn ) pour le paramètre θ la fonction :
P (X1 = x1 , X2 = x2 . . . Xn = xn ; θ) si Xi sont discrètes
L(θ; x1 , x2 , . . . , xn ) =
f (x1 , x2 , . . . , xn ; θ) si Xi sont continues
Remarque
La probabilité et la densité utilisées dans cette définition sont des fonctions des observations
x1 , x2 , . . . , xn , dépendant du paramètre θ. A l’inverse la fonction de vraisemblance est considérée
comme une fonction de θ dépendant des observations x1 , x2 , . . . , xn , ce qui permet, par exemple,
de dériver cette fonction par rapport à θ.
2
Définition 6 On appelle quantité de Fisher sur θ apportée à l’echantillon (X1 , X2 , . . . , Xn ) la
quantité
∂
In (θ) = V ar( ln(L(θ; X1 , X2 , . . . , Xn )))
∂θ
Remarque
∂
On peut montrer que E( ln(L(θ; X1 , X2 , . . . , Xn ))) = 0 Par conséquent, la quantité d’infor-
∂θ
mation peut aussi s’écrire sous la forme
h ∂ 2 i
In (θ) = E ln(L(θ; X1 , X2 , . . . , Xn )) .
∂θ
Si le domaine de définition des Xi ne dépend pas de θ , on montre que l’on a également
∂2
In (θ) = −E( ln(L(θ; X1 , X2 , . . . , Xn ))) .
∂θ2
Cette écriture est pratique pour les calculs.
L’intérêt de la quantité de Fisher est quelle fournit une borne inferieure pour la variance de
n’importe quel estimateur de θ.
Théorème 1 Si le domaine de définition des Xi ne dépend pas de θ, alors pour toute statistique
Sn on a :
∂
[ E(Sn )]2
V ar(Sn ) ≥ ∂θ
In (θ)
∂
[E(Sn )]2
La quantité ∂θ est appelée la borne de Cramer-Rao.
In (θ)
Définition 7 On appelle efficacité d’un estimateur Sn la quantité
∂
[E(Sn )]2
Ef f (Sn ) = ∂θ
In (θ)V ar(Sn )
On a 0 ≤ Ef f (Sn ) ≤ 1, Sn est dit efficace si Ef f (Sn ) = 1 et Sn est dit asymptotiquement
efficace si lim Ef f (Sn ) = 1.
n−→+∞
Propriétés
1) Si un estimateur est efficace, sa variance est égale à la borne de Cramer-Rao, donc il est
forcément de variance minimum.
2) Il est possible qu’il n’existe pas d’estimateur efficace de θ.
1 1
3) Si Sn est un estimateur sans Biais de θ, alors V ar(Sn ) ≥ et Ef f (Sn ) =
In (θ) In (θ)V ar(Sn )
4) Si la valeur de la borne de Cramer-Rao est très grande, il est impossible d’estimer correcte-
ment θ.
Remarque
In (θ) = nI1 (θ) si les v.a sont indépendantes et de même loi
4.1 Exemples
3
1) Xi y N (m, σ), Xi indépendantes, σ connu, on cherche à estimer m.
5 Méthodes d’estimation
Jusqu’a maintenant, nous avons discuté des propriétés que devrait avoir un estiateur de θ, mais
nous n’avons pas encore donné des méthodes pour trouver un estimateur de θ ; C’est l’objet de
cette section.
4.1 La méthode du maximum de vraisemblance
Définition 8 L’estimateur de maximum de vraisemblance (EMV) de θ est la valeur θbn de θ qui
rend maximale la vraisemblance L(θ; X1 , X2 , . . . , Xn ).
Dans la plupart des cas, la fonction de vraisemblance s’exprime comme un produit. Il est alors
plus commode de remarquer que la valeur qui rend maximale son logarithme. Par conséquent θbn
∂
sera en général calculé en annulant la dérivée du logarithme de la vraisemblance ln(L(θ; X1 , X2 , . . . , Xn )).
∂θ
On remarque que ce calcul est également utile pour déterminer la quantité d’information de Fi-
sher.
4.1.1 Exemples
Exemple 1 : Loi de poisson :
Exemple 2 : Loi exponentielle :
Exemple 3 : Loi Normale :
4.2 La méthode des moments (EMM)
Définition 9 Soient n v.a X1 , X2 , . . . , Xn indépendantes de même loi dont la loi dépend d’un
paramètre θ = (θ1 , θ2 , . . . , θp ) ∈ Rp .
Le principe de l’estimation de θ consiste à donner une valeur approchée de θ à l’aide de
x1 , x2 , . . . , xn .
En général θ s’exprime en fonction de m1 , m2 , . . . , mp avec mi = E[Xji ] (indépendant de j car
toutes les v.a Xj ont la même loi) de la façon suivante :
θ = h(m1 , m2 , . . . , mp ), l’estimateur des moments de θ est défini par :
n
1X i
θe = h(m
e 1, m
e 2, . . . , m
e p ) avec m
ei = Xj
n
j=1
Exemple 1 : Loi Normale :
Exemple 2 : Loi exponentielle :
Remarque
En général l’EMV est meilleur que EMM au sens où V ar(θbn ) ≤ V ar(θen ).
4.3 Estimation par intervalle de confiance
Soit X une v.a dont la loi dépend d’un paramètre inconnu θ, et α ∈]0, 1[ un nombre réel donné.
4
Définition 10 Un intervalle de confiance pour le paramètre θ, de niveau de confiance 1 − α est
un intervalle qui a la probabilité 1 − α de contenir la vraie valeur du paramètre θ.
Construction pratique
Soit (X1 , . . . , Xn ) un échantillon de la loi de X et Tn un estimateur de θ, dont on connaı̂t la loi
en fonction de θ, ce qui permet de calculer les valeurs t1 = t1 (θ) et t2 = t2 (θ) telles que :
P {t1 (θ) ≤ Tn ≤ t2 (θ)} = 1 − α
Il faut ensuite inverser cet intervalle, c’est-à-dire déterminer les valeurs a = a(Tn ) et b = b(Tn )
telles que :
P {a(Tn ) ≤ θ ≤ b(Tn )} = 1 − α
Soit :
P {θ ∈ [a(Tn ), b(Tn )]} = 1 − α
[a(Tn ), b(Tn )] sera alors un intervalle de confiance de niveau 1 − α pour θ.
Pour obtenir cet intervalle, il faut trouver les valeurs de θ pour lesquelles on a simultanément,
pour Tn fixé :
t1 (θ) ≤ Tn et Tn ≤ t2 (θ)
Pour fixer les idées, supposons par exemple que t1 et t2 soient deux fonctions strictement crois-
santes de θ. On aura pour Tn fixé :
Tn ≤ t2 (θ) ⇐⇒ θ ≥ t−1
2 (Tn )
t1 (θ) ≤ Tn ⇐⇒ θ ≤ t−1
1 (Tn )
Ainsi :
t1 (θ) ≤ Tn ≤ t2 (θ) ⇐⇒ a(Tn ) = t−1 −1
2 (Tn ) ≤ θ ≤ t1 (Tn ) = b(Tn )
Remarquons qu’il existe une part d’arbitraire dans le chox de t1 et t2 puisqu’il n’y a qu’une seule
condition pour les déterminer, qui peut s’écrire :
P {Tn < t1 } + P {Tn > t2 } = α
Posons α1 = P {θ > b(Tn )} et α2 = P {θ < a(Tn )}. Plusieurs choix sont possibles :
-intervalle bilatéral (α1 α2 > 0) :
symétrique : α1 = α2 = α/2
Si la loi de Tn est symétrique, ou si on n’a pas d’information particulière (choix le moins arbi-
traire) ;
dissymétrique : α1 6= α2 ;
-intervalle unilatéral (α1 α2 = 0) :
à cause d’une interprétation particulière, d’une signification concrète du paramètre θ conduisant
à :
α1 = 0, α2 = α
d’où un intervalle de la forme :
θ > a(Tn )
ou bien :
α1 = α, α2 = 0
d’où un intervalle de la forme :
θ < b(Tn )
5
Exemple : Loi Normale :
- Intervalle pour la moyenne m d’écart-type σ connu.
- Intervalle pour la moyenne m d’écart-type σ inconnu.
- Intervalle pour la variance σ 2 d’espérance m connue.
- Intervalle pour la variance σ 2 d’espérance m inconnue.