0% found this document useful (0 votes)
49 views26 pages

Rozklady Statystyk Estymacja

statystyki

Uploaded by

lydia.cholody
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
0% found this document useful (0 votes)
49 views26 pages

Rozklady Statystyk Estymacja

statystyki

Uploaded by

lydia.cholody
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
You are on page 1/ 26

METODY STATYSTYCZNE I

Studia sobotnio-niedzielne

Motto I: Prawie każdy jest statystykiem ale niewielu o tym wie (inspiratorzy:
Molier i Joseph Schumpeter)

Motto II: Statystyka jest bodajże ostatnim reliktem mistyki dnia codziennego
(Stanisław Lem)

Motto III: In God we trust. All others must bring data (z internetu)

Motto IV: Żadnej sprawiedliwości nie ma i być nie może - dobrze, że jest
statystyka - i z tego trzeba się cieszyć (z „Szewców” Witkacego)

1
Spis treści

1. ROZKŁADY STATYSTYK Z PRÓBY ............................................................................................ 3

1.1. ZNACZENIE ROZKŁADÓW STATYSTYK Z PRÓBY ........................................................... 4

1.2 STOPNIE SWOBODY ....................................................................................................................... 8

1.3. ZADANIA .................................................................................................................................. 10

2. ESTYMACJA PARAMETRÓW W POPULACJI GENERALNEJ............................................. 13

2.1. WŁASNOŚCI ESTYMATORÓW ............................................................................................. 14

2.2 MATEMATYCZNY ZAPIS WŁASNOŚCI ESTYMATORÓW ............................................... 18

2.3 METODY UZYSKIWANIA ESTYMATORÓW....................................................................... 21

2.4. ZADANIA .................................................................................................................................. 25

2
1. ROZKŁADY STATYSTYK Z PRÓBY

Przypomnienie (uproszczone definicje)

Rozkład zmiennej losowej to przyporządkowanie wszystkim możliwym


realizacjom (wartościom) tej zmiennej prawdopodobieństw ich wystąpienia.
Dwie podstawowe (choć nie jedyne) formy opisu rozkładu to funkcja (gęstości)
prawdopodobieństwa i dystrybuanta. Znając rozkład zmiennej dysponujemy
pełną informacją na jej temat.

Statystyka z próby to zmienna losowa będąca dowolną funkcją, której


dziedziną są wszystkie możliwe realizacje zmiennej losowej (elementy próby).
Zwana jest również parametrem empirycznym próby losowej.

Przykłady statystyk z próby: średnia, wariancja, frakcja.

Pytanie:
Czy statystykami z próby są: mediana, rozstęp, wartość maksymalna?

3
1.1. ZNACZENIE ROZKŁADÓW STATYSTYK Z PRÓBY

Ważność omawianego tematu wynika z faktu, że estymatory i statystyki


testowe są statystykami z próby, zatem znajomość ich rozkładu pozwala np.
sprawdzić własności estymatora lub wyznaczyć obszar krytyczny w teście. W
większości zastosowań w standardowym wnioskowaniu statystycznym
wystarczy znajomość kilku rozkładów: normalnego, Studenta (t), chi-kwadrat,
Fishera-Snedecora (F).

Pytania:
1. Jak można, zakładając normalny rozkład zmiennej, ustalić czy wartość
oczekiwana średniej z próby jest równa średniej w populacji generalnej? Z
jaką własnością estymatora mają Państwo w tym momencie skojarzenia?
2. Proszę, zakładając dowolny rozkład zmiennej i liczebność próby, podać
sposób obliczania prawdopodobieństwa, że odchylenie wartości estymatora
od parametru nie przekroczy zadanej z góry wartości. Z jakimi aspektami
wnioskowania statystycznego mają Państwo w tym momencie skojarzenia?

4
W większości przypadków użyteczność statystyk z próby nie jest związana
bezpośrednio z ich definicją. Najczęściej postać statystyki testowej jest
odmienna od występujących po prawej stronie równań (1) – (3).

Przykład 1
Rozkład χ2 o n stopniach swobody jest zdefiniowany następująco:

n
 =  U i2
2
n (1)
i =1

gdzie Ui (i = 1, 2, …, n) są niezależnymi zmiennymi o rozkładzie normalnym


standardowym

Przykład 2
Rozkład t (Studenta) o n stopniach swobody jest zdefiniowany następująco:

U
tn = n (2)
 2

Przykład 3
Rozkład F (Fishera-Snedecora) jest zdefiniowany następująco:

12 / n1
Fn1 / n2 = 2 (3)
 2 / n2

gdzie 12 i  22 oznaczają niezależne zmienne losowe o rozkładzie χ2 o liczbie


stopni swobody, odpowiednio, n1 i n2.

5
Pytanie odwołujące się do intuicji:

Jaki rozkład ma statystyka testowa testu specyfikacji RESET dla modelu regresji
z k zmiennymi objaśniającymi):

[ RRSS − URSS ] /( p − 1)
R=
URSS /(n − k − 1)

gdzie RRSS jest sumą kwadratów reszt modelu z narzuconym ograniczeniem


(zdefiniowanym za pomocą liczby p), zaś URSS sumą kwadratów reszt modelu
bez ograniczenia.

Pytanie:

Dyskutowany jest problem czy zmiany podatków mają wpływ na zmiany PKB.
W celu weryfikacji tego stwierdzenia należy oszacować model, w którym
zmienną objaśnianą są zmiany PKB, zaś jedną ze zmiennych objaśniających
zmiany podatków.

• jaki test należy zastosować


• jaki rozkład ma statystyka testowa (i przy jakich założeniach)

6
Ostrzeżenie!

W niektórych przypadkach suma zmiennych niezależnych o określonym


rozkładzie ma taki sam rozkład (rozkład addytywny) jednak nie jest to reguła.

Pytanie 1:

Proszę podać przykłady rozkładów addytywnych i nie-addytywnych.

Pytanie 2:

Czy rozkład χ2 jest addytywny?

7
1.2 STOPNIE SWOBODY

Jednym z ważniejszych pojęć w badaniu rozkładów statystyk z próby jest liczba


stopni swobody. Jest ona zdefiniowana jako liczba wszystkich pomiarów (tu:
liczebność próby) pomniejszonej o minimalna liczbę ograniczeń niezbędnych do
oszacowania parametru. W wielu przypadkach liczba stopni swobody jest
widoczna wprost jako liczebność próby pomniejszona o liczbę estymowanych
parametrów. Bardziej intuicyjnie można zdefiniować liczbę stopni swobody na
gruncie fizyki jako minimalną liczbę zmiennych niezależnych niezbędnych do
jednoznacznego opisania zjawiska.

8
Przykładowo, zmienna o rozkładzie χ2 (równanie 1) jest zdefiniowana przez n
zmiennych niezależnych (U), zatem liczba stopni swobody wynosi n. Zmienna o
rozkładzie χ2 zdefiniowana następująco:
(n − 1)  S 2 ( X )
 =
2

2

ma n-1 stopni swobody, ponieważ jej wartość można wyznaczyć za pomocą n-1
obserwacji, jeżeli znana jest średnia z próby (która musi być obliczona).

Ścisła definicja liczby stopni swobody nie jest niezbędna w praktyce


statystycznej, ponieważ dla konkretnych rozkładów i związanych z nimi testów
może być ona obliczana według prostych algorytmów.

(link dla zainteresowanych czymś więcej


http://courses.ncssm.edu/math/Stat_Inst/PDFS/DFWalker.pdf )

9
1.3. ZADANIA

1. W Akademii Podlaskiej w Siedlacach w 2004 r. przeprowadzono


doświadczenie polegające na 250-krotnym rzucie każdą z 12 monet o nominale
1 euro pochodzących z różnych krajów. Każda z serii rzutów była
przeprowadzana przez niezależny zespół. W przypadku monety belgijskiej
uzyskano 140 czyli 56% awersów.

Zdarzenie zostało opisane przez angielska prasę futbolową przed meczem


Anglia-Belgia inaugurującym Euro 2004. Dziennikarz doszedł do wniosku, że
belgijska moneta jest niesymetryczna, zatem należy dopilnować aby w
losowaniu stron sędzia rzucał inną monetą. Co mógłby mieć na ten temat do
powiedzenia statystyk?
(Opis zdarzenia na podstawie:
http://www.stat.columbia.edu/~gelman/research/published/diceRev2.pdf)

2. Zmienna 2  2 przy liczbie stopni swobody n zbieżnej do nieskończoności


ma rozkład zbieżny do rozkładu normalnego (patrz: zadanie 3b). Z drugiej
strony zmienna o takim rozkładzie nie może przyjmować wartości ujemnych.
Jak można wytłumaczyć tę pozorną sprzeczność?

3. Zmienna w populacji generalnej ma rozkład normalny o parametrach m= 5 i


σ=2.

a/ Proszę za pomocą dwóch metod wyznaczyć prawdopodobieństwo, że


wariancja obliczona na podstawie 10-elementowej próby przekroczy wartość 5.
W pierwszym przypadku należy założyć, że wariancja ma rozkład normalny, w
drugim skorzystać z rozkładu χ2. O czym świadczy rozbieżność wyników?

Przypomnienie: jeżeli zmienna ma rozkład normalny o parametrach m i σ, to


2 4
nieobciążona wariancja z próby ma rozkład o parametrach σ i
2
.
n −1

10
b/ Korzystając ze zbieżności rozkładu zmiennej 2  2 z liczbą stopni swobody
n do rozkładu normalnego o parametrach 2n − 1 i 1proszę policzyć
przybliżoną wartość w. w. prawdopodobieństwa dla próby 31 i 61 elementowej,
a następnie porównać analogiczne wyniki uzyskane za pomocą rozkładu χ2.

4. Proszę wyprowadzić wzór na przedział ufności dla średniej w populacji


generalnej, przyjmując dowolne założenia.

5. Poziom wody w Wiśle we Włodawie jest zmienną o rozkładzie normalnym z


wartością oczekiwana 3 metry. Prawdopodobieństwo, że średnia z 10 lat
przekroczy 3.3 metra wynosi 0.02872.
a/ Ile wynosi odchylenie standardowe?
b/ Ile wynosi prawdopodobieństwo, że powyższa średnia będzie niższa co
najmniej o 50 cm. od 15 - letniej średniej poziomu wody w Colorado River w
Yumie mającego rozkład normalny N(3.2, 0.8).
c/ Ile wynosi prawdopodobieństwo, że wariancja poziomu wody w Wiśle dla 10
losowych lat przekroczy 0,375 m2.
d/ Ile wynosi prawdopodobieństwo, że iloraz wariancji poziomu wody w CR i
Wiśle (odpowiednio, dla 15 i 10 lat) przekroczy 7,72.

6. Zgodnie z dyrektywą Komisji Europejskiej długość ogona cebuli musi być


mniejsza niż 4 cm. Komisarz Europejski 007 zbadał losowo 26 cebul na
targowisku w pewnym kraju kandydującym do UE, stwierdzając, że. ich ogony
miały średnią długość 3,8 cm. przy wariancji 0,295 cm2, zaś rozkład długości
jest normalny.

a/ Czy na tej podstawie można stwierdzić, z ryzykiem błędu I rodzaju 0,03, że


cebule na tym targowisku spełniają przeciętnie normy europejskie?

b/ Z jakim minimalnym ryzykiem można tak stwierdzić?

c/ Z jakim minimalnym ryzykiem można stwierdzić, że mniej niż 84,15% cebul


na targowisku spełnia normy europejskie, jeżeli przyjąć założenie, że średnia
długość ogona cebuli wynosi 3,6 cm?

11
Wskazówka: 0,8415 to prawdopodobieństwo, że zmienna przyjmie wartość
mniejszą niż górne ograniczenie obszaru jednosigmowego.

12
2. ESTYMACJA PARAMETRÓW W POPULACJI GENERALNEJ

Ta dziedzina statystyki zajmuje się obliczaniem przybliżonych wartości (czyli


estymacją lub szacowaniem) parametrów charakteryzujących populację
generalną na podstawie próby losowej. Estymacją jest również oszacowanie
przybliżonej postaci funkcji opisujących rozkład zmiennej w populacji ale
tematyka ta wykracza poza nasz program.

Estymatorem Tn parametru θ w populacji generalnej nazywamy


statystykę z próby (Tn) służącą do oszacowania nieznanej wartości tego
parametru.

Przykłady
• Średnia wartość zmiennej w próbie jest estymatorem średniej w populacji
generalnej (np. na podstawie średniej wartości dochodu w GUS-owskiej
próbie gospodarstw domowych wnioskujemy o średniej dla kraju czy danej
grupy społecznej).

• Odsetek wyróżnionych elementów w próbie (lub frakcja) jest estymatorem


odsetka (lub frakcji) wyróżnionych elementów w populacji generalnej (np. na
podstawie odsetka osób deklarujących w sondażu udział w wyborach
wnioskujemy o analogicznym odsetku w kraju).

Należy odróżniać estymator od oszacowania (punktowego), które jest konkretną


wartością liczbową, jaką dla danej próby przyjmuje funkcja określana mianem
estymatora (ang.: estimator i estimate). Wartość oszacowania praktycznie
zawsze różni się od wartości parametru w populacji. Różnicę tę nazywamy
błędem losowym.

13
2.1. WŁASNOŚCI ESTYMATORÓW

Wybór estymatora:

Wybór właściwego estymatora powinien być on dokonywany przy użyciu


technik analizy błędów losowych, tak aby estymator spełniał jak najwięcej z
przyjętych z góry kryteriów. Trzy najważniejsze to: nieobciążoność, zgodność i
efektywność. W pierwszej kolejności własności te zostały przedstawione
poniżej w sposób nieformalny (intuicyjny).

Jeżeli estymator jest nieobciążony, to jego wartość oczekiwana jest równa


wartości parametru. Innymi słowy, wartość oczekiwana różnicy między
oszacowaniem i parametrem winna być równa zeru czyli nie popełniamy wtedy
systematycznego błędu losowego. W praktyce oznacza to, że losując bardzo
wiele prób i obliczając średnią wartość estymatora uzyskamy prawie dokładną
wartość parametru.

Symulacja przedstawiające ideę estymacji (µ oznacza średnią w populacji


generalnej dla zmiennej o rozkładzie normalnym).

https://digitalfirst.bfwpub.com/stats_applet/stats_applet_4_ci.html

Za jej pomocą można też w przybliżeniu określić niektóre własności estymatora


parametru µ w postaci średniej arytmetycznej z próby.

14
Estymator nieobciążony i obciążony

Źródło: https://www.slideshare.net/ShakeelNouman1/sampling-
and-sampling-distributions

15
Estymator jest zgodny jeżeli błąd absolutny estymacji można dowolnie
zmniejszać, zwiększając liczebność próby.

Estymator zgodny (i dostateczny)

Źródło: https://www.slideshare.net/ShakeelNouman1/sampling-
and-sampling-distributions

16
Estymator nazywamy efektywnym (można też spotkać się z określeniem
„najefektywniejszy”) jeżeli jego wariancja jest mniejsza od wariancji wszystkich
innych estymatorów (wariancja nieobciążonego estymatora pozwala ocenić
wartość błędu losowego popełnianego przy estymacji: im wyższa wariancja, tym
wyższy błąd).

ESTYMATOR EFEKTYWNY I NIEEFEKTYWNY

Źródło: https://www.slideshare.net/ShakeelNouman1/sampling-
and-sampling-distributions

Zadanie:

Proszę przedstawić na rysunku dwa estymatory: obciążony z małą wariancją i


nieobciążony z dużą wariancją. Który z nich można uznać za „lepszy”?

17
2.2 MATEMATYCZNY ZAPIS WŁASNOŚCI ESTYMATORÓW

1. Nieobciążoność

E (Tn ) =  lub

Jeżeli estymator jest obciążony, to obciążenie wynosi

1a. Asymptotyczna nieobciążoność

lim E (Tn ) = 
n →

2. Zgodność:

Dla dowolnego ε > 0 lim P(Tn −    ) = 1


n →

3. Efektywność estymatora Tn* :

D 2 (Tn* ) = min D 2 (Tn )


Tn

Pytanie:
Dlaczego wariancja estymatora (nieobciążonego) jest miarą błędów losowych?

18
Przykład estymatora nieobciążonego:

Średnia z próby jest nieobciążonym estymatorem średniej w populacji


generalnej [ E ( X ) ].

Dowód:
1 n
 1 n  1
E ( X ) = E 
n

i −1
xi  =


 E ( xi )  = nE ( X ) = E ( X )
n  i −1  n

Badanie zgodności estymatora za pomocą definicji jest trudniejsze. Pomocne są


niektóre twierdzenia, dowodzące zgodności pewnych konkretnych estymatorów.
Jednym z nich jest pierwsze historycznie tzw. twierdzenie złote Bernoulliego:

dla dowolnego ε > 0 lim P( w − p   ) = 1


n →

które pokazuje, że odsetek z próby w jest zgodnym estymatorem odsetka w


populacji (symbolizowanego tu przez prawdopodobieństwo p). Czebyszew
sformułował bardziej ogólne twierdzenie, z którego wynika, że każda średnia z
próby losowej jest zgodnym estymatorem średniej w populacji (frakcja
zdarzeń wyróżnionych jest również średnią wartością zmiennej zero-
jedynkowej).

19
W ogólnym przypadku zgodność estymatora najwygodniej jest sprawdzić za
pomocą dwóch poniższych twierdzeń.

Warunek konieczny zgodności estymatora:


Jeśli estymator jest zgodny, to jest (co najmniej) asymptotycznie nieobciążony.

Warunek dostateczny zgodności estymatora:


Jeżeli estymator jest (co najmniej) asymptotycznie nieobciążony oraz jego
wariancja jest zbieżna do zera przy wielkości próby zbieżnej do
nieskończoności, to jest on zgodny

Czyli twierdzenie odwrotne do pierwszego formalnie nie jest prawdziwe ale


ponieważ warunek zbieżności wariancji jest spełniony przez zdecydowaną
większość estymatorów nieobciążonych, to w praktyce można przyjąć
implikację dwustronną (wtedy i tylko wtedy gdy).

Najtrudniejsza do sprawdzenia jest warunek efektywność estymatora. W


ogólnym przypadku można to zrobić m. in. za pomocą nierówności Rao-
Cramera, jednak jej zakres przekracza ramy tego kursu. Często jednak wstępna
selekcja estymatorów (pod kątem obciążoności i zgodności) pozwala ograniczyć
ich liczbę do dwóch lub trzech i porównać ich wariancje. Dosyć typową
sytuacją, zwłaszcza w przypadku bardziej złożonych estymatorów jest
konieczność wyboru między estymatorem obciążonym (i asymptotycznie
nieobciążonym) i efektywnym. Innymi słowy, w takich sytuacjach zmniejszając
wariancję zwiększmy obciążenie.

20
2.3 METODY UZYSKIWANIA ESTYMATORÓW
Jedną ze skuteczniejszych metod uzyskiwania estymatorów jest metoda
największej wiarygodności (MNW). Uzyskane za jej pomocą estymatory są
zgodne, co najmniej asymptotycznie nieobciążone i efektywne.

Logika metody największej wiarygodności

Założenie: w losowaniu uzyskuje się próbę, dla której prawdopodobieństwo


wylosowania jest największe (prawdopodobieństwo to nazywa się
wiarygodnością – ang. likelihood).

Rozumowanie (R. Fishera): skoro próba została wylosowana i jej elementy


można uznać za stałe, to parametry powinny mieć takie wartości aby
maksymalizowały prawdopodobieństwo wylosowania próby (wiarygodność).

Wniosek: wartości parametrów maksymalizujące wiarygodność próby można


uznać za estymatory MNW tych parametrów.

Do przemyślenia:
W MNW zakłada się, że skoro próba została wylosowana, to znaczy, że
prawdopodobieństwo jej wylosowania było najwyższe. Skądinąd wiadomo, że
założenie to najczęściej nie jest spełnione. Czy to oznacza wyższość estymacji
„tradycyjnej” nad MNW?
Pytanie-wskazówka: odpowiednikiem jakiego założenia w estymacji tradycyjnej
może być to założenie?

21
Przykład: rozkład Poissona i estymacja MNW

Rozkład Poissona jest najprostszym rozkładem stosowanym w statystyce


aktuarialnej czyli zajmującej się m. in. szacowaniem prawdopodobieństwa
wystąpienia wypadku (ogólnie: zdarzenia). Zmienna losowa o tym rozkładzie
przyjmuje tylko nieujemne wartości całkowite, bez górnego ograniczenia.

Niech X oznacza wartość zmiennej (np. liczbę wypadków spowodowanych w


ciągu roku przez grupę ubezpieczonych). W rozkładzie Poissona jej wartościom
są przypisane następujące prawdopodobieństwa:

k
P( X = k ) = e −  (k = 0, 1, 2, ...)
k!

gdzie λ jest (jedynym) parametrem rozkładu (skądinąd, można wykazać, że:


E( X ) =  oraz D 2 ( X ) =  )

Znając oszacowanie parametru λ można oszacować prawdopodobieństwo


wystąpienia dowolnej wartości X. Estymacja parametru λ za pomocą metody
największej wiarygodności przebiega jak poniżej.

22
Funkcja wiarygodności pozwalająca wyznaczyć prawdopodobieństwo
wylosowania próby ( x1 , x2 ,..., xn ) przy losowaniu niezależnym (ze zwracaniem)
ma następująca postać:

n
xi
L( x1 , x2 ,..., xn ,  ) = L =  x !e
i =1 i
−

Estymator parametru λ powinien maksymalizować wartość L przy ustalonych


wartościach ( x1 , x2 ,..., xn ) . Wygodniej jest znaleźć to maksimum dla logarytmu
naturalnego funkcji L:

n
ln L =  (ln   x − ln x !− )
i =1
i i

23
Różniczkując tę funkcję po λ i przyrównując ją do zera otrzymuje się równanie:

 ln L n
 xi 

=   − 1 = 0
i =1   

którego rozwiązanie pozwala uzyskać następującą postać estymatora MNW


parametru λ:

x
1
̂ = i
n i =1

(należy jeszcze sprawdzić czy druga pochodna funkcji ln L jest ujemna;


warunek ten jest w tym przypadku spełniony). Estymatorem parametru λ jest
zatem średnia z próby.

Istnieje wiele innych metod wyznaczania estymatorów parametrów. Dwie z nich


zostaną omówione przy okazji estymacji modelu regresji.

24
2.4. ZADANIA

1. Proszę wykazać, że estymator w postaci:

1 n
ˆ
S =
2

n − 1 i =1 
( xi − X ) 2

jest nieobciążonym estymatorem wariancji w populacji zaś estymator w postaci:

 (x − X )
1
S =
2
i
2

n i =1

obciążonym. Czy jest to estymator asymptotycznie nieobciążony?

2. Zmienna X ma rozkład N(m,σ). Poniżej przedstawiono parametr Θ,


proponowany estymator Tn oraz wartość oczekiwaną i wariancję tego
estymatora.

Lp. Θ Tn E(Tn) D2(Tn)


1 n −1 2 2 4 (n − 1)
S2 =  (X i − X )2 
1 σ2 n i n n2
1 2  ( − 2)
2

2 σ d=  Xi − m
n i 

n
x p (1 − p )
w=
3 p n p n
 2
4 me mediana m 2n
2
5 m X m n
1 2 4
6 σ 2 Ŝ2 = 
n −1 i
(Xi − X ) 2  2
n −1

Należy podać własności powyższych estymatorów.

25
3. Proszę wyznaczyć metodą największej wiarygodności estymatory
parametrów rozkładu normalnego. W wersji łatwiejszej można to zrobić dla
każdego z nich oddzielnie, zakładając znajomość drugiego, w wersji bardziej
ambitnej bez tego założenia, rozwiązując układ równań z dwiema
niewiadomymi.

26

You might also like