Kowal 2011
Kowal 2011
net/publication/315772665
CITATIONS READS
0 606
1 author:
Jolanta Kowal
University of Wroclaw
61 PUBLICATIONS 195 CITATIONS
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
AMCIS 2019, Cancun. Call for Papers Mini-Track 5: Digital Innovation for Development Track: ICTs in Global Development (SIGGlobDev) View project
All content following this page was uploaded by Jolanta Kowal on 04 April 2017.
Jolanat Kowal1
1
Kowal, J., Statystyka opisowa w zarządzaniu, [w:] Knecht, Z. (red.), Zarządzanie przedsiębiorcze, WSZ E,
Wrocław 2011, s. 107-162
107
np. segmentu rynku) nie tylko pod względem cech ekonomiczno-demograficznych i
społecznych, ale i psychologicznych, na przykład pod względem wewnętrznych motywacji,
emocjonalnych progów wrażliwości, postaw, ocen jakiegoś zjawiska czy potrzeb wyższego
rzędu.
Podejście pozytywistyczne
108
W podejściu pozytywistycznym wyznacznikiem poznania naukowego jest metoda
pozwalająca na obiektywny i jednoznaczny opis oraz wyjaśnienie rzeczywistości (Straś-
Romanowska, 2000). Przy podejściu tym zakłada się, że rzeczywistość jest obiektywna i
może być opisana za pomocą mierzalnych właściwości, które są niezależne od badacza lub
obserwatora oraz od stosowanych przez niego narzędzi badawczych. W tym ujęciu badanie
jest próbą testowania, czy też weryfikowania teorii, próbą takiego zrozumienia zjawiska,
które umożliwi prognozowanie. Zgodnie z teorią systemów informacyjnych za
pozytywistyczne można uważać takie badanie, w którym wystąpiły formalne propozycje
(sformułowano hipotezy naukowo-badawcze), analizowane zmienne były mierzalne,
postawione hipotezy były weryfikowane, a wnioski wyciągnięte na podstawie danych
empirycznych można uogólniać (Orlikowski i in., 1991). Taki rodzaj badań od ilościowych
różni się zazwyczaj małą liczebnością populacji i nie zawsze spełnionymi warunkami
dotyczącymi losowości próby.
109
jakościowe (kategorialne, np. typy osobowości, temperamentu, typy umysłu, rodzaje
reklamy, typy stosowanych narracji, preferowane kolory, rodzaj zamieszkania – wieś,
małe miasto, duże miasto, profil ukończonych studiów, religia, narodowość,
pochodzenie społeczne, wykonywany zawód, pełnione stanowisko, segmenty rynku),
porządkujące (np. pozycja obiektu na tle innych, miejsce w rankingu ze względu na
uzyskane wyniki, rangi nadane preferowanym produktom, gatunkom filmowym, rangi
nadane czynnikom sukcesu zawodowego lub czynnikom motywacji pracy)
ilościowe (np. waga, wzrost, temperatura ceny, sumy lub średnie punktów uzyskane w
teście psychologicznym ).
Pomiarów dokonuje się na odpowiednich skalach. Wyniki pomiarów na N obiektach za
pomocą m skal pomiarowych dobrze jest zestawiać w tablice wielodzielcze, wyniki
obserwacji przedstawione za pomocą m skal porządkowych - w macierz uporządkowania. W
przypadku właściwości mierzonych na skalach przedziałowych lub ilorazowych - dane
najlepiej prezentować w formie macierzy wyników ( por.m-cechowe szeregi statystyczne).
Zbiory obiektów charakteryzuje się opisując ich właściwości w postaci liczb i wyznaczając
cechom lub zmiennym miary struktury lub położenia, rozproszenia, asymetrii, koncentracji i
współzmienności.
W artykule przedstawiam ważniejsze miary, mogące znaleźć zastosowanie w opisie
obserwacji statystycznych, pochodzących z badań jakościowych, w odniesieniu do różnych
skal pomiarowych, możliwości interpretacyjnych oraz literatury (por. Kirk, 1968; Szulz,
1967; Blalock, 1975; Góralski, 1976; Guilford, 1964; Stevens, 1959; Triola, 1988; Guilford,
Fruchtner, 1978; Hays, 1973; Horowitz, 1974; Zając, 1988; Brzeziński, 1975; Ferguson,
1976; Healey, 1984, Kowal, 1998).
Rodzaje miar, odpowiednie dla różnych skal przedstawia poniższa tabela1.
110
TAB.1. STATYSTYKI OPISOWE W ODNIESIENIU DO SKAL POMIAROWYCH
Skala Miary Miary Miary asymetrii Miary Miary Miary
położenia rozproszenia koncentracji współzmienn struktury
(przeciętne) (zmienności, ości
dyspersji)
nominalna kategoria dyspersja współczynnik proporcje,
modalna względem i siły związku odsetki,
(moda)- klasyfikacji stosunki,
przeciętna wskaźniki
pozycyjna (procenty,
promile i inne)
porządkowa obiekt obiekty współczynnik pozycyjny współczynnik
mediany(me kwantylowe asymetrii oparty współczynnik korelacji
diana) (np., kwartyle, na medianie i asymetrii rang,
przeciętna percentyle), dominancie współczynnik
pozycyjna rozstę konkordancji
kwartylowy,
odchylenie
ćwiartkowe,
kwartylowy
współczynnik
zmienności,
współczynnik
zmienności
względem
mediany
przedziałow średnie: wariancja lub współczynnik eksces kowariancja,
a arytmetyczn odchylenie skośności (oparty (współczynni stosunek
a, standardowe, na średniej, k korelacyjny,
geometrycz szerokość medianie i spłaszczenia); współczynnik
na, przedziału odchyleniu kurtoza, korelacji
harmoniczn zmienności, standardowym lub współczynnik liniowej,
a, odchylenie średniej, modzie i koncentracji współczynnik
kwadratowa przeciętne odchyleniu Lorenza korelacji
środek (średnie), standardowym), cząstkowej
przedziału współczynnik trzeci moment
zmienności zmienności centralny,
względem współczynnik
średniej asymetrii (iloraz
trzeciego
momentu
centralnego przez
trzecią potęgę
odchylenia
standardowego)
Źródło: opracowanie własne
Warto zauważyć, że miary opisu statystycznego adekwatne dla skal słabszych można
zastosować dla skal wyższego rzędu, na przykład dominantę można policzyć nie tylko dla
skal nominalnych, ale również dla porządkowych i przedziałowych. Sytuacja odwrotna nie
111
zawsze jest możliwa, średniej arytmetycznej nie można zastosować dla skali nominalnej
wielokategorialnej, wyrażającej na przykład wyznanie religijne. Natomiast średnią
arytmetyczną można opisać zmienną mierzoną na skali zero-jedynkowej, gdzie wartość 1
może oznaczać wystąpienie jakiegoś zjawiska, a 0 inne możliwości.
Opis szeregów statystycznych oraz obliczenie odpowiednich miar ułatwia
pogrupowanie wyników obserwacji w szeregi rozdzielcze i tablice korelacyjne.
Przy opisie charakteru współzmienności co najmniej dwóch cech lub zmiennych,
można korzystać z różnych współczynników korelacji, jak również z metod ustalania
regresji. W regresji pierwszego rodzaju dla dwucechowego szeregu statystycznego
współzmienność obrazuje się liniami regresji. Regresja liniowa drugiego rodzaju (przy
założeniu liniowości współzmienności) umożliwia przewidywanie najbardziej
prawdopodobnych wartości cechy zależnej. Współczynnik korelacji wielokrotnej jest
wskaźnikiem oceny jakości regresji liniowej drugiego rodzaju (por. Kowal, 1998).
Właściwości szeregów statystycznych dobrze jest zobrazować za pomocą wykresów:
dla obserwacji jednej cechy mierzonej na skali nominalnej, przy rozdzielnych
kategoriach - za pomocą diagramu kołowego
dla obserwacji jednej cechy mierzonej na skali porządkowej - za pomocą diagramu
kołowego, wykresu pudełkowego, histogramu, histogramu kumulowanego i
dystrybuanty;
dla obserwacji jednej cechy mierzonej na skali przedziałowej - za pomocą wykresu
pudełkowego, histogramu, wykresu gęstości, histogramu kumulowanego i
dystrybuanty; jak również za pomocą diagramu kołowego po pogrupowaniu wyników
obserwacji w klasy;
dla obserwacji dwu cech - poprzez wykres rozrzutu punktów empirycznych i wykres
korelacyjny uzupełniony o zobrazowanie właściwości szeregów marginalnych;
dla obserwacji m-cech - odpowiednim zobrazowaniem szeregów jednej i m cech.
112
sklepów, marka towarów, status zawodowy, klasa społeczna, różne typy produktów, rodzaj
stosowanej reklamy). Opis statystyczny jest wtedy oparty na liczebnościach przypadków w
każdej kategorii i porównaniu ich względnych wartości. Porównanie kilku grup i
standaryzacja składu grupy ze względu na jej wielkość są możliwe dzięki takim miernikom
jak proporcje, odsetki, czy stosunki, które można również stosować w przypadku skal
wyższego rzędu (porządkowej, interwałowej i ilorazowej, po uprzedniej nominalizacji).
Proporcje.
Przy obliczania proporcji dla jednej cechy lub zmiennej zakłada się rozłączność klasyfikacji.
Proporcję przypadków ni/N w danej kategorii i stanowi iloraz liczby przypadków w tej
kategorii ni i całkowitej liczby przypadków N. Proporcje przypadków w kategoriach
1,2,3,...,k, o liczebności całkowitej N i liczebnościach n1, n2, n3,...,nk wynoszą odpowiednio
n1/N, n2/N, n3/N,...,nk/N.
Własność proporcji :
Suma proporcji przypadków we wszystkich wzajemnie rozłącznych kategoriach wynosi1.
Z zależności:
n1+n2+n3+...+nk=N wynika (po podzieleniu obu stron równania przez N)
n1/N+n2/N+n3/N+...+nk/N=1.
Odsetki.
Odsetki oblicza się z proporcji mnożąc przez 100. Obliczając odsetki przeprowadza się
standaryzację ze względu na rozmiar badanej grupy, ponieważ znajduje się liczbę
przypadków objętych daną kategorią przy założeniu, że całkowita liczebność wynosi 100.
Ponieważ proporcje sumują się do jedności, odsetki muszą sumować się do 100, chyba że
kategorie nie są rozłączne lub wyczerpujące.
Odsetki w prezentacjach danych stosuje się znacznie częściej niż proporcje.
Przy stosowaniu miar dla skal nominalnych, warto kierować się dwiema zasadami:
a) oprócz proporcji i odsetek należy podawać bezwzględną liczbę przypadków
b) nie należy stosować odsetek, gdy całkowita liczba przypadków jest mniejsza niż od 50.
Stosunki.
Stosunek liczby a do b stanowi iloraz a/b. Stosunek może być liczbą większą od jedności (w
przeciwieństwie do odsetek i proporcji), a oba składniki stosunku mogą też zawierać kilka
oddzielnych kategorii. Przypadkiem stosunku jest proporcja, gdzie mianownik bjest całkowitą
liczbą przypadków, a licznik a jej pewną częścią. Odmianą stosunku są również wskaźniki, w
których podstawą są liczby większe, np.10 000 lub 100 000 (wskaźnik urodzeń na 100 kobiet
113
w wieku rozrodczym). Stosunkiem jest również tempo wzrostu, czyli iloraz rzeczywistego
przyrostu przez wartość na początku badanego okresu.
3. Miary położenia (przeciętne)
114
gdzie xi – wartość i-tego pomiaru, n – liczebność badanej populacji
Ciekawą własnością średniej jest fakt, że suma odchyleń wszystkich pomiarów od niej wynosi
N
0, co zapisujemy : ( x
i=1
i - x) = 0 .
Druga ważna własność średniej mówi, że suma kwadratów odchyleń pomiarów od średniej
jest mniejsza od sumy kwadratów odchyleń tych pomiarów od jakiejkolwiek innej liczby:
N
badanej populacji
W przypadku braku komputera lub kalkulatora można stosować wzór, oparty na średniej
odgadniętej x :
N
( x - x )
i
x= x + i=1
(por. Kowal, 1998)
n
Średnia arytmetyczna szeregu rozdzielczego.
W przypadku dużej liczby obserwacji dobrze jest pogrupować dane w szereg rozdzielczy i
obliczać średnią w oparciu o rozkład liczebności. Pogrupowanie danych pracę bardzo
upraszcza, niemniej jednak prowadzi do straty informacji. W stosunku do średniej zakłada się,
że wszystkie pomiary należące do danej kategorii grupują się wokół środka przedziału
klasowego. Prowadzi to do pewnych niedokładności, ale jeżeli liczba obserwacji jest duża -
niedokładność będzie niewielka. Im węższe są przedziały klasowe - tym mniejsza
niedokładność i strata informacji. Największe niedokładności występują na krańcach
rozkładu, gdyż tam zwykle istnieje asymetria w kierunku jego środka. W większości
przypadków jednak liczba wyników obserwacji w przedziałach skrajnych jest niewielka w
porównaniu z całkowitą liczbą obserwacji, stąd niedokładność jest z reguły niewielka. Przy
obliczaniu średniej z danych pogrupowanych zakładamy, że wszystkie pomiary z danego
przedziału klasowego są równe środkowi tego przedziału. Poniższy wzór na średnią oparty
jest na wspomnianych wyżej założeniach.
k
f
i=1
i mi
x= ,
n
gdzie fi – liczba przypadków i-tej kategorii, mi – środek i-tego przedziału klasowego, k – liczba
przedziałów klasowych, n – liczebność badanej populacji.
Przy obliczaniu średniej można tez oprzeć się na średniej odgadniętej, według wzoru:
115
k
f i di
x = x + i=1
,
n
gdzie d i = xi - x oznacza odległość od środka danego przedziału od średniej odgadniętej x .
f 1+ f 2 +...+ f k i=1
fi
H= = k ,
1 1 1 fi
f 1 + f 2 +...+ f k
x1 x2
xk i=1 xi
116
Średnia harmoniczna może być również wykorzystywana w analizie wariancji (por. model
ANOVA), kiedy badana jest zmienność wewnątrzgrupowa i międzygrupowa zmiennej
zależnej, a liczebności w poszczególnych klasach istotnie różnią się między sobą.
Średnia geometryczna.
Średnia geometryczna jest rzadziej stosowana niż pozostałe średnie, lepiej jednak
charakteryzuje zmienne, wyrażone w liczbach względnych oraz wtedy, gdy badacz dysponuje
szeregiem, w którym występują znaczne różnice między obserwacjami. Średnia geometryczna
jest mniej wrażliwa na wartości krańcowe niż średnia arytmetyczna, lepiej jednak stosować
ją przy dużych próbach, a ponadto nadaje się jedynie do charakteryzowania wartości
dodatnich. Wyrażona jest wzorem:
G =n x1 x2 x3 ... xn ,
Średnia jest n-tym pierwiastkiem z iloczynu n wyrazów. Przy bardzo licznych populacjach
próbnych, korzysta się z postaci logarytmicznej:
n
1
log x
i=1
i
G = f x1
f1
x2
f2
... xk f k ,
Średnia kwadratowa.
Średnia kwadratowa, obliczana na podstawie wartości dodatnich i ujemnych skal
metrycznych, jest pierwiastkiem kwadratowym ze średniej arytmetycznej kwadratów wartości
jednostek zbiorowości statystycznej. Do bezpośredniego opisu używa się jej bardzo rzadko, a
najczęściej zastosowanie znajduj we wzorze na wariancję i odchylenie standardowe.
Wyrażona jest wzorem ogólnym:
117
n
+ 2 +...+ xn 2
2 x i
2
K= x x2 1
= i=1
n
n
Średnią kwadratową ważoną dla wartości powtarzających się oblicza się według wzoru:
k
n x
i=1
i
2
i
K= k
n i=1
i
Przeciętne pozycyjne.
Mierniki pozycyjne – miary bardzo przydatne w badaniach jakościowych podają pozycję
pewnego typowego lub nietypowego przypadku w stosunku do innych przypadków. Są to
wyniki obserwacji pewnych konkretnych jednostek zbiorowości statystycznej, wybranych ze
względu na ich położenie w zbiorowości. Mierniki pozycyjne wyznacza się dla cech lub
zmiennych co najmniej porządkowych. Przy obliczeniach ręcznych dane należy zestawić w
uporządkowany szereg statystyczny.
Mediana (wartość środkowa, topologiczna). Najczęściej stosowanym miernikiem pozycyjnym
jest mediana, dzieląca zbiór wyników obserwacji na połowę. Jest to liczba, od której połowa
wyników jest mniejsza lub jej równa, druga zaś połowa jest od niej większa lub jej równa.
Dla szeregu nieparzystego, mediana jest pomiarem środkowym. W przypadku populacji o
parzystej liczbie przypadków, mediana jest definiowana niejednoznacznie i przyjmuje się, że
jest nią średnia arytmetyczna dwóch środkowych pomiarów. Mediana ma ciekawą własność,
którą przedstawia poniższy wzór :
n
| x - M
i=1
i e | = min
118
Tabela 2. Porównanie zalet, wad i możliwości zastosowań średniej arytmetycznej i
mediany
Średnia Mediana
Zalety
-zużytkowuje więcej informacji niż mediana, - miernik wygodny przy próbach małych lub
ponieważ oblicza się ją na podstawie wszystkich silnie skośnych
pomiarów, podczas gdy mediana jest sama - zmiany wartości pomiarów ekstremalnych
pojedynczym pomiarem nie wpływają na jej wartość, dopóki nie
- miernikiem bardziej stabilnym jest średnia, zmienia się wartość pomiaru środkowego.
ponieważ wartość jej ulega mniejszym wahaniom
przy porównywaniu od prób różnej wielkości
- przy zmianie próby wartość mediany zmienia się
bardziej niż wartość średniej
- średnia jest wygodniejsza w operacjach
algebraicznych
- jest miarą pewniejszą w sytuacjach, gdy istnieją
wątpliwości co do tego, który miernik można uznać
za bardziej rzetelny i wykazuje mniejszą zmienność
przy przechodzeniu od próby do próby.
Wady
- nie jest miarą adekwatną dla próby mało licznej lub- miernik mało stabilny przy zmianie wielkości
niesymetrycznej próby
- zmiany wartości pomiarów ekstremalnych mają - nie obejmuje wszystkich wartości obserwacji
wpływ na wartość średniej, co może dać mylące zbiorowości statystycznej, bazuje tylko na
rezultaty przy próbach mało licznych. wartościach środkowych
- mediana może pozostać taka sama w
próbach o zupełnie różnej zmienności
- jest bardziej skomplikowana w obliczeniach
niż średnia
- trudniej ją stosować w skomplikowanych
operacjach algebraicznych.
Zastosowanie
- zmienne mierzone są na interwałowej i ilorazowej - zmienne mierzone są na skali co najmniej
- pomiary zmiennych dokonywane na skalach porządkowej
metrycznych pochodzą z prób statystycznie dużych - pomiary zmiennych dokonywane na skalach
lub małych metrycznych pochodzą z małych statystycznie
- rozkłady wartości analizowanych zmiennych są prób
raczej symetryczne. - rozkłady wartości analizowanych zmiennych
są silnie skośne
- występują duże dysproporcje w wynikach
skrajnych.
Mediana umożliwia szybki opis populacji
obiektów i szybką analizę porównań między
obiektami, gdy badacze są szczególnie
zainteresowani wartościami skrajnymi.
Źródło: opracowanie własne, por. Zając, 1988; Blalock, 1975; Krzysztofiak, 1977; Góralski,
1975; Szulc, 1967; Kowal,1998.
119
Medianę można obliczać, dla szeregu statystycznego uporządkowanego, według wzorów
1
Me x 1 x 1 dla parzystej liczby obserwacji
2 2 n 2
n 1
lub
120
n m - n m -1
M o = ld + r .
( nm - nm-1 ) + ( nm - nm+1 )
gdzie ld - dolna granica przedziału zawierającego modalną, nm -liczebność przedziału
zawierającego modalną, nm-1 - liczebność przedziału poprzedzającego modalną, nm+1 -
liczebność przedziału następującego po modalnej, r - wielkość przedziału zawierającego
modalną. Istnieją również sposoby graficznego wyznaczenia modalnej (por. Zając, 1988;
Szulc, 1967; Blalock, 1975; Góralski. 1976).
Kwantyle (decyle, kwartyle, percentyle) - są miarami pozycyjnymi, dla pomiarów
dokonanych na skali co najmniej porządkowej, które lokalizują pomiar większy niż pomiary
stanowiące określoną proporcję wszystkich przypadków. Mierniki te nie mierzą tendencji
centralnej lub typowości, są jednak analogicznie obliczane jak mediana. W przypadku
kwartyli - pierwszy kwartyl jest taką liczbą, od której 1\4 pomiarów jest mniejsza (lub
równa). Analogicznie rozkład można podzielić na 10 decyli, podając wartości obserwacji, od
których 1\10, 2\10, 3\10, ...,9\10 pomiarów jest mniejsze (lub równe).
Najbardziej znanym miernikiem są percentyle, dzielące rozkład na 100 równych części. Jeśli
wyniki testu menedżera znajdują się na 95-tym percentylu - to oznacza, że 95% menedżerów
ma wyniki słabsze od niego.
Gdy dane są pogrupowane, określa się najpierw przedział, w którym dany miernik się
znajduje.
Ogólny wzór na dowolny kwantyl o numerze z na podstawie szeregu rozdzielczego można
przedstawić wzorem :
r m z-1
Q z=l d + (z - f ,
f z n i=1 i
gdzie n - liczba części, na jaką dzielona jest populacja generalna (np. n równe 4 oznacza, że
wyznaczamy kwartyle, a n równe 3 - tetryle, n równe 100 - percentyle), z - numer żądanego
kwantyla (np. trzeciego kwartyla), ld - dolna granica przedziału, w której znajduje się z-ty n-
tyl, fz - liczebność przedziału zawierającego z-ty kwantyl, m - liczebność skumulowana
populacji, i - numer przedziału klasowego, r - rozpiętość przedziału zawierającego z-ty n-tyl.
Dowolny kwantyl można również wyznaczyć metodą graficzną (por.Zając, 1988,
Kowal,1998).
Zalety, możliwości zastosowania i wady miar tendencji centralnej zestawiono w tabeli 3., a
formuły w tabeli 4.
Tabela 3. Zestawienie miar tendencji centralnej oraz ich wad i zalet
121
Miary tendencji
Zalety i możliwości zastosowania Wady
centralnej
- zmienne mierzone są na - nie jest miarą adekwatną dla
interwałowej i ilorazowej próby mało licznej lub
- pomiary zmiennych dokonywane niesymetrycznej
na skalach metrycznych pochodzą - zmiany wartości pomiarów
z prób statystycznie dużych lub ekstremalnych mają wpływ na
małych wartość średniej, co może dać
- rozkłady wartości analizowanych mylące rezultaty przy próbach
zmiennych są raczej symetryczne. mało licznych.
-zużytkowuje więcej informacji
niż mediana, ponieważ oblicza się
ją na podstawie wszystkich
pomiarów, podczas gdy mediana
jest sama pojedynczym pomiarem
- miernikiem bardziej stabilnym
Średnia arytmetyczna jest średnia, ponieważ wartość jej
x ulega mniejszym wahaniom przy
porównywaniu od prób różnej
wielkości
- przy zmianie próby wartość
mediany zmienia się bardziej niż
wartość średniej
- średnia jest wygodniejsza w
operacjach algebraicznych
- jest miarą pewniejszą w
sytuacjach, gdy istnieją
wątpliwości co do tego, który
miernik można uznać za bardziej
rzetelny i wykazuje mniejszą
zmienność przy przechodzeniu od
próby do próby.
- ma zastosowanie jako liczebność zawiera tylko informację o
Średnia arytmetyczna względna,(częstość, frakcja częstości wystapienia zjawiska
dla skal elementów wyróżnionych),
umożliwia zastosowania metod
dychotomicznych p̂
wieloimiennych parametrycznych
w przypadku skali kategorialnej
- miara adekwatna dla skal nie może być obliczana dla
ilorazowych; wartości równych zeru
charakteryzuje natężenie
występowania jakiejś właściwości
w jednostce innej, na przykład
Średnia harmoniczna przy obliczeniach przeciętnej
H liczby popełnianych błędów przez
osoby badane w czasie (ilość
błędów/min); wykorzystywana w
analizie wariancji (por. model
ANOVA), kiedy badana jest
zmienność wewnątrzgrupowa i
122
międzygrupowa zmiennej zależnej,
a liczebności w poszczególnych
klasach istotnie różnią się między
sobą.
rzadko stosowana dobrze
charakteryzuje zmienne, wyrażone
w liczbach względnych przy
nadaje się jedynie do
Średnia geometryczna szeregach ze znacznymi różnicami
charakteryzowania wartości
G między obserwacjami; mało
dodatnich; rzadko stosowana
wrażliwa na wartości krańcowe niż
średnia arytmetyczna; lepiej
stosować ją przy dużych próbach,
-stosowana przy bardzo licznych
populacjach próbnych, logarytm
Średnia średniej geometrycznej, podobne -wady średniej geometrycznej
logarytmiczna log zalety i zastosowania, jak średnia
geometryczna
123
ekstremalnych nie wpływają na jej - są bardziej skomplikowane w
wartość, dopóki nie zmienia się obliczeniach niż średnia
wartość pomiaru środkowego. - trudniej je stosować w
skomplikowanych operacjach
algebraicznych.-
Źródło: opracowanie własne (por. Zając, 1988; Andreasen, 1988; Jackson, 1983; Brzeziński,
1987; Kowal, 1998; paragraf 2.1. bieżącej monografii).
n x i i
1 n
x x2 xn i=1
x xi 1 ,
x=
n
,
Średnia n i 1 n
gdzie ni – liczba przypadków i-tej kategorii,
arytmetyczna x gdzie xi – wartość i-tego pomiaru, n –
liczebność badanej populacji
xi – środek i-tego przedziału klasowego, k –
liczba przedziałów klasowych, n – liczebność
badanej populacji.
n k
di ni d i
Średnia x = x + i=1 , x = x + i=1 ,
arytmetyczna x n n
na podstawie
średniej
n
xi x gdzie d i =x x oznacza odległość od
i
środka danego przedziału od średniej
odgadniętej
x + i=1 ,
n odgadniętej x
gdzie: x - średnia odgadnięta
Średnia m 1 (n m) 0 m
arytmetyczna dla pˆ , gdzie
n n
skal
m
dychotomicznych gdzie pˆ - frakcja elementów
(liczebność n
względna,(często wyróżnionych w próbce, n –liczebność
ść, frakcja próbki; m – liczba elementów
elementów wyróżnionych w próbce o kodzie równym 1
wyróżnionych)
p̂
k
Średnia H=
n
= n
n
, n1+ n2 +...+ nk
i=1
ni
1 1 1 1 H= = k ,
harmoniczna H +
x1 x2
+...+
xn
x
i=1 i
1 1
n1 + n2 +...+ nk
1
ni
x1 x2 xk i=1 xi
Średnia
geometryczna G
G =n x1 x2 x3 ... xn , G = n x1n1 x2n2 ... xk nk ,
124
n k
Średnia
1
log x i
n1 log x1+ n 2 log x 2 +...+n log x k
n log x
i i
f
n 2
Średnia 2
+ 2 +...+ xn 2
x i
2
K= i=1
i xi
,
kwadratowa K K= x1 x2 = i=1
, k
n
n f i=1
i
125
Q3 x 3 , liczebność badanej populacji, ni –
1 n 1 m 1
n -
4
1 k n 1 C
liczebność przedziału o numerze i, i
i 1
liczebność skumulowana przedziału
poprzedzającego1 lub 3 kwartyl, hm –
rozpiętość przedziału zawierającego1 lub 3
kwartyl, nm – liczebność przedziału
zawierającego 1 lub 3 kwartyl
x i - środek przedziału klasowego dla i-tego
xi-wynik obserwacji dla i-tego przedziału klasowego, x - średnia
obiektu, x - średnia arytmetyczna, n arytmetyczna, n - liczebność badanej
- liczebność badanej populacji, populacji, ni – liczebność przedziału
Oznaczenia
Me – mediana, Q1 – kwartyl klasowego o numerze i, k – liczba
pierwszy, Q3 – kwartyl trzeci, Mo - przedziałów klasowych, Me – mediana, Q1
modalna – kwartyl pierwszy, Q3 – kwartyl trzeci, Mo
– modalna
Źródło: opracowanie własne (por. Zając, 1988; Andreasen, 1988; Jackson, 1983; Brzeziński,
1987; Steczkowski i Zeliaś, 1997; Kowal, 1998; par.2.6.2. bieżącej monografii; Jóźwiak i
Podgórski, 2003).
4. Miary dyspersji
Miary dyspersji (rozrzutu, zmienności, zróżnicowania) zawierają informację o
zróżnicowaniu wyników względem miar tendencji centralnej. Miary są tak skonstruowane, że
im większa wartość bezwzględna miary rozrzutu, tym bardziej populacja jest heterogeniczna,
tym mniej obiekty badawcze są do siebie podobne ze względu na analizowaną właściwość.
Miary dyspersji mogą być bezwzględne (rozstęp zwykły, rozstęp kwartylowy, odchylenie
ćwiartkowe odchylenie przeciętne, wariancja, odchylenie standardowe) lub względne
(współczynnik zmienności względem średniej, współczynnik zmienności względem mediany,
kwartylowy współczynnik zmienności). Do określenia stopnia zróżnicowania populacji ze
względu na badaną cechę lub zmienną łatwiej interpretować i porównywać miary względne,
ponieważ można wtedy abstrahować od jednostek, w jakich wyrażone były pomiary
pierwotne. Wiadomo, że populacja jest jednorodna, jeżeli współczynnik zmienności
względem średniej lub mediany danej cechy lub zmiennej nie przekracza wartości 0,1; raczej
słabo zróżnicowana przy wartościach współczynnika zmienności nie przekraczających
wartości 0,2; od 0, 20 do 0,4 - zróżnicowanie cechy można uznać za umiarkowane; od 0,4 do
0,6 za silne; powyżej 0,6 – bardzo silne. Przy silnym zróżnicowaniu średnia arytmetyczna jest
niemiarodajną charakterystyką cechy i lepiej wtedy stosować wówczas opis oparty na miarach
pozycyjnych.
126
Większe wartości współczynników świadczą o tym, że badana populacja jest
niejednorodna i być może należałoby się zastanowić nad koniecznością podzielenia jej na
bardziej homogeniczne podzbiory, ze względu na wyróżnione kryteria.
Definicje miar dyspersji, zalety i możliwości zastosowań oraz wady w tabeli 5,
natomiast formuły zawarte są w tabeli 6.
Zróżnicowanie cechy silne i bardzo silne wskazuje, że zbiorowość jest niejednorodna. W
takich sytuacjach średnia arytmetyczna jest niemiarodajna charakterystyka cechy. Stosujemy
wówczas opis oparty na miarach pozycyjnych.
127
Odchylenie ćwiartkowe - adekwatne dla skal porządkowych - nie wykorzystuje wszystkich
: połowa różnicy - adekwatne dla skal interwałowych i informacji o populacji;
między trzecim i ilorazowych przy rozkładach - nie można przy jego pomocy
pierwszym kwartylem: asymetrycznych, przy małych próbach uchwycić zmian na krańcach
Q=(Q3-Q1)/2; i dużej różnicy wyników skrajnych; rozkładu;
intuicyjnie - mierzy rozstęp pokryty przez połowę - nie daje informacji o zmienności
interpretowane jako wszystkich przypadków; w środkowej połowie przypadków
przeciętna odległość, - Q1 i Q3 są mniej zależne od wahań
jakiej można się próby niż wartości pomiarów
spodziewać w zbiorze ekstremalnych;
wyników obserwacji w - jest miernikiem bardziej stabilnym
stosunku do mediany w niż rozstęp
środkowej połowie
przypadków
- miara adekwatna dla skal - operowanie wartościami
Odchylenie przeciętne interwałowych i ilorazowych bezwzględnymi jest niewygodne
względem średniej - pozwala określić średnią odległość algebraicznie;
d x lub mediany d Me : między pomiarem a średnią lub - trudno interpretować je
średnia arytmetyczna medianą; teoretycznie, nie prowadzi do
wartości - ujmuje informacje o wszystkich prostych rezultatów
bezwzględnych różnic wynikach obserwacji; matematycznych;
między pomiarami i - daje się interpretować bardziej - trudno posługiwać się nim w
intuicyjnie jako średnia odległość przypadku krzywej normalnej
średnią( d x ) lub
między pomiarem a średnią;
medianą ( d Me ) - jest miernikiem wygodnym do celów
czysto opisowych
Wariancja: średnia
arytmetyczna zalety odchylenia standardowego;
kwadratów odchyleń od stosowana częściej do badania
średniej, miara istotności różnic w zakresie wady odchylenia standardowego
całkowitego zmienności międzygrupowej i
zróżnicowania populacji wewnątrzgrupowej wyników
128
- miara adekwatna dla skal
interwałowych i ilorazowych, ale
może być również stosowane dla skal
zerojedynkowych lub porządkowych
- ekstremalne odchylenia od
-łatwo interpretowalne;
średniej mają silny wpływ na
Odchylenie - jest tym większe, im większy jest
wartość odchylenia standardowego;
standardowe s lub ŝ : rozrzut wokół średniej;
- przy małej próbie wartości
pierwiastek kwadratowy - gdyby wszystkie pomiary były sobie
przypadków ekstremalnych mogą
ze średniej równe, odchylenia pomiarów od
spowodować, że odchylenie
arytmetycznej średniej byłyby równe zeru, a tym
standardowe może zrobić się
kwadratów odchyleń od samym odchylenie standardowe
niezwykle wielkie i dać przez to
średniej i można je również byłoby równe zeru;
mylące rezultat (w takiej sytuacji
interpretować - miernik satysfakcjonujący dla
lepiej jest stosować medianę jako
intuicyjnie jako większości zbiorów danych, w
miernik tendencji centralnej , a
przeciętną odległość, szczególności dla zbiorów o dużej
odchylenie ćwiartkowe jako
jakiej można się liczebności i dla cech o rozkładach
miernik rozrzutu);
spodziewać w populacji symetrycznych;
- miernik niesatysfakcjonujący dla
w stosunku do średniej - może być obliczane również dla
zmiennych o rozkładach
cech jakościowych, po odpowiednich
niesymetrycznych
przekształceniach zmiennych,
opartych na liczebnościach i
proporcjach wartości, jakie zmienna
pierwotna może przyjąć
- często wykorzystywany po oceny
Współczynnik dyspersji zgodności opinii ekspertów w
względnej klasyfikacji - wymaga skategoryzowanych
metodach heurystycznych, np. w odpowiedzi, wady skal
hr dla skal metodzie delfickiej, hr <0, 1> - im kategorialnych
kategorialnych
hr bliższe 0, tym większa zgodność
- adekwatne dla skal porządkowych
lub interwałowych i ilorazowych w
przypadku rozkładów
Współczynnik
asymetrycznych, małych prób i
zmienności względem
dużych różnic w wynikach skrajnych;
mediany VMe wady miar opartych na kwartylach
- dobre miary do porównania
Kwartylowy i medianie
jednorodności tej samej cechy lub
współczynnik
zmiennej dla różnych grup
zmienności VQ
- dobrze je stosować dla małych prób,
przy dużej różnicy w zakresie
wyników skrajnych
-dobra miara dla zmiennych ciągłych,
o rozkładach symetrycznych
- dobra miara, gdy celem badania jest
Współczynnik sprawdzenie, czy dwie różne grupy są
zmienności względem jednorodne pod względem jakiejś wady odchylenia przeciętnego lub
cechy, na przykład wieku standardowego
średniej Vs lub Vd
- dobra miara do porównań
zmienności cech mierzonych w
różnych jednostkach, np. wagi i
wzrostu
Źródło: opracowanie własne (por. Zając, 1988; Andreasen, 1988; Jackson, 1983; Brzeziński,
1987; Kowal, 1998; paragraf 2.5. bieżącej monografii).
129
Tabela 6. Formuły dla miar dyspersji dla szeregów szczegółowych i rozdzielczych
Miary
Formuły dla szeregu szczegółowego Formuły dla szeregu rozdzielczego
dyspersji
Rozstęp R R xmax xmin R x k x1
Rozstęp
RQ Q3 Q1
kwartylowy RQ
Odchylenie Q3 Q1
ćwiartkowe Q
Q
2
Odchylenie 1 n 1 k
przeciętne dx xi x ,
n i 1
d x x i x ni .
n i 1
względem
1 n 1 k
średniej d x lub d Me xi Me d Me xi Me ni
mediany d Me n i 1 n i 1
Wariancja dla
n n k n
dużej próbki s 2 s 2 1
xi x 2 1 xi2 x 2 s 2 1 xi x 2 ni 1
x 2
ni x
2
Kwartylowy Q3 Q1
współczynnik VQ
zmienności VQ Q3 Q1
Współczynnik s s
zmienności Vs , Vs % 100%
względem x x
130
średniej Vs lub d d
Vd , Vd % 100%
Vd x x
131
b) x > Me > Dx – obserwujemy rozkład o asymetrii prawostronnej, większość obserwacji
znajduje się w przedziałach położonych bliżej początku szeregu, większość cech ma
wartości o niskich nominałach
c) x < Me < Dx –występuje asymetria lewostronna, przedział klasowy zawierający
największą liczbę obserwacji przesunięty jest w prawo i znajduje się przy ostatnich
przedziałach.
Mogą zdarzyć się również rozkłady bimodalne, o dwóch wyraźnych punktach skupienia, przy
czym mogą mieć kształt symetryczny lub niesymetryczny.
Przy opisie statystycznym warto również uwagę poświęcić miarom koncentracji, jak kurtoza
α 4 i eksces α 4 , które zawierają informację, jak silnie wyniki obserwacji skupiają się wokół
średniej arytmetycznej (Tabela 7).
Charakterystykę momentów, dokładne wzory, opis możliwości zastosowań można znaleźć u
Kowal (1998), Jóźwiaka i Podgórskiego (1994), Steczkowskiego (1970, s. 79-88),
Steczkowskiego i Zeliasia (1997).
Tabela 7. Formuły i interpretacja miar asymetrii i koncentracji dla szeregów
szczegółowych i rozdzielczych
Miary asymetrii i Formuły dla szeregu
Formuły dla szeregu szczegółowego
koncentsracji rozdzielczego
Moment r-tego rzędu – wzór n 1 k
1
ogólny dla miar asymetrii x i A r . ni xi Ar k .
i 1 n i 1
koncentracji dla cech i ni
zmiennych interwałowych i i 1
ilorazowych
Miary asymetrii
1 1 k
3 n i 3 n
(x x)3 ( x i x ) 3 ni
α3 3 α 3 3 i 1
s s3 s s3
Interpretacja
Współczynnik asymetrii α 3 α3 <-2,2> – im bliższy 0 tym asymetria jest słabsza
dla skal interwałowych i α3 =0: rozkład idealnie symetryczny względem średniej, zwykle dominuja
ilorazowych
wyniki przeciętne;
α3 <0: dominują wyniki wysokie, powyżej średniej; asymetria lewostronna,
rozkład lew skośny;
α3 >0: dominują wyniki niskie, poniżej średniej; asymetria prawostronna,
rozkład prawo skośny
Współczynnik asymetrii As 3 ( x Me)
As
dla skal interwałowych i s
ilorazowych, częściej Interpertacja
stosowany dla małych As <-2,2> – im bliższy 0 tym asymetria jest słabsza
132
populacji As = 0: rozkład idealnie symetryczny względem średniej, zwykle dominuja
wyniki przeciętne;
As < 0: dominują wyniki wysokie, powyżej średniej; asymetria
lewostronna, rozkład lewskośny
As > 0: dominują wyniki niskie, poniżej średniej; asymetria prawostronna,
rozkład prawo skośny
x Dx
Ws
s
Interpretacja
Współczynnik skosności Ws Ws <-1, 1> – im bliższy 0 tym asymetria
jest słabsza
dla skal interwałowych i
ilorazowych, częściej Ws = 0: rozkład idealnie symetryczny względem średniej, zwykle dominuja
stosowany dla małych wyniki przeciętne;
populacji, raczej miara stabilna Ws < 0: dominują wyniki wysokie, powyżej średniej; asymetria
lewostronna, rozkład lewskośny
Ws > 0: dominują wyniki niskie, poniżej średniej; asymetria prawostronna,
rozkład prawo skośny
(Q3 Me) ( Me Q1 ) Q1 Q3 2Me
AQ
(Q3 Me) ( Me Q1 ) 2Q
Interpretacja
AQ <-1,1> – im bliższy 0 tym asymetria jest słabsza
Pozycyjny współczynnik
asymetrii AQ dla skal AQ = 0: rozkład idealnie symetryczny względem mediany, zwykle dominują
porządkowych wyniki przeciętne;
AQ < 0: dominują wyniki wysokie, powyżej mediany asymetria
lewostronna, rozkład lewoskośny
AQ > 0: dominują wyniki niskie, poniżej mediany asymetria prawostronna,
rozkład prawo skośny
a) Dla szeregu o parzystej liczbie wariantów:
1 2j j
AS (i j ) f (i j 1) f i ,
100
i
j i j 1 i 1
k
Gdzie j ,
2
k=1, 4, 6 … - liczba wariantów w szeregu,
ni
Współczynnik asymetrii AS fi 100 - częstość i-tego wariantu dla i=1. …k,
n
dla wszystkich skal k
pomiarowych n ni ,
i 1
1 2j
AS (i j ) f i ,
100 ( j 1) i j 1
k 1
Gdzie j , (2.1.5.13)
2
133
k=3, 5, 7 … - liczba wariantów w szeregu,
ni
fi 100 - częstość i-tego wariantu dla i=1. …k,
n
k
n ni
i 1
Interpretacja
AS <-1, +1> – im bliższy 0 tym asymetria jest słabsza
AS = 0: rozkład idealnie symetryczny względem mediany, zwykle dominują
wyniki przeciętne;
AS < 0: dominują wyniki wysokie, powyżej mediany asymetria
lewostronna, rozkład lewoskośny
AS > 0: dominują wyniki niskie, poniżej mediany asymetria prawostronna,
rozkład prawo skośny
Miary koncentracji
1 1 k
( xi x ) 4
n
( x i x ) 4 ni
α 4 44 n α 4 44 i 1
s s 4
s s4
Współczynnik koncentracji α 4
dla skal interwałowych i Interpretacja
ilorazowych (współczynnik Jeżeli α 4 = 3: rozkład jest normalny;
skupienia, kurioza) α 4 < 3: rozkład jest bardziej spłaszczony, wyniki obserwacji są mniej
skoncentrowane wokół średniej niż w rozkładzie normalnym;
α 4 > 3: rozkład jest bardziej spiczasty, wyniki obserwacji są bardziej
skoncentrowane wokół średniej niż w rozkładzie normalnym
α4 α4 3 α4 α4 3
1 k
1
( xi x ) 4 4 ( x i x ) 4 ni
4 3
n i 1
3
4 3 n 3 s4 s4
s s4
Współczynnik spłaszczenia α 4 Interpretacja
dla skal interwałowych i
Jeżeli α 4 =0: rozkład jest normalny;
ilorazowych (eksces)
α 4 < 0: rozkład jest bardziej spłaszczony, wyniki obserwacji są mniej
skoncentrowane wokół średniej niż w rozkładzie normalnym;
α 4 > 0: rozkład jest bardziej spiczasty, wyniki obserwacji są bardziej
skoncentrowane wokół średniej niż w rozkładzie normalnym
xi - środek przedziału klasowego
xi-wynik obserwacji dla i-tego dla i-tego przedziału klasowego,
obiektu, A - dowolnie przyjęta stała A - dowolnie przyjęta stała
wielkość, x - średnia arytmetyczna, n wielkość, x - średnia arytmetyczna,
- liczebność badanej populacji, n - liczebność badanej populacji, ni
Oznaczenia Me – mediana, Q1 – kwartyl pierwszy, – liczebność przedziału klasowego
o numerze i, k – liczba przedziałów
Q3 – kwartyl trzeci, Dx - moda dla
klasowych, Me – mediana, Q1 –
zmiennej X, s – odchylenie kwartyl pierwszy, Q3 – kwartyl
standardowe
trzeci, Dx - moda dla zmiennej X, s
– odchylenie standardowe
134
a) Stopień skupienia obserwacji wokół poszczególnych wariantów
cechy na podstawie częstości
1 k 100 ,
C k fi
200 (k 1) i 1 k
gdzie k=1, 2 … - liczba wariantów w szeregu,
ni
fi 100 - częstość i-tego wariantu dla i=1. …k,
n
k
Współczynnik koncentracji C n ni ,
dla wszystkich skal i 1
pomiarowych, stopień
skupienia obserwacji wokół b) Stopień skupienia obserwacji wokół poszczególnych wariantów
poszczególnych wariantów cechy na podstawie liczebności
cechy
1 k n
C k ni ,
200 n (k 1) i 1 k
Gdzie,
k=1, 2, … - liczba wariantów w szeregu,
k
n ni
i 1
Interpretacja
C <0, +1> – im bliższy 0 tym koncentracja jest słabsza
Źródło: opracowanie własne (por. Kowal,1998; Jóźwiak i Podgórski, 1994; Steczkowski,
1970; Steczkowski i Zeliaś, 1997).
6. Miary współzmienności
Współzmienność cech lub zmiennych może być charakteryzowana przez kowariancję lub
różne współczynniki korelacji, które powinny być dobrane adekwatnie do skal pomiarowych.
Współzmienność dwóch zmiennych: X i Y. Kowariancja jest wielkością, charakteryzującą
wspólne zmiany dwóch zmiennych X i Y. Służy do pomiaru siły korelacji między zmiennymi
X i Y. Kowariancja jest definiowana jako średnia arytmetyczna odchyleń wartości dwóch
zmiennych od ich średnich arytmetycznych:
1 n
cov(X,Y) = xi yi - x x yy .
n i =1
(por. Zając, 1988, Kowal, 1998)
W badaniach jakościowych często jednym z zadań jest ocena siły związku między zmiennymi
(np., określenie siły związku między typem umysłu badanych osób a preferowanym rodzajem
symboliki w reklamie lub ulubionym gatunkiem literackim). Służą do tego współczynniki
korelacji, które należy dobierać adekwatnie do:
skal pomiarowych analizowanych zmiennych lub cech,
135
liczby cech lub zmiennych,
wielkości próby oraz czasami
kształtu rozkładu zmiennych.
Współczynniki korelacji są miarami względnymi, niemianowanymi (nie wyrażonymi w
jednostkach), dzięki czemu możliwe jest dokonywanie porównań korelacji dla różnych
zestawów zmiennych.
Czasami badacze dysponują już pewna populacją, na przykład własnych pacjentów lub klientów
- wtedy wyniki analizy korelacji będą prawomocne tylko dla posiadanego zbioru wyników
obserwacji. Należy dobrać współczynnik korelacji, adekwatny do skali pomiarowej, ilości
zmiennych lub kształtu rozkładów cech, obliczyć wartość współczynnika, określić siłę związku i
zinterpretować, poprzestać na opisie, a wniosków nie uogólniać na populację generalną.
Współczynniki korelacji przyjmują wartości z przedziałów liczbowych:
ρ ϵ <0,1> albo
ρ ϵ <-1,1> .
Orientacyjnie można przyjąć, że siła korelacji między dwiema cechami jest
niewyraźna jeśli | | 0,2 ;
wyraźna, ale niska jeśli 0,2 | | 0,4 ;
idealna | | =1.
Jeżeli jednak celem badań jakościowych byłoby generalizowanie wniosków, należałoby dobrać
reprezentatywna próbę, najlepiej losową. Nie wystarczy wtedy tylko obliczyć współczynnika,
należy również sprawdzić jego istotność za pomocą odpowiedniego testu statystycznego. W
takich sytuacjach należy:
określić liczbę zmiennych oraz ich skale pomiarowe,
wielkość próby,
wylosować próbę z populacji,
dokonać pomiaru zmiennych, opisujących badane obiekty,
wyszczególnić możliwe do zastosowania współczynniki,
wybrać współczynnik optymalny, obciążony najmniejszym błędem,
obliczyć współczynnik,
136
przetestować hipotezę zerową o braku zależności między zmiennymi za pomocą
odpowiedniego testu istotności (tab.2.6.6.1 i paragraf 2.7 w bieżącej monografii; Kowal,
1998 ; por. Brzeziński, 1980).
Współczynnik φ (phi) Yule'a. Współczynnik mierzy siłę związku między dwiema zmiennymi
mierzonymi na skalach niemetrycznych nominalnych. Może on mieć zastosowanie w
przykładowych problemach, które opisano poniżej.
Często zdarza się, że producenci chcą się szybko dowiedzieć, czy na przykład zmiana
opakowania towaru lub zastosowanie nowej reklamy wpływa na zwiększenie popytu na
wspomniany towar. W takich wypadkach zwykle przeprowadza się albo test rynkowy, albo
eksperyment w połączeniu z krótkim sondażem. Przykładem może być sytuacja, w której na
rynku pojawia się margaryna w nowym opakowaniu. Krótki sondaż wśród sprzedawców, czy
przy nowym opakowaniu margaryna sprzedaje się lepiej czy nie, pozwoli producentom na
podjęcie decyzji, czy warto zmieniać opakowanie. W omawiamym klasycznym przykładzie
szybkiego testu rynkowego w połączeniu z sondażem, występują dwie zmienne
dychotomiczne (lub zdychotomizowane najlepiej w punkcie mediany). Zmienna X oznacza
rodzaj opakowania (1 - nowe, 0 - stare opakowanie). Zmienna Y przyjmuje również dwie
wartości: 1 - oznacza wzrost zainteresowania klientów produktem i zwiększenie sprzedaży
margaryny w sklepie w ciągu tygodnia, czyli pozytywny efekt zmiany opakowania, natomiast
0 - brak widocznych efektów.
Współczynnik Yule'a przedstawia poniższy wzór:
2
χ
φ= lub
N
ad-bc
φ= ,
(a+b)(a+c)(b+d)(c+d)
φ 0,1
137
Obie zmienne X i Y dychotomiczne lub zdychotomizowane, najlepiej w punkcie mediany lub
dychotomiczne, dane zestawione w tabeli krzyżowej postaci:
X
0 1
Y 1 a B a+b
0 c D c+d
a+c b+d N
Jeśli rozkłady brzegowe obu zmiennych są równe albo jeśli liczebność pól leżących na tej
samej przekątnej jest zerowa, to współczynnik Yule'a równy jest 1 (Patrz Przykład 2.1.6.1).
Współczynnik Yule'a (phi) testuje się przy pomocy test χ2, przy liczbie stopni swobody
równej df=1. Hipoteza zerowa przyjmuje postać
H0: ρ=0: odrzuca się, gdy:
χ2 ≥ χα/2 (test dwustronny);
χ2 ≥ χα (test jednostronny),
gdzie ρ oznacza współczynnik korelacji w populacji generalnej
Jeżeli rozkład zmiennej Y jest ustalony przez metodę operacjonalizacji (na przykład w
punkcie mediany), to zamiast współczynnika korelacji Yule'a lepiej jest stosować
współczynnik korelacji Q - Kendalla. (por.Guilford, 1964; Góralski, 1976; Blalock, 1975;
Brzeziński, 1980)
Q 0,1 ,
gdzie χ2 oblicza się według wzoru jak wyżej. Testowania istotności dokonuje się - jak przy
współczynniku Yule'a.
Wspomniano wyżej, że jeśli rozkład zdychotomizowanej zmiennej zależnej lub niezależnej,
wyrażonej pierwotnie w skali wyższego rzędu niż nominalna, określony jest przez metodę
operacjonalizacji (na przykład w punkcie mediany), to test Q-Kendalla daje lepsze rezultaty,
ponieważ jest testem mocniejszym.
138
Poniżej przedstawiono ideowy przykład klasycznej sytuacji w badaniach sondażowych, w
których przydatny mógły być właśnie współczynnik Kendalla. Celem badań było
stwierdzenie zależności między zainteresowaniem, jakie wzbudza komputer osobisty 486 DX
a projektami obudowy komputera - standardowym (wartość zmiennej niezależnej w tym
wypadku wynosiła X=0) oraz tzw. ergonomicznym (wartość zmiennej niezależnej wynosiła
X=1). Sondaż przeprowadzono wśród potencjalnych klientów, wybieranych losowo metodą
sondażu wyrywkowego, na małej próbie respondentów. Zmienna zależna, oznaczająca chęć
zakupu była pierwotnie mierzona na skali porządkowej. Klientom pokazywano prospekty ze
zdjęciami komputera tego samego typu 386 DX, ale w różnych obudowach (każdy klient
oglądał tylko jeden prospekt). Respondenci oceniali chęc kupienia produktu w skali 1 - 5.
Dychotomizacja zmiennej zależnej - czyli chęci zakupu za pomocą mediany pozwoliła
wyłowić z populacji próbnej dwie skrajne grupy osób:
1) z jednej strony osoby, które wykazywały słabą chęć nabycia produktu (zmienna zależna
przyjmowała wartości mniejsze niż mediana, co oznaczono jako Y=0 );
2) z drugiej strony osoby bardzo zainteresowane , które chciałyby produkt mieć ( zmienna
zależna przyjmowała wartości wyższe niż mediana, co oznaczono jako Y=1). Testowano
hipotezę zerową, zakładającą brak związku między typem obudowy komputera a chęcią jego
posiadania. Obliczony współczynnik Q - Kendalla wyniósł 0.000 przy obserwowanym
poziomie istotności równym 0.89. Oznacza to, że nie ma podstaw do odrzucenia H0 o braku
związku. Uogólniając teoretycznie wnioski z przykładu praktycznego, można powiedzieć, że
sposób operacjonalizacji za pomocą mediany zmiennej wyrażonej na skali co najmniej
porządkowej jest bardzo dobrym i szybkim sposobem dychotomizacji. Wyodrębnienie grup
skrajnych z kolei pozwala na łatwiejsze analizowanie przyczyn ocen atrybutów obiektów oraz
przyczyn preferencji konsumenckich w stosunku do tych obiektów. Bardzo przydatnym
testem do omawianych analiz jest test median (por. testy istotności różnic dla danych
niezależnych), występujący w wielu standardowych pakietach statystycznych, dostarczający
badaczowi tablicy kontyngencji dla zmiennej zależnej (która od razu w teście jest
dychotomizowana) i dla zmiennej niezależnej. W teście obliczana jest również statystyka chi-
kwadrat wraz z liczbą stopni swobody i poziomem istotności, co już pozwala stwierdzić, czy
zmienne są zależne, czy nie. Na podstawie tablicy kontyngencji można przeanalizować
rozkłady zmiennych oraz obliczyć współczynnik Q - Kendalla, który z kolei pozwoli określić
siłę związku między zmiennymi. Taka procedura postępowania badawczego w gruncie rzeczy
nie jest czasochłonna, nie wymaga specjalnych założeń co do kształtu rozkładu zmiennych nie
mierzonych na skalach nominalnych, może być stosowana zarówno przy małych statystycznie
139
próbkach, jak i przy dużych. Co więcej nie wymaga wielkiej wiedzy matematycznej, a przy
tym szybko prowadzi do wyciągnięcia wniosków. Opisaną procedurę można stosować w
szybkich i tanich badaniach sondażowych produktów i reklamy, a na pewno we wszystkich
przypadkach zostaną uzyskane satysfakcjonujące menedżerów rezultaty praktyczne, w postaci
między innymi zwiększonego zainteresowania klientów i zwiększenia sprzedaży produktów.
Wzór tablicy kontyngencji przedstawiono poniżej.
X
0 1
Y 1 a b a+b
0 c d c+d
a+c b+d N
Gdzie X=0 - obudowa standardowa, X=1 - obudowa ergonomiczna,
Y=0 - niska chęć posiadania komputera, Y=1 - wysoka chęć posiadania komputera.
((Patrz Przykład 2.1.6.1, por. Brzeziński, 1996; Guilford, 1964; Góralski. 1976; Blalock,
1975).
2
C= ,
2+N
C 0,1
w k ( f ij - eij )2
χ =
2
,
i=1 j=1 eij
przy czym
140
f i.. f . j
eij = ,
n
gdzie i=1,2,…,w – numer wiersza, a j=1,2,…,k numer kolumny; fi. – suma liczebności
brzegowej dla wiersza i; f.j – suma liczebności brzegowej dla kolumny j, przy liczbie stopni
swobody równej df=(w-1)(k-1)
Wzór przykładowych tabel dla liczebności empirycznych i obliczanych teoretycznych
(oczekiwanych): dla dwóch zmiennych X i Y, o wymiarach w na k, o dowolnej liczbie kolumn i
wierszy, nie musi być kwadratowa; gdzie w - liczba wierszy, a k - liczba kolumn, n – liczebność
badane populacji
Liczebności empiryczne
X
i\j 1 2 k suma
1 f11 f12 … f1k f1.
Y … … … ……
w fw1 fw2 … fwk fw.
suma f.1 f.2 f.k n
Liczebności oczekiwane
X
i\j 1 2 k suma
1 e11 e12 … e1k f1.
Y … … … ……
w ew1 ew2 … ewk fw.
suma f.1 f.2 … f.k n
Istotność współczynnika bada się za pomocą testu test χ2 dla liczby stopni swobody df=(w-
1)(k-1).
Hipoteza zerowa przyjmuje postać:
H0: ρ=0: odrzuca się, gdy:
χ2 ≥ χα/2 (test dwustronny);
141
χ2 ≥ χα (test jednostronny),
gdzie ρ oznacza współczynnik korelacji w populacji generalnej
(por. Brzeziński, 1996; Blalock, 1975; Góralski, 1976; Guilford, 1964).
χ2
V= ,
N min ((w-1 ),(k-1 ))
V 0,1
T 0,1
142
Współczynnik T przybiera wartość maksymalną dla tabeli o liczbie wierszy równej liczbie
kolumn (w=k) (por. współczynnik V Cramera). Testowanie istotności współczynnika – jak
przy C Pearsona.
= 1 2,
-
1
0,1
Wartość lambdy równa 0.53 wskazuje, że popełnimy 53% błędów mniej, jeśli uwzględnimy
w przewidywaniach zmienną niezależną. Testowanie istotności współczynnika – jak przy C
Pearsona (Healey, 1984).
143
Współczynnik lambda (λ), opracowany przez Goodman i Kruskala jest miarą proporcjonalnej
redukcji błędu w analizie statystyk, opartych na tabelach krzyżowych (cross tabulation
analysis). Załóżmy, że w próbce określamy niezależną zmienną nominalną X oraz zależną Y
(traktowaną również jako nominalna). Współczynnik lambda (λ) wskazuje stopień
zróżnicowania kategorii i liczebności modalnych (najczęściej występujących) dla każdej
wartości zmiennej niezależnej X, w stosunku do ogólnej kategorii i liczebności modalnej, tzn.
że dla wszystkich wartości ogółem zmiennej niezależnej X, współczynnik lambda (λ) może
być obliczony z równania:
= 1 2,
-
1
0,1 ,
gdzie 1 jest najmniejszą liczebnością ogólną, a 2 - sumą niemodalnych liczebności dla
wszystkich wartości zmiennej niezależnej X.
Mimo, że lambda (λ) jest stosowana do obliczania siły związku między zmiennymi,
rezultatem obliczeń może być wartość 0, (oznaczająca brak związku), ilekroć dwie zmienne
są zgodne, tzn., kiedy kategoria modalna jest taka sama dla wszystkich wartości zmiennej
niezależnej, nawet jeżeli liczebności lub proporcje modalne różnią się (Goodman i Kruskal,
1954, 1959, 1963).
Współczynniki korelacji rang Kendalla τa, τb, τc (tau) . Współczynniki korelacji rang Kendalla
mają zastosowanie w ocenie siły związku między zmiennymi, które mierzono na skali
porządkowej lub których wartości zostały porangowane., a założenia są podobne, jak przy
obliczaniu współczynnika RS Spearmana. Wielkości obu współczynników zwykle nie
pokrywają się, z powodu nieco innych podstaw logicznych oraz formuł obliczeniowch.
Różnią się również pod względem interpretacji.
Zależność między dwoma miarami wyrażają w postaci nierówności:
1 3 2 Rs 1 , (Siegel i Castellan,1988).
Współczynnik RS Spearmana ma zbliżoną interpretację do współczynnika korelacji momentu
iloczynowego Pearsona, tzn. w kategoriach proporcji wyjaśnianej zmienności (po
podniesieniu do kwadratu), przy czym R Spearmana jest wyliczany na podstawie rang.
Współczynnik Tau Kendalla jest obliczany na podstawie różnicy prawdopodobieństw
zdarzenia A (dwie zmienne układają się w tym samym porządku w obrębie obserwowanych
danych) oraz zdarzenia B ( uporządkowanie zmiennych różni się). Obliczane są dwa
144
warianty:taub i tauc. Różnią się one sposobem traktowania rang wiązanych, czyli sposobem
nadawania rang tym samym wartościom. Zwykle obie wartości są podobne, a w przypadku
rozbieżności, lepiej uwzględniać wartość mniejszą.
Wzór na współczynniki korelacji rang Kendalla przedstawia się poniżej :
a) dla danych porangowanych
P-Q
b= ,
(P + Q + T X )(P + Q + T Y )
b 1,1
b) dla tablic o dowolnej liczbie wierszy i kolumn
2m(P-Q)
τc = 2
,
n (m-1 )
gdzie : P - liczba zgodnych par, których rangi zmierzają w tym samym kierunku; Q - liczba par,
których rangi zmierzają ku przeciwnym kierunkom.. Współczynniki τb (tau-b) i τc (tau-c)
niewiele się różnią co do wartości, jeżeli wartości marginalne macierzy danych mają w
przybliżeniu równe liczebności
Jeżeli żadna z wartości marginalnych nie jest równa 0, τb (tau-b) może osiągnąć wartości
maksymalne -1 lub +1 tylko w przypadku kwadratowej tablicy kontyngencji. W przypadku
tablicy o dowolnej liczbie kolumn i wierszy miara Kendalla może przybierać wartości
maksymalne lub im bliskie dla następującego wzoru na τc (tau-c)
Testowanie istotności współczynników:
a) Dla małych prób tablice podają Kendall (1955), Siegel (1956) i Castellan (1988),
Degenne (1972) i Hays (1973),
b) Rozkład tau bardzo szybko dąży do rozkładu normalnego, więc dla prób n≥10 można
już stosować rozkład normalny (Hays, 1973) i test Z.
H0: ρ=0: odrzuca się, gdy:
z ≥ zα/2 (test dwustronny),
z≥ zα (test prawostronny),
z ≤ -zα (test lewostronny),
gdzie ρ oznacza współczynnik korelacji w populacji generalnej, a statystyka z obliczana jest
według wzoru:
τ τ .
z =
τ σ
τ 22n 5
9n(n 1)
145
Współczynniki z serii gamma (γ). Bardzo zbliżona w sensie idei, wzoru i interpretacji do
stastystyk tau Kendalla jest gamma (γ) zaproponowana przez Goodmana i Kruskala :
PQ
Γ= .
P+Q
Gamma (γ) nie wyszczególnia idealnie zgodnych rang wiązanych. Wartość maksymalną
osiąga w przypadku, gdy obserwacje są skoncentrowane na diagonalnej tablicy kontyngencji.
Jeśli zmienne są niezależne gamma wynosi zero, jednakże z zastrzeżeniem, że nie musi to być
prawdą w przypadku tablic o wymiarach 2x2. Procedura obliczania statystyki gamma (γ)
traktuje zmienne jako symetryczne i nie wyróżnia zmiennej zależnej i niezależnej.
Sommer (1962) zaproponował asymetryczne rozszerzenie statystyki gamma (γ), które różni
się tylko tym od omawianej powyżej, że w mianowniku występuje liczba par idealnie
zgodnych co do wysokości rang i kierunku ich zmierzania, ale tylko dla zmiennej zależnej Y :
P-Q
dY = .
P + Q +T Y
Współczynnik dY wskazuje proporcjonalną nadwyżkę par zgodnych pod względem kierunku
zmierzania rang nad liczbą par zmierzających w przeciwnych kierunkach, przy nie
uwzględnianiu par idealnie zgodnych co do wysokości rang i kierunku zmierzania dla
zmiennej niezależnej X.
Testowanie istotności współczynnika przeprowadza się, jak w przypadku tau Kendalla.
Współczynnik korelacji rang Spearmana. Współczynnik rang Spearmana stosuje się dla
zmiennych, które mierzono na skali porządkowej lub których wartości zostały porangowane.
Jest on bardzo przydatny (ze względu na to, że wiele zmiennych w kwestionariuszach
sondażowych wyraża się w skalach porządkowych), wygodny i łatwy w interpretacji dla
potrzeb marketingu.
Współczynnik korelacji rang Spearmana może porównywać rangi dwóch zmiennych, np.
zmiennych oznaczających wiedzę i wykształcenie personelu domów towarowych oraz jakości
sprzedawanych tam towarów. Współczynnik korelacji rang Spearmana odpowiada na pytanie,
czy wyższe rangi jednej zmiennej są związane z wyższymi (lub niższymi) rangami innej
zmiennej. Jeśli rangi rozważanych zmiennych zmierzają w tym samym kierunku,
współczynnik rs przyjmuje wartość dodatnią. W sytuacji odwrotnej, gdy rangi zmierzają w
przeciwnych kierunkach, rs przyjmuje wartość ujemną. Wartości bezwzględne współczynnika
zawsze znajdują się w przedziale od -1 do 1. Im wartość bezwzględna współczynnika rs
bliższa jest jedności, tym silniejszy związek między rangami zmiennych.
146
Współczynnik rS oblicza się według wzoru:
n
6 d i2
i=1
r S =1-
n n
3
t3 t
gdzie T X = ,
12
n3 n
x2 = - T X ,
12
n3 n
y2= - T Y ,
12
gdzie n – liczebność próbki, (n>5) di=rxi-ryi – różnica między rangami dwóch zmiennych, t –
liczba obserwacji związanych z tą samą rangą, Tx - liczba par pomiarów, przyjmujących
identyczne rangi wyłącznie dla zmiennej X, a nie Y; Ty - liczba par pomiarów, przyjmujących
identyczne rangi dla zmiennej Y, a nie X.
Testowanie istotności współczynnika:
a) dla 5<n<30 krytyczne wartości rS dla α=0.05 i 0.01w tablicach - por. (tab. L u Guilforda ,1964,
s.550; Olds, 1938; Jóźwiak,. Podgórski, 2006, str. 498; Ramsey, 1989, pp. 245-253;
Steczkowski i Zeliaś, 1997), dla n>30 - test T (Siegel 1956) dla df=n-2
n-2
t= r S .
1- r 2S
147
Współczynnik korelacji liniowej r Pearsona. Podobne rezultaty badań, jak przy
współczynniku Spearmana, można osiągnąć przez zastosowanie współczynnika korelacji
Pearsona, częściej dla zmiennych wyrażonych na skali interwałowej lub ilorazowej.
Współczynnik korelacji Pearsona pozwala badać liniowość i siłę związku między dwiema
zmiennymi X i Y, przy założeniu, że ich rozkłady są normalne lub do nich zbliżone, ale
symetryczne względem siebie. Według niektórych autorów liczebność próby N powinna być
statystycznie duża (N > 30, Brzeziński, 1996), jednak badania związane z teorią
eksperymentów optymalnych wskazują na możliwość stosowania współczynnika korelacji
Pearsona (jak i metod regresji) w przypadku prób statystycznie małych, również dla
zmiennych typu skokowego, w tym zero-jedynkowych (Taguchi i Wu, 1980; Wawrzynek,
1997; Walesiak, 1993).
Innym zastosowaniem współczynnika korelacji r Pearsona jest użycie go jako miary
rozpiętości, na podstawie której można określić, czy prosta przechodząca przez punkty,
reprezentująca pary pomiarów, dobrze przedstawia dane i czy pasuje do nich (wysoka wartość
r), czy też słabo (niskie wartości r).
Współczynnik korelacji Pearsona r może być dodatni lub ujemny i przyjmować wartości w
przedziale od -1 do 1, a oblicza się go według wzoru :
CX , Y
rXY
s X sY
1 n n
xi x y i y
n i 1
x
i 1
i x y i y
rXY
1 n n n n
x i x 2 1 y i y 2 x i x
2
y i y
2
n i 1 n i 1 i 1 i 1
-1 rxy +1
rxy = 0 – zmienne X oraz Y nie są skorelowane (są niezależne),
rxy < 0 – zmienne X oraz Y są skorelowane ujemnie,
rxy > 0 – zmienne X oraz Y są skorelowane dodatnio,
rxy =+1 – zależność funkcyjna dodatnia,
rxy =-1 – zależność funkcyjna ujemna.
Orientacyjne przedziały wielkości współczynników korelacji ułatwiające interpretację, mogą
być nastepujące na przykład ( Zając,1982, s. 298):
148
rxy 0,3 – korelacja niewyraźna,
0,2 < rxy 0,4 – korelacja raczej slaba, siły mniej niż umiarkowanej
Proporcję populacji, której zależność dotyczy stanowi kwadrat współczynnika korelacji (r2).
Jeżeli populacja liczy co najmniej 50 przypadków, można wyznaczyć procent populacji, której
współzmienność dotyczy, mnożąc kwadrat współczynnika korelacji przez 100 (r 2×100%).
n2
t= r XY
1 r 2XY
b) Dla prób dużych (n>100) stosuje się statystykę u rozkładu normalnego.
H0: ρ=0: odrzuca się, gdy:
u≥ uα/2 (test dwustronny),
u≥ uα (test prawostronny),
u≤ -uα (tes lewostronny).
Postać statystyki empirycznej:
149
n
u r XY
1 r 2XY
(por. Andreasen, 1988; Brzeziński, 1975; Guilford, 1964; Blalock 1975, Góralski 1974,
Siegel, 1989, Kowal, 1998).
Większość standardowych statystycznych programów komputerowych oblicza zarówno
współczynnik r - Pearsona, jak i prawdopodobieństwo, że wartość współczynnika korelacji w
populacji generalnej wynosi 0.
150
całej badanej próbie; p - proporcja osób, które odpowiedziały zgodnie z kluczem na daną
pozycję; q - proporcja osób, które odpowiedziały niezgodnie z kluczem na daną pozycję (q=p-1).
Według Guilforda i Brzezińskiego (Guilford 1964, s.307) dwuseryjne r jest mniej rzetelne niż
r - Pearsona. Testowanie istotności współczynnika odbywa się tak, jak w przypadku
współczynnika r - Pearsona.
pq
r bi = r pbi . ,
y
y
r pbi = r bi
pq
Testowanie istotności współczynnika rpbi - przeprowadza się tym samym sposobem, jak
testoweanie współczynnika r - Pearsona.
151
fg- fd
= ,
pq
12S
W=
p (n n) pT
2 3
lub
12S 3 p 2 n(n 1) 2
W= 2 3 , przy czym
p (n n) pT
p n n
1
Ri rij , R p(n 1), S ( Ri R ) 2 , S Ri2 SSR
j 1 2 i 1 i 1
gdzie n – liczba obiektów (pytań), p – liczba sędziów, Rij oznacza rangę, jaką nadał obiektowi
j-ty sędzia w i-tym pytaniu, Ri –suma rang dla pytania o numerze i, R - średnia rang, T –
korekta dla rang wiązanych
152
m
T (t k3 t k ) ,
k 1
Gdzie tk jest liczba rang wiązanych w każdej k z m grup rang wiązanych; suma jest obliczana
dla wszystkich grup rang w p kolumnach oznaczających odpowiedzi sędziów
Statystyka W jest ilorazem wariancji sum z p rang przez maksymalną możliwą wariancję z
sum p rang. Jeśli n uporządkowań rang w p kategoriach ma takie same rozkłady,
współczynnik W Kendalla wynosi 1. Jeśli omawiane rozkłady rang w p kategoriach są istotnie
różne - miara W przyjmuje wartość 0.
Lepiej daje się interpretować współczynnik podobieństwa rS Spearmana, obliczany na
podstawie wysokości współczynnika W Kendalla, a rozumiany jako korelacja wszystkich
możliwych par uporządkowań:
pW - 1 ( p 1) 1
rS = , czyli W r S , gdzie oznaczenia, jak wyżej.
p -1 p
Pozwala on określić, w jakim procencie sędziowie byli zgodni w swych ocenach. Gdy
korzysta się z testu Kendalla, należy przyjąć następujące założenia:
Skale pomiarowe: oceniany obiekt - skala nominalna, numer pytania - skala nominalna, ocena
obiektu w każdym z n pytań - skala porządkowa;
Model: zależne próby losowe;
Postać hipotezy zerowej w przypadku każdego z pakietów: uporządkowania rang dotyczących
n pytań są identyczne u każdego sędziego kompetentnego. Współczynnik Kendalla W w
populacji generalnej wynosi 0.
Postać hipotezy alternatywnej: uporządkowania pytań u każdego sędziego kompetentnego są
istotnie różne.
Istotność współczynnika W Kendalla bada się za pomocą statystyki S Friedmana lub
2 p(n 1)W , która ma rozkład chi-kwadrat przy liczbie stopni swobody df=p-1.
dla p = 3 i 2 ≤ n ≤ 9 lub p = 4 i 2 ≤n ≤4 wartości krytyczne Sα na poziomie istotności
α=0.05 i α =0.01 odczytuje się z tablic (por. Brzeziński, 1978; Siegel, 1956; Siegel i
Castellan, 1988, Abdi, 2007). Jeśli S z próby jest wyższe niż wartość krytyczna
statystyki Sα , to przyjmuje się, że współczynnik jest istotny na poziomie α. (por.
rozdział 5: test S Friedmana; Kirk, 1968). Jeśli statystyka S jest znacząca, można
wnioskować, że miara W nie jest równa 0 (por. Kirk, 1968). Badanie istotności
współczynnika W zależy od liczebności próby:
153
dla większych p i n rozkład współczynnika W aproksymuje się do rozkładu chi-
kwadrat ze stopniem swobody df=n-1 wg wzoru: 2 p(n 1)W
Istotność współczynnika W bada się więc w tym wypadku poprzez istotność chi-kwadrat.
(por. Brzeziński, 1975; Kirk, 1968; Siegel, 1956)
H0: Wρ=0: odrzuca się, gdy:
χ2 ≥ χα/2 (test dwustronny);
χ2 ≥ χα (test jednostronny),
które jest proporcją wartości statystyki równej lub większej od wartości obserwowanej. Jeżeli
zmienna Z jest ustalona, traktowana jako stała, dla każdej próbki o liczebności n mamy n!
permutacji zarówno dla X jak i Y, a więc obliczamy (n!)2 możliwych wartości τ xy..z minus
154
liczba permutacji, w których τ xz lub τ y.z jest równa ±1, co umożliwia wyznaczenie wartości
równania τ 12..3= τ 12 - τ 13 - τ 23
.
(1- τ 13 2)(1- τ 23 2)
155
Współczynnik korelacji cząstkowej między zmiennymi X3, X2 z wyłączeniem wpływu
zmiennej X1:
r23 r12 r13
r231 .
( 1 r122 ) ( 1 r132 )
r (n k 2)
t ,
1 r2
gdzie t – wartość statystyki empirycznej, n – liczebność badanej próbki, r – wartość
współczynnika korelacji cząstkowej obliczona na podstawie próby, k – liczba zmiennych
niezależnych, których wpływ badacz chce kontrolować,, liczba stopni swobody wynosi :
df=n-k-2.2
H0: ρ=0: odrzuca się, gdy:
t≥ tα/2 (test dwustronny);
t≥ tα (test prawostronny),
t≤ -tα (test lewostronny),
przy czym ρ oznacza współczynnik korelacji w populacji generalnej
Zakończenie
2
http://support.sas.com/documentation/cdl/en/procstat/63032/HTML/default/procstat_corr_sect017.htm
3
D. Straub, D. Gefen, M. Boudreau, The ISWorld Quantitative, Positivist Research Methods Website,
http://dstraub.cis.gsu.edu:88/quant/; 2004.
156
Metody jakościowe częściej zaczęto wykorzystywać w latach siedemdziesiątych
dwudziestego wieku. Do tego czasu były traktowane raczej marginalnie i częściej stosowano
je w etnografii, socjologii i psychologii. W latach siedemdziesiątych, osiemdziesiątych i
dziewięćdziesiątych ubiegłego stulecia metody jakościowe zaczęto stosować częściej w
badaniach społecznych, pedagogicznych, czy w badaniach związanych z zarządzaniem
zasobami ludzkimi, informatyką, medycyną i innymi dziedzinami. Opracowano również nowe
metody badań jakościowych, kładące nacisk na zagadnienia rzetelności i analizy danych,
jako niezbędne w studiach eksploracyjnych.4
4
D.M. Myers, D.E. Avison (red.), Qualitative Research in Information Systems, “A Reader”, Sage Publications,
London 2002.; R. E. Stake, Case studies, [in:] N. K. Denzin, Y. S. Lincoln (red.), Handbook of Qualitative
Research, s.237-261, Thousand Oaks: Sage 1994
157
Literatura
Abdi, H., The Kendall Rank Correlation Coefficient, [In:] Salkind, N. (ed.), Encyclopedia of
Measurement and Statistics, Sage, Thousand Oaks (CA 2007.
Ajdukiewicz K., Główne zasady metodologii nauk i logiki formalnej. Skrypt autoryzowany,
Warszawa 1928
Andreasen A.R., Cheap but good marketing research, Dow Jones-Irwin, Homewood, Illinois 1988.
Bartosz B., Metody jakościowe – nadzieje, dylematy i perspektywy, [w:] Straś-Romanowska M.,
Metody jakościowe w Psychologii współczesnej, Prace Psychologiczne LIII, Wydawnictwo
Uniwersytetu Wrocławskiego, Wrocław 2000, s. 39-53.
Benbasat I., D K Goldstein, M Mead The Case Research Strategy in Studies of Information Systems ,
[in:] Myers, M.D., Avison, D.E. (red.). Qualitative Research in Information Systems: A Reader, Sage
Publications, London, 2002.
Brzeziński j., Metodologia badań psychologicznych, PWN, Warszawa, 1997.
Pawłowski T., Tworzenie pojęć i definiowanie w naukach humanistycznych, Warszawa, 1972, r. 1, ss.
9-38.
Brzeziński j., Badania eksperymentalne w psychologii i pedagogice. Scholar, Warszawa 2000.
Bobryk J., Problem relacji między teoriami naukowymi a danymi empirycznymi...w: Materiały do
nauczania psychologii, seria III, t. 4., Warszawa 1985.
Burrell, G. , Morgan, G. Sociological Paradigms and Organisational Analysis, Heinemann, London,
1979.
Carr, W. , Kemmis, S. Becoming Critical: Education, Knowledge and Action Research, Falmer Press,
London, 1986.
Chisholm, R.F. , Elden, M. Features of Emerging Action Research, Human Relations (46:2), 1993, s.
275-298.
Choynowski, M.. Pomiar w psychologii (w:) Kozielecki J.(red.) Problemy psychologii matematycznej,
Warszawa: PWN, 1971.
Clark, P.A. Action Research and Organizational Change, Harper and Row, London, 1972.
Coombs C.H.,Dawes R.M.,Tversky A., Wprowadzenie do psychologii matematycznej, PWN,
Warszawa 1977.
Cohen J.A., Profile similarity coefficient invariant over variable reflection, Psychological Bulletin,
1969, vol. 71, s.281-284.
Cohen J.A., The cost of dychotomization, Applied Psychological Measurement. 7, 1983, 249-253.
Gable, G., Integrating Case Study and Survey Research Methods: An Example in Information
Systems, European Journal of Information Systems, (3:2), 1994, s. 112-126.
Gephart R. P., Ethnostatistics: Qualitative Foundations for Quantitative Research, Sage 1988, London
158
Guba, E.G. , Lincoln, Y.S. Competing paradigms in qualitative research, in Handbook of Qualitative
Research, N.K. Denzin and Y.S. Lincoln (red.), Sage, Thousand Oaks, 1994, s. 105-117.
Kalton G., Collins M., Brook L. (1978): Experiments in Wording Opinion Questions. Applied
Statistics, 27, 149-161
Góralski A., Metody opisu i wnioskowania statystycznego w psychologii, PWN, Warszawa 1976.
Kamieński A., Metoda, technika, procedura badawcza w pedagogice empirycznej. w: Metodologia
pedagogiki społecznej, red. R. Wroczyński, T. Pilch, Wrocław 1974, s. 42.
Kaplan, B. , Maxwell, J.A. Qualitative Research Methods for Evaluating Computer Information
Systems, in Evaluating Health Care Information Systems: Methods and Applications, J.G. Anderson,
C.E. Aydin and S.J. Jay (red.), Sage, Thousand Oaks, CA, 1994, s. 45-68.
Kaplan, B., Duchon, D. Combining Qualitative and Quantitative Methods in Information Systems
Research: A Case Study, MIS Quarterly (12:4) 1988, s. 571-587.
Kaplan, B., Maxwell, J.A. Qualitative Research Methods for Evaluating Computer Information
Systems, in Evaluating Health Care Information Systems: Methods and Applications, J.G. Anderson,
C.E. Aydin , S.J. Jay (red.), Sage, Thousand Oaks, CA, 1994, s. 45-68.
Kemmis, S. , McTaggart, R. The Action Research Reader. Third edition. Deakin University Press,
Victoria, 1988.
Korycka-Skorupa J., Od danych do mapy,
http://www.wgsr.uw.edu.pl/kartografia/atlasmetod/wpr_m.htm; 22 sierpnia 2007.
Kotarbiński T.,, Próba zastosowania pewnych pojęć prakseologicznych do metodologii pracy
naukowej, Wybór pism, t. I, Warszawa, 1957, s. 667.
Kowal J. (red.), Wybrane zagadnienia weryfikacji reprezentatywności prób w społeczno-
ekonomicznych badaniach jakościowych. Metody i oprogramowanie komputerowe. Zeszyty Naukowe
nr 12. Wyższa Szkoła Zarządzania Edukacja, Wrocław 2002.
Kowal J., Metody statystyczne w badaniach sondażowych rynku, PWN, Warszawa-Wrocław 1998
Kowal J., Niektóre etyczne, metodologiczne i pragmatyczne aspekty badań statystycznych, [w:]
Kowal J.,(red.), Węgłowska-Rzepa K., (red.), Psychospołeczne i etyczne aspekty badań rynkowych,
Wyższa Szkoła Zarządzania Edukacja, Wrocław 2002 s.143-159.
Kowal J., Niektóre zagadnienia optymalizacji statystycznej w jakościowych badaniach społeczno-
ekonomicznych, [w:] Łaguna M., (red.), Lachowska B., (red.), Rysunek projekcyjny jako metoda
badań psychologicznych, Towarzystwo Naukowe KUL, Lublin 2003, s.57-87.
Nagel E., Measurement,[w:] Danto A.(red.), Morgenbesser S. (red.), Philosophy of Science, Meridian
Books, New York, 1960, s. 121-140.
Węglowska-Rzepa K., Kowal J., A Vision of Oneself and of the Wporld – Constructive and
Reconstructive Function of Narrative Stories , [w:] Knecht Z., Gospodarka, Rynek, Edukacja nr 10,
Wydawnictwo Wyższej Szkoły Zarządzania, Wrocław 2005, s. 6-12.
159
Kowal J., Wielozmiennowe modele regresji w badaniach jakościowych w warunkach małej próby,
[w:] Straś-Romanowska M. (red.), Metody jakościowe w psychologii współczesnej, Prace
Psychologiczne, Wydawnictwo Uniwersytetu Wrocławskiego Wrocław 2000, s. 83-101.
Kuraś M., System informacyjny -- system informatyczny. Co poza nazwą ró ni te dwa obiekty?;
http://ki.ae.krakow.pl/~kurasm/artykuly/SI-vs-SIT.pdf; 2006.
Kuraś, M., Jakość danych a jakość informacji. Systemy informatyczne nr 1/87. SPIS ’87. Jakość
danych w systemach informacyjnych. Ośrodek Badawczo-Rozwojowy Państwowej Informacji
Statystycznej, 1987.
Lee, A.S., Liebenau, J. , DeGross, J.I. (red.). Information Systems and Qualitative Research, Chapman
and Hall, London, 1997.
Marcinkowski R. (red.). Encyklopedia popularna PWN. Wyd. 8. Warszawa: PWN, 1986.
Markus, M.L. The Qualitative Difference in Information Systems Research and Practice, In
Information Systems and Qualitative Research, A. S. Lee, J. Liebenau and J. I. DeGross (red.),
Chapman and Hall, London, 1997, s. 11-27.
Martin, P.Y. , B.A. Turner. Grounded Theory and Organizational Research, The Journal of Applied
Behavioral Science, (22:2), 1986, s. 141-157.
Mingers, J. Combining IS Research Methods: Towards a Pluralist Methodology, Information Systems
Research (12:3), 2001, s. 240-259.
Morey, N.C. , Luthans, F. An Emic Perspective and Ethnoscience Methods for Organizational
research, Academy of Management Review (9:1), January 1984, s. 27-36.
Mumford E., Hirschheim, R.A., Fitzgerald, G. , Wood-Harper, A.T. (red.). Research Methods in
Information Systems, North-Holland Publishers, New York, 1985.
Myers, M.D., Avison, D.E. (red.). Qualitative Research in Information Systems: A Reader, Sage
Publications, London, 2002.
Nowak S., Metodologia badań socjologicznych. Zagadnienia ogólne. Warszawa, 1970, s. 214.
Orlikowski W. and J J Baroudi Studying Information Technology in Organizations: Research
Approaches and Assumptions , [in:] Myers, M.D. and Avison, D.E. (red.). Qualitative Research in
Information Systems: A Reader, Sage Publications, London, 2002.
Paluchowski J.(2000). Metodologiczne problemy analizy treści, [w:] Straś-Romanowska M. (red.)
Metody jakościowe w psychologii współczesnej. Prace Psychologiczne LIII. Wrocław: Wydawnictwo
Uniwersytetu Wrocławskiego. s. 55-57
Pilch T., Bauman T., Zasady badań pedagogicznych, Strategie ilościowe i jakościowe, Wydawnictwo
Akademickie Żak, Warszawa 2001
Pilch T., Zasady badań pedagogicznych, Warszawa 1977, s. 116.
160
Proctor R. W., Capaldi E. J. ,Teaching Scientific Methodology,
http://www.psychologicalscience.org/teaching/tips/tips_0103.html; 22 sierpnia 2007.
Ragin, C. C., The Comparative Method: Moving Beyond Qualitative and Quantitative Strategies,
University of California Press, Berkeley and London, 1987.
Rapoport, R.N. Three Dilemmas in Action Research, Human Relations, (23:4), 1970, s. 499-513.
Boland R., Information System Use as an Hermeneutic Process, [in:] Myers, M.D. and Avison, D.E.
(red.). Qualitative Research in Information Systems: A Reader, Sage Publications, London, 2002.
Hirschheim R., Newman M., Symbolism and Information Systems Development: Myth, Metaphor and
Magic , [in:] Myers, M.D. and Avison, D.E. (red.). Qualitative Research in Information Systems: A
Reader, Sage Publications, London, 2002.
Runyan W., McKinley W., Historia życia a psychobiografia, Warszawa, PWN 1992, s. 163.
Skorupka S., Auderska H., Łempicka Z. (1974). Mały słownik języka polskiego. Warszawa: PWN , s.
244.
Steinmüller, W., Zautomatyzowane systemy informacyjne w administracji prywatnej i publicznej.
Organizacja Metoda Technika. Nr. 1977/9, 1977.
Stevens S.S., Mathematics, Measurement and Psychophysics, in: S.S Stevens (Ed.). Handbook of
Experimental Psychology, New York 1951: John Wiley. 1-49.
Straś-Romanowska M., Słowo wstępne, [w:] Straś-Romanowska M. (red.) Metody jakościowe w
psychologii współczesnej. Prace Psychologiczne LIII. Wrocław: Wydawnictwo Uniwersytetu
Wrocławskiego, 2000.
Straś-Romanowska M., Los człowieka jako problem psychologiczny. Podstawy teoretyczne,
Wrocław: Wyd. UWr., 1992.
Straś-Romanowska M., Hermenutyka w psychologicznych badaniach jakościowych, [w:] Gałdowa A.
(red.), Hermeneutyka a psychologia, Wydawnictwo UJ, Kraków, 1997.
Straś-Romanowska M., O metodzie jakościowej w kontekście rozważań na tożsamością Psychologii,
[w:] Straś-Romanowska M. (red.), Metody jakościowe w Psychologii współczesnej, Prace
Psychologiczne LIII, Acta Universitatis Wratislaviensis No 2263, Wydawnictwo Uniwersytetu
Wrocławskiego, Wrocław 2000, s. 16-32.
Straub, D., Gefen, D., Boudreau, M.-C. The ISWorld Quantitative, Positivist Research Methods
Website, http://dstraub.cis.gsu.edu:88/quant/; 2004.
Such J.,O uniwersalności praw nauki. Studium metodologiczne, Wyd.Nauk. UAM, Poznań, s. 89 (I
wyd.); PWN, Warszawa 1972, s. 398 (II wyd.).
Tarnowski A., Metodologia badań psychologicznych,
http://64.233.183.104/search?q=cache:vtGKes8pXyAJ:www.adam_t.republika.pl/wyklady%2520z%2
520metodologii.doc+Choynowski+1971&hl=pl&ct=clnk&cd=4&gl=pl&client=firefox-a; 22 sierpnia
2007.
161
Walsham G., Interpretive Case Studies in IS Research: Nature and Method, [in:] Myers, M.D., Avison,
D.E. (red.). Qualitative Research in Information Systems: A Reader, Sage Publications, London, 2002.
Wawrzynek J., Uwagi o efektywności planowania eksperymentów. Przegl. Statyst. XXVI, 1977, s.
111-125.
Yin, R. K. Case Study Research, Design and Methods, 3rd ed. Newbury Park, Sage Publications,
2002.
Zając K., Metody opisu statystycznego. Warszawa: PWE, 1988.
162