Nazaj stat R

Uvod

Hi-kvadrat test (angl. Chi-squared test) je mera ujemanja oz. test neodvisnosti pri analizi opisnih spremenljivk, ki ga je razvil Karl Pearson.

Poleg Personovega hi-kvadrat obstajajo še drugi hi-kvadrat testi.

Pearsonov hi-kvadrat uporabljamo za testiranje enake verjetnosti ali testiranje neodvisnosti dveh spremenljivk v večrazsežni tabeli (angl. contingency table) in je opredeljen z enačbo (1), kjer velja:

\[ \begin{equation} \chi^2 = \sum_{i,j}{\frac{(O_{ij} - E_{ij})^2}{E_{ij}}} \tag{1} \end{equation} \]

Test enake verjetnosti

Test enake verjetnosti (angl. Chi-square Goodnes-of-fit) preverja ali so vrednosti izbrane spremenljivke enako pogosti, tako da nobena vrednost ne prevladuje. Pri testu opredelimo naslednji hipotezi:

Primer: (ne)poštena kocka

Poglejmo si izračun na primeru, kjer želimo ugotoviti ali imamo opravka z nepošteno igralno kocko, kjer lahko ob metu pade vrednost od \(1\) do \(6\). Kocko 100-krat vržemo in nato zapišemo, kolikokrat je padla posamezna številka. Rezultati dobljenih vrednosti so prikazani na sliki 1.

Porazdelitev vrednosti na igralni kocki pri 100 metih

Slika 1: Porazdelitev vrednosti na igralni kocki pri 100 metih

Pri pošteni igralni kocki pričakujemo da bo vsaka številka padla približno \(\frac{100}{6} \approx 16.67\)-krat, kar je na sliki 1 prikazano s črtkano črto. Že na sliki vidimo, da so dejanske vrednosti v našem primeru drugačne od pričakovanih, vendar nas zanima, če so te razlike tudi statistično značilne.

Pri tem bomo uporabili hi-kvadrat test, ki je opredeljen z enačbo (1) ter izpolnimo zahtevane vrednosti

\[ \begin{align} \boldsymbol{\chi^2} &= \sum_{i,j}{\frac{(O_{ij} - E_{ij})^2}{E_{ij}}} = \\ &= \frac{(15 - 16.67)^2}{16.67} + \frac{(22 - 16.67)^2}{16.67} + \frac{(11 - 16.67)^2}{16.67} + \frac{(21 - 16.67)^2}{16.67} + \frac{(20 - 16.67)^2}{16.67} + \frac{(11 - 16.67)^2}{16.67} = \\ &= 0.17 + 1.71 + 1.93 + 1.13 + 0.67 + 1.93 = \\ &= \boldsymbol{7.52} \end{align} \]

Poleg vrednosti hi-kvadrat test \(\boldsymbol{\chi^2 = 7.52}\) moramo določiti še kritično vrednost, ki jo razberemo iz porazdelitve hi-kvadrat. Pri tem upoštevamo stopnjo značilnosti \(\boldsymbol{\alpha = 0,05}\) in stopnjo prostosti \(\boldsymbol{df}\)

\[ \boldsymbol{df} = (\text{število vrednosti spremenljivke} - 1) = 6 - 1 = \boldsymbol{5} \]

Pri omenjenih parametrih kritična vrednost znaša

\[ \chi^2(\alpha = 0,05 \text{ ; } df = 5) = 11.07 \]

Pri primerjavi vrednosti hi-kvadrat test in kritične vrednosti ugotovimo

\[ \text{testna statistika} = 7.52 < \text{kritična vrednost} = 11.07 \]

Na podlagi dobljenih rezultatov, kjer je vrednost testne hi-kvadrat statistike manjša od kritične vrednosti, ne moremo zavrniti ničelne hipoteze \(H_0\), kjer so vse vrednosti igralne kocke enako verjetne.

Posledično to pomeni, da pri stopnji značilnosti \(5\ \%\) ne moremo zavrniti hipoteze, da je kocka poštena.

V okolju R je hi-kvadrat test enakih verjetnosti na voljo v okviru metode chisq.test, in sicer:

chisq.test(x = kocka$n, p = rep(1/6, 6), correct = FALSE)
## 
##  Chi-squared test for given probabilities
## 
## data:  kocka$n
## X-squared = 7.52, df = 5, p-value = 0.1847

Test neodvisnosti

Test neodvisnosti (angl. Chi-square test for independence) preverja ujemanje dejanskih in pričakovanih frekvenc oz. povezanost med kvalitativnima spremenljivkama. Pri testu opredelimo naslednji hipotezi:

Če je razlika med dejanskimi in pričakovanimi frekvencami majhna, ne moremo zavreči ničelne hipoteze \(H_0\), kar posledično pomeni, da ne moremo zavreči dejstva, da spremenljivki nista odvisni. V nasprotnem primeru, ko je razlika med dejanskimi in pričakovanimi frekvencami velika, lahko z izbranim tveganjem zavrnemo ničelno hipotezo \(H_0\) ter sklepamo, da sta spremenljivki odvisni.

Kritična vrednost oz. meja med majhno in veliko razliko izhaja iz porazdelitve hi-kvadrat in je odvisna od stopnje značilnosti (angl. significance level) \(\boldsymbol{\alpha}\) (ponavadi \(5\ \%\)) in stopnje prostosti (angl. degree of freedom).

Pri izvedbi testa je pomembno, da upoštevamo tudi pogoj, ki ga je opredelil W. G. Cochran in zahteva, da pričakovane frekvence ne smejo biti manjše od \(5\). V praksi to omejitev pogosto omilimo do te mere, da je lahko največ \(20\ \%\) pričakovanih frekvenc manjših od \(5\), vendar morajo biti vse večje od \(1\). Pri majhnih vzorcih, kjer omenjenemu pogoju ne moremo zadostiti, lahko uporabimo Fisherjev natančni test.

Primer: kajenje in športniki

Poglejmo si izračun na primeru, kjer želimo ugotoviti ali obstaja statistično značilna odvisnost med kajenjem (spremenljivka kadi) in statusom profesionalnega športnika (spremenljivka sportnik).

Tabela 1: Dejanske vrednosti spremenljivk športnik (vrstice) in kadi (stolpci)
ne kadi kadi Skupaj
ni športnik 0 10 10
športnik 14 4 18
Skupaj 14 14 28

V tabeli 1 imamo pričakovane frekvence spremenljivk kadi in sportnik, medtem ko v tabeli 2 izračunamo pričakovane frekvence, glede na skupno število po obeh spremenljivkah, in sicer \(E_{ij} = \frac{\sum O_i \cdot \sum O_j}{\sum O}\).

Tabela 2: Pričakovane vrednosti spremenljivk športnik (vrstice) in kadi (stolpci)
ne kadi kadi Skupaj
ni športnik \(\frac{10 \cdot 14}{28} = \boldsymbol{5}\) \(\frac{10 \cdot 14}{28} = \boldsymbol{5}\) 10
športnik \(\frac{18 \cdot 14}{28} = \boldsymbol{9}\) \(\frac{18 \cdot 14}{28} = \boldsymbol{9}\) 18
Skupaj 14 14 28

Sedaj s pomočjo enačbe (1) izračunajmo vrednost hi-kvadrat statistike:

\[ \begin{align} \boldsymbol{\chi^2} &= \sum_{i,j}{\frac{(O_{ij} - E_{ij})^2}{E_{ij}}} = \\ &= \frac{(0 - 5)^2}{5} + \frac{(10 - 5)^2}{5} + \frac{(14 - 9)^2}{9} + \frac{(4 - 9)^2}{9} = \\ &= 5 + 5 + 2.78 + 2.78 = \\ &= \boldsymbol{15.56} \end{align} \]

Poleg vrednosti hi-kvadrat testa \(\boldsymbol{\chi^2 = 15.56}\) moramo določiti še kritično vrednost, ki jo razberemo iz porazdelitve hi-kvadrat. Pri tem upoštevamo stopnjo značilnosti \(\boldsymbol{\alpha = 0,05}\) in stopnjo prostosti \(\boldsymbol{df}\)

\[ \begin{align} \boldsymbol{df} &= (\text{število vrednosti spremenljivke sportnik} - 1) \cdot (\text{število vrednosti spremenljivke kadi} - 1) = \\ &= (2 - 1) \cdot (2 - 1) = \\ &= \boldsymbol{1} \end{align} \]

Pri omenjenih parametrih kritična vrednost znaša

\[ \chi^2(\alpha = 0,05 \text{ ; } df = 1) = 3.84 \]

Pri primerjavi vrednosti hi-kvadrat testa in kritične vrednosti ugotovimo

\[ \text{testna statistika} = 15.56 \boldsymbol{>} \text{kritična vrednost} = 3.84 \]

Na podlagi dobljenih rezultatov, kjer je vrednost testne hi-kvadrat statistike večja od kritične vrednosti, lahko zavrnemo ničelno hipotezo \(H_0\) pri stopnji značilnosti \(5\ \%\).

Posledično to pomeni, da obstaja statistično značilna povezava med kajenjem in med statusom športnika. Če poznamo vrednost ene spremenljivke, nam to lahko pomaga napovedati vrednost druge spremenljivke.

V okolju R je hi-kvadrat test neodvisnosti na voljo v okviru metode chisq.test, in sicer:

chisq.test(x = table(podatki), correct = FALSE)
## 
##  Pearson's Chi-squared test
## 
## data:  table(podatki)
## X-squared = 15.556, df = 1, p-value = 0.00008012