Kontingenčné tabuľky

Príklad v programe STATISTICA Príklad v programe UNISTAT

Zmysel a usporiadanie tabuľky. Kontingenčná, alebo krížová tabuľka, je kombináciou dvoch (alebo viacerých) frekvenčných tabuliek tak, že každá vnútorná bunka predstavuje jednoznačnú kombináciu špecifických hodnôt (tu nazývaných aj kategórií) krížovo tabelovaných premenných. Teda umožňuje zistiť frekvenciu, počet respondentov, padnúcich do špecifickej kategórie pre viac ako jednu premennú. Skúmanie týchto frekvencií umožňuje zistenie relácie, vzťahu medzi krížovo tabelovanými premennými. Kontingenčná tabuľka sa hodí iba pre nominálne premenné, alebo číselné premenné dosahujúce relatívne malý počet možných hodnôt. V prípade, že je nutné použiť číselnú premennú s väčším počtom nadobúdaných hodnôt, je potrebné ju najprv prekódovať, kde hodnoty premennej budú jednoznačne pridelené do niektorej kategórie (napr. nízky, stredný, vysoký).

2x2 tabuľka. Najjednoduchšia forma kontingenčnej tabuľky je 2x2 tabuľka, kde obidve premenné sú binárne, nadobúdajúce iba dve možné hodnoty. Napr., pre zisťovanie vzťahu medzi pohlavím a obľúbenosťou určitého nápoja buď od výrobcu A, alebo B, vychádzame z takýchto dát:

 

Pohlavie

Výrobca

1
2
3
4
5
...

Muž
Žena
Žena
Žena
Muž
...

A
B
B
A
B
...


Výsledná kontingenčná tabuľka by mohla vyzerať napr. takto:

 

Výrobca: A

Výrobca: B

 

Pohlavie: Muž
Pohlavie: Žena

20 (40%)
30 (60%)

30 (60%)
20 (40%)

50 (50%)
50 (50%)

 

50 (50%)

50 (50%)

100 (100%)

Každá bunka tabuľky reprezentuje jednoznačnú kombináciu hodnôt dvoch krížovo tabelovaných premenných. Číslo v bunke je počet respondentov nadobúdajúcich prislúchajúce, v hlavičke riadku a stĺpca, hodnoty premenných. Táto tabuľka ukazuje, že viac žien ako mužov si vyberá výrobcu A, a viac mužov ako žien výrobcu B. Teda, pohlavie a výrobca by mohli byť v relácii, čo je treba dokázať, alebo vyvrátiť.

Marginálne početnosti. Okrajové, alebo inak marginálne početnosti sú v pravom stĺpci a spodnom riadoku tabuľky a sú totožné s frekvenčnými tabuľkami skúmaných premenných, ktoré sú popísané v popisnej štatistike. Marginálne početnosti sú užitočné pri odhade, či existuje relácia medzi skúmanými premennými. Keďže pomer mužov a žien u výrobcu A je 40:60, ak by ten istý pomer bol aj v celom súbore, vedeli by sme usúdiť, že obľúbenosť výrobcu A nie je v relácii s pohlavím. V tomto prípade pomer v stĺpci pre výrobcu A by iba odrážal celkový pomer mužov a žien.

Riadkové, stĺpcové a celkové percentá. Predchádzajúci príklad ukázal, že za účelom odhadu relácie medzi krížovo tabelovanými premennými je užitočné porovnávať hodnoty vo vnútorných bunkách s marginálnymi. Pre jednoduchosť je výhodnejšie pracovať s frekvenciami vyjadrenými percentuálne.

Grafická prezentácia kontingenčných tabuliek. Je možné prezentovať riadky a stĺpce tabuľky ako stĺpcové grafy, alebo celú tabuľku jedným grafom, 3-dimenzionálnym histogramom. Ďalšia možnosť je použiť kategorizovaný histogram, kde jedna premenná je prezentovaná individuálnymi histogramami pre každú hodnotu druhej.

Tabuľky stub-and-banner. Ak sú iba dve premenné, ktoré je treba vyhodnotiť v krížovej tabuľke, hovoríme o dvoj-cestnej (two-way) tabuľke. Ak však je k dispozícii viac premenných, a zaujímavé sú práve dvoj-cestné tabuľky viacerých dvojíc týchto premenných, je možné zobraziť ich v zhustenej podobe do jednej, tzv. stub-and-banner tabuľky.

Viac-cestné tabuľky s riadiacou premennou. V prípade, že je treba vyhodnotiť vzťah viac ako dvoch kategoriálnych premenných, hovoríme o viac-cestnej (multi-way) tabuľke. Teoreticky je nelimitovaný počet premenných vo viac-cestnej tabuľke, ale praktický výsledok je už pre počte premenných 5 veľmi ťažko čitateľný. Pre analyzovanie vzťahov v takýchto tabuľkách je dobré požiť modelové techniky ako log-lineárna analýza alebo korešpondenčná analýza.

Štatistika v kontingenčných tabuľkách. Nasledujúca tabuľka ukazuje veľmi silnú reláciu medzi vekom (dospelý alebo dieťa) respondentov a obľúbenosťou určitého druhu zákusku (A alebo B).

 

Zákusok: A

Zákusok: B

 

Vek: Dospelý
Vek: Dieťa

50
0

0
50

50
50

 

50

50

100

Všetci dospelí uprednostňujú zákusok A, zatiaľ čo deti majú v obľube zákusok B. Nie je žiadna pochybnosť o relácii medzi skúmanými premennými. Avšak v praxi relácia nebýva až taká silná, a otázka znie, ako vyhodnotiť jej reliabilitu, teda štatistickú významnosť. Nasledujúci prehľad zahŕňa najvšeobecnejšie miery relácie medzi dvoma kategoriálnymi premennými. Jedná sa teda o štatistickú analýzu dvoj-cestných tabuliek.

Pearsonov chí-kvadrát test. Táto miera reliability relácie medzi dvoma kategoriálnymi premennými je najčastejšie užívaná. Test je založený na meraní rozdielov skutočných frekvencií v bunkách kontingenčnej tabuľky, oproti očakávaným, kde očakávaná frekvencia bunky je vypočítaná ako podiel súčinu marginálnej frekvencie príslušného riadku a stĺpca a celkového počtu respondentov. Významnosť chí-kvadrát testu narastá, ak sa merané rozdiely zvyšujú V súlade s úvodom platí, že hodnota chí-kvadrát testu a jeho významnosť je tiež závislá aj od celkového počtu respondenov. Pri ich veľkom počte už aj malé rozdiely nadobúdaných frekvencií oproti očakávaným môžu viesť ku štatistickej významnosti.
Jediným predpokladom použitia chí-kvadrát testu (okrem pravidiel viažúcich sa na výber vzorky) je pravidlo, že očakávané frekvencie nesmú byť veľmi malé, menšie ako 5.

Chí-kvadrát test maximálnej vierohodnosti. Tento test testuje tú istú hypotézu ako predchádzajúci, je však založený na teórii maximálnej vierohodnosti. V praxi dáva výsledok veľmi blízky pearsonovmu chí-kvadrát testu.

Yatesova korekcia. Jedná sa o vylepšený chí-kvadrát test pre tabuľky typu 2x2. Je vhodný pre prípad, že tabuľka obsahuje malé skutočné frekvencie, tak, že očakávané frekvencie tiež vychádzajú menšie ako 10.

Fisherov exaktný test. Je použiteľný iba u tabuliek 2x2 pri malom n. Je založený na tomto princípe: Dané sú okrajové frekvencie v tabuľke, a predpokladajme, že pre celú populáciu platí, že dve v tabuľke skúmané premenné v relácii nie sú. Aká je pravdepodobnosť, že za týchto predpokladov získame bunkové frekvencie nerovnaké, alebo horšie, ako tie, ktoré máme? Pre malé n sa táto pravdepodobnosť dá vyčísliť exaktne analyzovaním všetkých možných tabuliek založených na daných marginálnych frekvenciách.

McNemarov chí-kvadrát test. Test je aplikovateľný pre 2x2 tabuľky a závislé merania. Napríklad, meranie pred a po experimente, kde meriame počet študentov prepadnúcich v teste na začiatku a na konci semestra. Získame dva chí-kvadrát testy. A/D test testuje hypotézu, že početnosti v bunkách A (ľavá horná) a D (pravá dolná) sú rovnaké. B/C testuje hypotézu, že početnosti v bunkách B (pravá horná) a C (ľavá dolná) sú rovnaké.

Koeficient Phi. Je mierou korelácie medzi dvoma kategoriálnymi premennými pre 2x2 tabuľky. Hodnota phi koeficientu sa môže pohybovať od -1 do 1, 0 znamená že premenné nekorelujú, -1 alebo 1 že sú v úplnej závislosti.

Tetrachorická korelácia. Táto štatistika je použiteľná iba pre 2x2 tabuľky, kde obe premenné vznikli umelou kategorizáciou pôvodne spojitých premenných.

Kontingenčný koeficient - C. Je to miera relácie dvoch premenných založená na pearsonovom chí-kvadrát teste. Oproti pôvodnému chí-kvadrátu je ľahšie interpretovateľný, keďže jeho hodnoty sú z intervalu <0,1>, pričom 0 znamená absolútnu nezávislosť. Nevýhodou tejto štatistiky je skutočnosť, že C môže dosiahnuť hornú hranicu 1 iba v prípade, že počet kategórii je neobmedzený. Táto miera relácie nie je vo všeobecnosti tak akceptovateľná, kvôli nie veľmi čistej interpretácii z hľadiska pravdepodobnosti, ako pearsonovo r.

Štatistiky založené na poradí. V mnohých prípadoch kategórie premenných kontingenčnej tabuľky majú význam poradia (napr. veľmi slabé, slabé, stredné, silné, veľmi silné). Teda premenné sú ordinálne. Pokiaľ sa kódovanie kategórií drži logického poradia, je možné využívať nasledovné štatistiky na vyjadrenie vzťahu medzi premennými:

Spermanovo R . Spearmanovo R môže byť posudzované ako Pearsonov koeficient súčinovej korelácie (Pearsonovo r), teda z hľadiska proporcie variability, až na to, že Spearman je počítaný z poradí. Premenné musia byť preto merateľné prinajmenšom na ordinálnej škále.

Kendallovo tau . Kendallovo tau identické so Spearmanovým R. Výpočet aj výsledok je však iný, aj interpretácia. Platí: -1 <= Kendall tau -2*Spearman R <= 1 . Kendallovo tau reprezentuje pravdepodobnosť. Je to rozdiel medzi pravdepodobnosťou, že pozorované dáta dvoch premenných sú v rovnakom poradí a pravdepodobnosťou, že sú v poradí odlišnom. Vypočítavané sú dva rôzne varianty koeficienta tau, ak sa nerovnajú, opatrnejšie je interpretovať menší z nich.

Sommerovo d: d(X|Y), d(Y|X). (Siegel, Castellan, 1988, str. 303-310)

Gamma. Gamma štatistiku je výhodné použiť v prípade, že dáta obsahujú veľa viazaných meraní. Z hľadiska predpokladov je gamma štatistika ekvivalentná Spearmanovmu R alebo Kendallovmu tau, z hľadiska interpretácie je podobná Kendallovmu tau.

Koeficienty neurčitosti . Sú to ukazovatele stochastickej závislosti. S(Y,X) odkazuje na symetrickú závislosť, S(X|Y), S(Y|X) na asymetrickú.

Preložené neúplne, tiež odkazy na literatúru sú:
StatSoft, Inc. (1999). Electronic Statistics Textbook. Tulsa, OK: StatSoft. WEB: http://www.statsoft.com/textbook/stathome.html

Príklad v programe STATISTICA Príklad v programe UNISTAT