Štatistika - základné pojmy

 

Čo sú premenné. Premenné, alebo inak, štatistické znaky, vektory, sú veci, ktoré meriame, sledujeme alebo s nimi manipulujeme počas výskumu. Líšia sa v tom, akú rolu zohrávajú v našom výskume a v spôsobe ich merateľnosti.

Čo je populácia. Populácia, ináč základný súbor, je množina všetkých možných prvkov, respondentov, vyhovujúca fenoménu nášho záujmu. Napr., všetci voliči v prezidentských voľbách. Alebo všetci ľudia s leukémiou, ak skúmame liek na túto chorobu. Alebo sú to všetky možné polia, ak je predmetom výskumu pôda.

Čo je vzorka. Vzorka, alebo výber, alebo ináč aj dáta, dátový súbor, je podmnožina celej populácie. Vzorku výskumník analyzuje, a výsledky na nej zistené sa snaží zovšeobecniť na celú populáciu. V dátovom súbore jedného respondenta reprezentuje jeden riadok a premnné reprezentujú stĺpce. Je to teda matica, ktorá má toľko riadkov, koľko je respondentov vo vzorke, a toľko stĺpcov, koľko je sledovaných premenných. Zjednotením všetkých možných vzoriek získame celú populáciu.

Typy premenných podľa škály merania. Premenné rozlišujeme podľa toho, ako dobre sú merateľné, teda koľko informácii o premennej získame jej meraním. Podľa toho sa delia na nominálne, ordinálne, intervalové a pomerné.
Nominálne premenné umožňujú iba kvalitatívnu klasifikáciu. Respondenta skúmame iba z toho pohľadu, do ktorej skupiny je zaradený, pričom nevieme určiť poradie týchto skupín. Napr. príslušnosť k rase, pohlaviu, škole, triede. Ak zoberieme dvoch respondentov patriacich do rôznych skupín, nevieme určiť, ktorý má menšiu a ktorý väčšiu kodnotu vo vzťahu k tejto premennej. Špeciálnym prípadom nominálnej premennej je premenná binárna, nadobúdajúca iba dve možné hodnoty, napr. áno-nie, muž-žena.
Ordinálne premenné sú merateľné na ordinálnej, teda poradovej škále. Ak vezmeme dvoch respondentov dosahujúcich rôzne honoty na ordinálnej škále, vieme určiť, ktorý z nich bol "lepší". Napr. poradie družstiev na šachových majstrovstvách. Vieme určiť, ktoré družstvo dosiahlo vyšší počet bodov, ale nevieme úplne presne odmerať, aký je absolútny rozdiel v kvalite hry medzi družstvami. Boduje sa iba výhra, prehra a remíza.
Intervalové premenné umožňujú nielen postihnúť poradie, ale aj kvantifikovať rozdiel medzi respondentmi. Napr. hladina cholesterolu v krvi, alebo dosiahnutá hodnota pri skoku do diaľky. Vieme, že ak respondent X skočil 5,9 m a respondent Y 6,2m, tak Y je o 0,3m lepší ako X.
Pomerné premenné umožňujú nielen určiť rozdiel, ale aj pomer medzi dvoma respondentmi. Je to dané exstenciou absolútnej nuly. Ak meriame teplotu na Kelvinovej stupnici, tak vieme určiť nielen fakt, že 100 stupňov je o 50 viac ako 50, ale aj tú skutočnosť, že je to presne 2 krát teplejšie. Alebo ak niekto skočil do diaľky 6m, a iný iba 4, tak vieme, že prvý skočil 1,5 krát viac.

Korelačný a experimentálny výskum. V korelačnom výskume skúmame vzťahy medzi premennými, pričom neovplyvňujeme premenné, iba ich meriame a hľadáme vzťahy, napr. aký je vzťah medzi časom dosiahnutým pri preplávaní 100m bazéna a počtom záberov. V experimentálnom výskume manipulujeme s niektorými premennými a potom meriame efekt tejto manipulácie na iné premenné. Napr., trénujeme respondentov v plávaní určitý čas a potom odmeriame vyššie spomenutú závislosť. Iba experimentálny výskum nám dá úplný dôkaz príčinnej súvislosti. Pri experimentálnom výskume máme možnosť zistiť, že zmena premennej A zapríčinila zmenu premennej B. Kdežto korelačný výskum hovorí iba o závislosti, ale nedáva presvedčivý dôkaz príčiny.

Relácie medzi premennými. Premenné, bez ohľadu na ich typ, sú v relácii, inými slovami, je medzi nimi vzťah, závislosť, ak ich hodnoty vo vzorke respondentov systematicky korešpondujú jedna s druhou. Napr., zoberme vzorku respondentov, u ktorých odmeriame výšku a hmotnosť. Spravidla vyšší býva aj ťažší, takže môžme očakávať, že tieto dve premenné sú v relácii, inými slovami - závislé.

Dve základné črty každej relácie medzi premennými. Sú to veľkosť a reliabilita, teda spoľahlivosť.
Veľkosť relácie vo vzorke je ľahko merateľná. Nap., veľkosť vzťahu medzi obezitou a hladinou cholesterolu v krvi je vysoká. Prinajmenšom na konkrétnej výskumnej vzorke môžme predvídať, že prvé je príčinou druhého.
Reliabilita je menej intuitívna ako veľkosť, ale je veľmi dôležitá. Hovorí o reprezentatívnosti výsledku získaného z konkrétnej vzorky. Hovorí o tom, aká je pravdepodobnosť, že ak vyberieme iných respondentov z tej istej populácie, môžme očakávať podobný výsledok, ako u pôvodnej vzorky. Výskumník spravidla potrebuje výsledok získaný zo vzorky zovšeobecniť na celú populáciu. Reliabilita sa dá kvantitatívne odhadnúť a v ďalšom texte sa s ňou budeme stretávať ako s p-hodnotou alebo hladinou významnosti.

Čo je to hladina významnosti (p-hodnota). Hladina významnosti získaného výsledku zo vzorky je pravdepodobnosť, že zistená závislosť, resp. rozdiel medzi premennými vo vzorke respondentov je čiste náhodná, a že v celej populácii, z ktorej bola vzorka vybraná, táto závislosť, resp. rozdiel neexistuje. Čím je vyššia hladina významnosti, tým menej sa teda dá zistená závislosť získaná na výskumnej vzorke respondentov očakávať na celej populácii.
Napr., zistená hladina významnosti 0,05 indikuje, že je tu najviac 5% pravdepodobnosť, že vzťah medzi premennými zistený na vzorke je čiste náhodný. Inými slovami, p-hodnota je pravdepodobnosť chyby, zapríčinenej prijatím výsledku o závislosti získaného zo vzorky ako validného pre celú populáciu. Ak teda predpokladáme, že v populácii neexistuje takýto vzťah, tak pri p-hodnote 0,05 pri každých 20tich opakovaniach experimentu by sa v jednej vzorke mohol tento vzťah objaviť. Ale ak v populácii naozaj existuje takýto vzťah, tak pravdepodobnosť, že sa táto skutočnosť potvrdí pri opakovaní experimentu sa nazýva sila testu, a pozor, nie je to 1-p.
Za skutočne významnú závislosť, resp. rozdiel, je považovaný taký výsledok, ak p-hodnota je menšia ako 0,05. V niektorých výskumných úlohách sa používa prísnejšie kritérium, p<0,01. Obe tieto hraničné hodnoty sú len výsledkom určitých zvyklostí, či prijatej konvencie.

Vzťah medzi veľkosťou závislosti medzi premennými, významnosťou a veľkosťou vzorky. Čím je tesnejšia závislosť medzi premennými v experimentálnej vzorke, tým je tento výsledok významnejší vo vzťahu k celej populácii. Veľkosť závislosti a významnosť sú v tesnom vzťahu a z jedného sa dá vypočítať druhé, ak ostáva konštantná veľkosť vzorky.
Významnosť vzťahu medzi premennými závisí aj od veľkosti vzorky. Ak vezmeme príliž malú vzorku respondentov, je príliž vysoká pravdepodobnosť, že získame kombináciu ich hodnôt výsledok vedúci k nesprávnemu záveru, nezhodujúci sa so skutočnosťou v celej populácii. Skúmajme trebárs pohlavie novorodenca v závislosti od pôvodu matky, a nech sú k dispozícii iba dve hodnoty: muž-žena, rómka-nerómka. Vezmime vzorku štyroch respondentov, dve rómky, a dve nerómky. Máme tak šancu 1/8, že v našej vzorke budú mať obe rómky chlapcov a obe nerómky diedčatá alebo opačne, a ak tomu tak náhodou naozaj bude, naša vzorka preukáže 100% závislosť týchto dvoch veličín. Ale ak však vezmeme vzorku napr. 200 respondentov, ťažko sa vyšplháme ku 100% závislosti. Z toho je intuitívne zrejmé, že ak zmenšujeme výber, zvyšujeme pravdepodobnosť chybného výsledku. Preto pri nízkom počte respondentov je potrebné preukázať vyššiu hodnotu závislosti pri konštantnej významnosti ako pri vysokom. Ak napríklad máme asymetrickú mincu, ktorou hodíme 10 krát, a výsledok vyjde hlava/znak je 6/4, nik ešte nepovažuje tento výsledok za dosť významný na to, aby usúdil, že tomu tak naozaj je, a je potrebné ešte zvyšovať počet hodov. Ale ak padne 10krát hlava pri 10tich hodoch, závislosť na tvare mince je tak zrejmá, že o jej významnosti nik nepochybuje.

Miera závislosti a jej interpretácia. Cieľom štatistického testovania je odhadnúť vzťah medzi premennými, teda pomer vysvetlenej varácie jednej premennej pomocou druhej voči celkovej variácii tej premennej. Teda, až do akej miery, vyjadrenej v percentách, sa zmena prvej premennej dá vysvetliť zmenou druhej a naopak.

Normálne rozdelenie. Predpokladajme, že máme v našej vzorke vypočítanú 40% závislosť medzi premennými. To, či je to dosť na to, aby sme mohli výsledok zovšeobecniť na celú populáciu, závisí od veľkosti vzorky. Vo veľkých výberoch stačí na to, aby sme výsledok mohli pozvažovať za významný, veľmi malá závislosť. Aby sme mohli významnosť vypočítať, potrebujeme funkciu závisiacu od veľkosti vzorky, ktorá reprezentuje vzťah medzi veľkosťou závislosti medzi premennými a jej významnosťou. Funkciu, na základe ktorej určíme, aká je pravdepodobnosť, že pri konštantnej veľkosti vzorky bude vzťah medzi premennými taký istý, alebo väčší, ako bol pri našej pôvodnej vzorke, za predpokladu, že v celej populácii neexistuje medzi týmito premennými závislosť. Teda funkciu, z ktorej zistíme hladinu významnosti (p-hladinu), čo je pravdepodobnosť chyby, vzniknutej zamietnutím predpokladu o neexistencii závislosti v celej populácii (tzv. nulovej hypotézy). Vo väčšine prípadov poznáme tvar tejto funkcie a vieme určiť významnosť pre náš nález v príslušnej vzorke.
Väčšina týchto funkcií súvisí s funkciou nazývanou 'normálna'. Jej krivka, nazývaná aj Gaussova krivka, má charakteristický tvar zvona a je funkciou iba dvoch parametrov: priemeru a štandardnej odchýlky. Normálne rozdelenie (distribúcia) reprezentuje jednu z empiricky verifikovaných právd o 'všeobecnej povahe reality'. O normálnom rozdelení platí: 68% populácie má hodnotu meraného znaku ležiacu v intervale priemer ± 1 krát štandardná odchýlka, 95% v intervale priemer ± 2 krát štandardná odchýlka. Inými slovami, hodnota, ktorá neleží v tomto intervale má relatívnu frekvenciu 5% alebo menej. Vyskúšať si to môžme v programe Statistica, ak máme, v procedúre Probability Calculator.

Normálne rozdelenie náhodných veličín a štatistické testy. Štatistické testy sa vykonávajú pomocou testovacích štatistík, čo sú funkcie náhodných veličín, a teda tiež sami sú náhodnými veličinami. Majú teda svoj 'zákon rozdelenia', funkciu, popisujúcu ich relatívnu frekvenčnú distribúciu. Teda k bodu na osi x-ovej, ktorý reprezentuje konkrétnu hodnotu náhodnej veličiny, z tejto funkcie zistíme funkčnú hodnotu na osi y-ovej, ktorá reprezentuje relatívnu početnosť, teda informáciu o tom, aká časť týchto veličín dosahuje práve túto honotu x sledovaného znaku. Nie zakaždým, ale vo väčšine prípadov ide o normálne rozdelenie, alebo rozdelenie z neho odvodené (t, F, Chi-kvadrát rozdelenie). Tieto testy požadujú, aby bol splnený predpoklad normality aj u premenných, ktoré sú nimi analyzované. Veľa premenných má normálne rozdelenie, čo sa stalo príčinou toho, že normálne rozdelenie sa považuje za všeobecnú črtu skúmanej reality. Problém nastane, keď sa snažíme použiť takýto test na dáta, u ktorých sa normálne rozdelenie nepotvrdí. (Test for normality v Nonparametrics). V tomto prípade máme na výber. Môžme použiť niektorý alternatívny neparametrický test, čiže test nezávisiaci od rozdelenia. Tieto testy sú však menej silné pre vyvodzovanie záverov, ktoré majú dokazovať. Druhá možnosť je použiť test založený na normalite rozdelenia, ak sa presvedčíme, že rozsah našej vzorky je dosť veľký. Totiž, ak narastá rozsah vzorky, krivka výberovej funkcie (t. j. funkcie štatistiky odvodenej z pôvodnej vzorky) sa približuje ku gaussovej krivke, dokonca aj vtedy, ak rozdelenie skúmanej premennej nie je normálne. Tento princíp vyplýva z centrálnej limitnej vety (Pólya 1920).

Účinok nedodržania predpokladu normality. Väčšina vyššie uvedených konštatovaní je matematicky dokázaná, ale niektoré z nich sú podložené iba empiricky, takzvanými Monte-Carlo experimentami. Takto bolo zisťované, nakoľko sú testy založené na normalite senzitívne voči nedodržaniu predpokladu normálneho rozdelenia. Záver týchto štúdií bol taký, že dôsledok tohto nedodržania je menej vážny, ako sa pôvodne myslelo. Preto v súčasnosti narastá popularita používania testov závislých od rozdelenia vo všetkých druhoch výskumu.

Preložené sčasti z:
StatSoft, Inc. (1999). Electronic Statistics Textbook. Tulsa, OK: StatSoft. WEB: http://www.statsoft.com/textbook/stathome.html


K dispozícii sú aj skriptá Základy kvantitatívnych metód, ©Mgr. Adriana Zlacká, vo formáte pdf