Korelácia (pearsonovo r) a regresia - príklad v programe UNISTAT

korelácia a regresia - teória

Máme dátový súbor deti.usw, 11 stĺpcov (premenných) X 695 riadkov (respondentov), v ktorom sú údaje o novorodencoch. Hmotnosť-HM, dĺžka-DL, obvod hlavy-HLAVA, pôvod rodičky-R (nerómky/rómky),..

Najprv je dobré urobiť popisnú štatistiku premenných HM a DL cez Statistika1/Popisné statistiky a graficky cez Grafy/popisné grafy.
Cieľom korelácie je zistiť, či existuje významná korelačná závislosť medzi hmotnosťou a dĺžkou novorodenca. Volíme Statistika1/Korelační koeficienty/Pearsonova korelace a vyplníme dialógové okno:

V tomto prípade boli zvolené dve premenné, HM a DL, a hladina významnosti 0,05. Výsledok sa zapíše do okna výstupu a vyzerá takto:

***************************** Pearsonova korelace ******************************

** Pro dl a hm **

2 pár(y) vynechány kvůli chybějícím hodnotám
Pearsonova korelace = 0,7132
95% Konfidenční interval = 0,6746 <> 0,7479
t-statistika = 26,7459
Stupně volnosti = 691,0000
jednostranná pravděp. = 0,0000
****************************************************************************

Bol vypočítaný korelačný koeficient aj 95% interval spoľahlivosti preň, tiež t-statistika čo je testovacia štatistika významnosti korelačného koeficienta a pravdepodobnosť zamietnutia pravdivej nulovej hypotézy o neexistencii závislosti. Ak je táto<0,05 tak závislosť sa považuje za významnú.
Ešte podrobnejší výsledok produkuje procedúra Statistika1/Regresní analýza/Obyčejná metóda nejmenších čtverců. Tu sa vyberá nezávisle premenná x (napr. HM) a závisle premenná y (VY).

Pri regresii vyberáme nezávisle premennú x a závisle premennú y. Výsledkom je rovnica priamky y=a+bx, test výsnamnosti koeficientov a-konštanty a b-sklonu, koeficient determinácie, Durbin-Watsonova štatistiku o predpoklade nezávislosti rezíduí (má byť < 2)...

Samozrejme, je nutné preveriť korelogram. Volíme Grafy/Vícerozměrné grafy/Korelační graf. Opäť je treba vybrať premenné, z ktorých bude urobený graf.


Na prvý pohľad sú zrejmé viaceré vybočujúce merania. Podľa ostatných premenných sa dá usúdiť, či sú to zle zadané dáta, alebo naozaj ide napr. o nedonosené deti, ktoré majú špecifické parametre.
Po nahliadnutí do dát boli vylúčené všetky deti s hodnotami (300,50) a (300,52), lebo ostatné hodnoty, aj týždeň pôrodu, sú v norme. Zjavne ide o preklep v hmotnosti. Ale podozrivá hodnota (700,32) má aj ostatné parametre zlé, jedná sa o 25. týždeň pôrodu. Podozrivé hodnota (3100,31) sa v dátach nachádza až 3 krát, a jedná sa vo všetkých prípadoch o donosené deti. Odborník usúdil, že sa jedná o preklep, preto boli tiež vylúčené. Po vylúčení zlých meraní bol urobený nový graf.

Pearsovov korelačný koeficient teraz vychádza 0,8926. Závislosť sa, oproti predchádzajúcemu výsledku, zvýšila . Teraz sa dá eliminovať vplyv nedonosených detí tým ich vylúčením z analýzy. Uvažujme iba týždeň pôrodu >34. V dialógovom okne Vztahy/Editor vztahů vytvoríme pomocou podmienky nový vektor, taký, v ktorom ak je premenná TYZDEN<35, dosadí hodnotu 0, ináč hodnotu TYZDEN.

Potom je treba umiestniť kurzor do takto vytvoreného nového vektora zvoliť Data/výběr řádku. Vektor sa označí červenou farbou a pri ďalšej analýze budú ignorované všetky tie riadky, ktoré majú v "červenom" vektore hodnotu 0. Teraz je treba urobiť nový výpočet korelačného koeficienta a nový graf. Je možné ho editovať (pr. poklepaním na Main Title...). Nové r=0,7740 a graf je:

korelácia a regresia - teória