Korelácia (pearsonovo r) a regresia - príklad v programe STATISTICA
korelácia a regresia - teória |
STATISTICA - modul Basic statistics
and tables.
Daný je dátový súbor deti.sta, 11 stĺpcov (variables) X 695 riadkov (cases), v ktorom sú údaje o novorodencoch. Hmotnosť-HM, dĺžka-DL, obvod hlavy-HLAVA, pôvod rodičky-R (nerómky/rómky),..
Najprv je dobré urobiť popisnú
štatistiku premenných HM a DL v Analysis/Descriptive statistics.
Cieľom korelácie je zistiť,
či existuje významná korelačná závislosť medzi hmotnosťou a dĺžkou novorodenca.
Zvolíme Analysis/Correlation matrices a vyplníme
dialógové okno:
V tomto prípade bola zvolená štvorcová matica, kde boli označené dve premenné, HM a DL, a "prostredný" spôsob výpisu výsledkov, v ktorom je uvedená aj p-hladina a počet respondentov. Povšimnime si, že implicitne je zaškrtnuté "casewise" mazanie chýbajúcich meraní. Výsledok vyzerá takto:
Vo výsledku je hodnota korelačného
koeficienta a pravdepodobnosť chyby, ktorá vznikne zamietnutím platnej nulovej
hypotézy o neexistencii závislosti. Ak je táto<0,05 tak závislosť sa považuje
za významnú.
Pri detailnom výstupe okrem priemerov a odchýlok premenných počíta sa aj koeficient
determinácie, test významnosti korelačného koeficienta a koeficienty oboch regresných
priamok (prvá HM nezávisle premenná VY závisle, druhá naopak). Červená farba
vyznačuje významnosť.
Samozrejme, je nutné preveriť
aj korelogram. V dialógovom okne pre koreláciu volíme 2D Scatterplot. Opäť je
treba vybrať premenné, z ktorých bude urobený graf. V grafe je aj rovnica regresnej
priamky a korelačný koeficient.
Na prvý pohľad sú zrejmé viaceré
vybočujúce merania. Podľa ostatných premenných sa dá usúdiť, či sú to zle zadané
dáta, alebo naozaj ide napr. o nedonosené deti, ktoré majú špecifické parametre.
Po nahliadnutí do dát boli vylúčené všetky deti s hodnotami (300,50) a (300,52),
lebo v ostatných premenných, aj v týždni pôrodu, boli hodnoty v norme. Zjavne ide o preklep v hmotnosti.
Ale podozrivá hodnota (700,32) má aj ostatné parametre zlé, jednlo sa o 25. týždeň
pôrodu. Podozrivá hodnota (3100,31) sa v dátach nachádza až 3 krát, jednalo
sa však vo všetkých prípadoch o riadne donosené deti. Odborník usúdil, že ide o preklep,
takže tiež boli vylúčené. Po vylúčení zlých meraní bol urobený nový graf.
Závislosť sa, oproti predchádzajúcemu výsledku, zvýšila . Teraz sa dá eliminovať vplyv nedonosených detí ich vylúčením z analýzy. Uvažujme iba týždeň pôrodu >34. V dialógovom okne pre koreláciu volíme select cases a urobíme nový graf.
korelácia a regresia - teória |