Korelácia (pearsonovo r) a regresia - príklad v programe STATISTICA

korelácia a regresia - teória  

STATISTICA - modul Basic statistics and tables.

Daný je dátový súbor deti.sta, 11 stĺpcov (variables) X 695 riadkov (cases), v ktorom sú údaje o novorodencoch. Hmotnosť-HM, dĺžka-DL, obvod hlavy-HLAVA, pôvod rodičky-R (nerómky/rómky),..

Najprv je dobré urobiť popisnú štatistiku premenných HM a DL v Analysis/Descriptive statistics.
Cieľom korelácie je zistiť, či existuje významná korelačná závislosť medzi hmotnosťou a dĺžkou novorodenca. Zvolíme Analysis/Correlation matrices a vyplníme dialógové okno:

V tomto prípade bola zvolená štvorcová matica, kde boli označené dve premenné, HM a DL, a "prostredný" spôsob výpisu výsledkov, v ktorom je uvedená aj p-hladina a počet respondentov. Povšimnime si, že implicitne je zaškrtnuté "casewise" mazanie chýbajúcich meraní. Výsledok vyzerá takto:

Vo výsledku je hodnota korelačného koeficienta a pravdepodobnosť chyby, ktorá vznikne zamietnutím platnej nulovej hypotézy o neexistencii závislosti. Ak je táto<0,05 tak závislosť sa považuje za významnú.
Pri detailnom výstupe okrem priemerov a odchýlok premenných počíta sa aj koeficient determinácie, test významnosti korelačného koeficienta a koeficienty oboch regresných priamok (prvá HM nezávisle premenná VY závisle, druhá naopak). Červená farba vyznačuje významnosť.
Samozrejme, je nutné preveriť aj korelogram. V dialógovom okne pre koreláciu volíme 2D Scatterplot. Opäť je treba vybrať premenné, z ktorých bude urobený graf. V grafe je aj rovnica regresnej priamky a korelačný koeficient.

Na prvý pohľad sú zrejmé viaceré vybočujúce merania. Podľa ostatných premenných sa dá usúdiť, či sú to zle zadané dáta, alebo naozaj ide napr. o nedonosené deti, ktoré majú špecifické parametre.
Po nahliadnutí do dát boli vylúčené všetky deti s hodnotami (300,50) a (300,52), lebo v ostatných premenných, aj v týždni pôrodu, boli hodnoty v norme. Zjavne ide o preklep v hmotnosti. Ale podozrivá hodnota (700,32) má aj ostatné parametre zlé, jednlo sa o 25. týždeň pôrodu. Podozrivá hodnota (3100,31) sa v dátach nachádza až 3 krát, jednalo sa však vo všetkých prípadoch o riadne donosené deti. Odborník usúdil, že ide o preklep, takže tiež boli vylúčené. Po vylúčení zlých meraní bol urobený nový graf.

Závislosť sa, oproti predchádzajúcemu výsledku, zvýšila . Teraz sa dá eliminovať vplyv nedonosených detí ich vylúčením z analýzy. Uvažujme iba týždeň pôrodu >34. V dialógovom okne pre koreláciu volíme select cases a urobíme nový graf.

 

korelácia a regresia - teória