Popisná štatistika - príklad v programe UNISTAT

Popisná štatistika - teória  

Máme dátový súbor deti.usw, 11 stĺpcov (premenných) X 695 riadkov (respondentov), v ktorom sú údaje o novorodencoch. Hmotnosť-HM, dĺžka-DL, obvod hlavy-HLAVA, pôvod rodičky-R (nerómky/rómky),..

Cieľom popisnej štatistiky je zistiť parametre polohy, variability a relatívnu frekvenčnú distribúciu sledovaných premenných, overenie predpokladov potrebných v ďalších analýzach (napr. predpoklad normality).
Pre určenie číselných charakteristík použijeme procedúry z ponuky Statistika1/Popisní statistika:

Po výbere procedúry Souhrnné charakteristiky vypĺňame dialógové okno:

Tu je možné vybrať na výpočet jeden alebo viac vektorov, alebo, druhá možnosť je výber jedného vektora, z ktorého bude urobený výpočet pre každú jeho podmnožinu určenú kategoriálnym vektorom, tu nazývanom faktor (napr. pohlavie).
Rovnaké je zadanie aj pre procedúru Konfidenční intervaly a Kvantily. Procedúra Konfidenční intervaly má navyše možnosť vybrať dva kvantily (implicitne je nastavený horný a dolný kvartil), procedúra Kvantily má možnosť výberu deviatich percentilov.
Pre procedúru Výběrové charakteristiky sú tri možnosti výberu dát na výpočet, v závislosti od ich typu:

Podobne je to aj v procedúre Rozdělení četností. Tu sa zadáva minimum a maximum, t.j. stred prvého a posledného intervalu, a ich šírka. V príklade bolo zadané 500, 4500 a šírka najprv 500, potom 1000.
Takto vyzerá výstup spomenutých procedúr pre vektor HM:


*************************** Souhrnné charakteristiky ****************************

Statistiky| hm
-------------------+---------------
Rozsah| 691,0000
Průměr| 3074,3560
Medián| 3100,0000
Rozptyl| 328366,6499
Směrodatná odchylka| 573,0329
Směrodatná chyba| 21,7992
Variační koeficient| 0,1864
Minimum| 700,0000
Maximum| 4650,0000
Rozpětí| 3950,0000
Dolní kvartil| 2800,0000
Horní kvartil| 3500,0000
Rozpětí kvartilů| 700,0000
Šikmost| -0,6370
Sm. chyba šikmosti| 0,0930
Špičatost| 1,0147
Sm. chyba špičat.| 0,1857


*************************** Výběrové charakteristiky ****************************

** Pro hm **

Rozsah = 695
Chybějící = 4
Průměr = 3074,3560
Medián = 3100,0000
Geometrický průměr = 3011,3039
Harmonický průměr = 2930,7755
Dolní kvartil = 2800,0000
Horní kvartil = 3500,0000
Rozpětí kvartilů = 700,0000
Minimum = 700,0000
Maximum = 4650,0000
Rozpětí = 3950,0000
Součet = 2124380,0000
Součet čtverců = 6757673400
Nevychýlený rozptyl = 328366,6499
Nevychýlená směr odchylka = 573,0329
Směrodatná chyba průměru = 21,7992
Rozptyl = 327891,4449
Směrodatná odchylka = 572,6181
Variační koeficient = 0,1863
Průměrná odchylka = 436,5166
3. centrální moment =-119349429,6114
4. centrální moment = 429916308030,9
Nevychýlený 3.moment =-119869344,3560
Koeficient šikmosti =-0,6357
Koeficient špičatosti = 3,9987
Pearsonův koef. šikmosti =-0,1344
**************************** Konfidenční intervaly ******************************

** hm **

95% Konfidenční|
interval| Hodnota Dolní Horní
-------------------+---------------------------------------------
Průměr (Normál)| 3074,3560 3031,6304 3117,0816
Průměr (Student)| 3074,3560 3031,5553 3117,1567
Rozptyl| 328366,6499 22,6573 22,6573

Normání aproximace| Hodnota Dolní Horní
-------------------+---------------------------------------------
Medián| 3100,0000 3100,0000 3150,0000
25% Kvantil| 2800,0000 2700,0000 2800,0000
75% Kvantil| 3500,0000 3400,0000 3500,0000

95,216928% Přesný| konzervativní|
interval| Hodnota Dolní Horní
-------------------+---------------------------------------------
Medián| 3100,0000 3100,0000 3150,0000
25% Kvantil| 2800,0000 2700,0000 2800,0000
75% Kvantil| 3500,0000 3400,0000 3500,0000

Number of Cases = 691



*********************************** Kvantily ************************************

| hm
-------------------+--------------- Kvantil 1: 10%| 2350,0000
Kvantil 2: 20%| 2700,0000
Kvantil 3: 30%| 2900,0000
Kvantil 4: 40%| 3000,0000
Kvantil 5: 50%| 3100,0000
Kvantil 6: 60%| 3250,0000
Kvantil 7: 70%| 3400,0000
Kvantil 8: 80%| 3550,0000
Kvantil 9: 90%| 3700,0000



****************************** Rozdělení četností *******************************

** Pro hm **

Třída| Střed Četnost Kumulat. Procenta Kumulat.
-------+---------------------------------------------------------------
1| 500,0000 2 2 0,3% 0,3%
2| 1000,0000 0 2 0,0% 0,3%
3| 1500,0000 21 23 3,0% 3,3%
4| 2000,0000 33 56 4,8% 8,1%
5| 2500,0000 109 165 15,8% 23,9%
6| 3000,0000 249 414 36,0% 59,9%
7| 3500,0000 209 623 30,2% 90,2%
8| 4000,0000 62 685 9,0% 99,1%
9| 4500,0000 6 691 0,9% 100,0%

****************************** Rozdělení četností *******************************

** Pro hm **

Třída| Střed Četnost Kumulat. Procenta Kumulat.
-------+---------------------------------------------------------------
1| 500,0000 2 2 0,3% 0,3%
2| 1500,0000 33 35 4,8% 5,1%
3| 2500,0000 218 253 31,5% 36,6%
4| 3500,0000 412 665 59,6% 96,2%
5| 4500,0000 26 691 3,8% 100,0%
*********************************************************************************

Ďalšími možnosťami procedúr popisnej štatistiky sú pseudografy stonkový a listový graf, sekvenčný diagram a bodový graf. Posledný z nich je vhodný pre sledovanie vzťahu medzi dvoma premennými. Tu je výstup, alebo iba časť výstupu každej z nich:

*************************** Stonkový a listový graf *****************************

** Pro hm **

Jednotka listu = 10 1|2 reprezentuje 120

2 7| 00
2 8|
2 9|
2 10|
2 11|
2 12|
2 13|
5 14| 000
10 15| 00000
15 16| 00000
24 17| 000000005
28 18| 0005
35 19| 0000000
40 20| 00055
46 21| 000055
59 22| 0000000000555
72 23| 0000000000555
86 24| 00000000000555
111 25| 0000000000000000355555555
130 26| 0000000000000000055
171 27| 00000000000000000000000000000000000555555
206 28| 00000000000000000000000000055555555
253 29| 00000000000000000000000000000000000000005555555
316 30| 000000000000000000000000000000000000000000000055555555555555555
(56) 31| 00000000000000000000000000000000000000000000000555555555
319 32| 000000000000000000000000000000000000000000555555555
268 33| 0000000000000000000000000000000000000000055555555555
216 34| 0000000000000000000000000000000000055555
176 35| 00000000000000000000000000000005555555
138 36| 00000000000000000000000000000000000000055
97 37| 00000000000000000000000000000555555555
59 38| 000000000000005555
41 39| 000000000000005
26 40| 00000000005
15 41| 00000
10 42| 0000
6 43| 00
4 44|
4 45| 55
2 46| 55


****************************** Sekvenční diagram *******************************

** Pro hm **
Řádek| Hodnota 700,0000 4650,0000
-------+------------------------------------------------------------------------
1| 2200,0000 *
2| 2900,0000 *
3| 3400,0000 *
4| 2700,0000 *
5| 3300,0000 *
6| 2850,0000 *
7| 4200,0000 * ...
(Tu je vypísaný každý údaj, pre ich veľký počet nie je uvedený kompletný výpis) ********************************* Bodový graf **********************************

dl
62,0000+
|
|
|
| * * 4 32 * * 2
54,0000+ * *23*24 72* 4
| * * 23 *636097900*002584 2
| * 2**6502802060 52
| 2 * 2*759200*000*002066 5322 2
| ** * 2 43*300 006033 22 2
46,0000+ * 33 3 2
| 2** 23262* 2 2
| 2*
| 35 56 *
|
38,0000+ *
| 2*
| *
|
| 2
30,0000+
+-------------+-------------+-------------+-------------+-------------+
500,0000 1500,0000 2500,0000 3500,0000 4500,0000 5500,0000
hm


Pre popisné grafy
použijeme procedúry z ponuky Grafy/Popisné grafy. Vybraný graf je vytvorený v osobitnom okne. Poklepaním na ktorýkoľvek objekt grafu alebo výberom vhodnej položky z ponuky grafového okna sa dá tento ďalej upravovať.

Histogram:
Na osi x-ovej sú stredy triednych intervalov, na osi z-ovej kumulované početnosti. Grafom sú preložené krivky distribučných funkcií troch rozdelení, cez úpravy/rozdelenie je možné vybrať ďalšie.Pri výbere histogramu je možné vybrať aj nerovnaké šírky triednych intervalov. V tom prípade je treba zadať hranice každého z nich. Tiež sa dá poklepaním na každý objekt grafu tento ďalej upravovať. 3D Histogram umožňuje na trojrozmernom grafe znázorniť vzťah v rozdelení početností dvoch premenných.

 

Histogram logaritmov pravdepodobností:
Slúži na posúdenie log-normality rozdelenia frekvenčnej distribúcie dát. V pozitívnom prípade body ležia na priamke.

Normálny pravdepodobnostný graf:
Ak dáta tu ležia na priamke, potom majú normálne rozdelenie.

Graf distribučných funkcií:
Umožňuje u šiestich rozdelení pre vybranú premennú nakresliť graf hustoty pravdepodobnosti, distribučnej funkcie (df), graf komplementárnej funkcie ku df (1-df), logaritmus tejto funkcie a pre spojité rozdelenia aj rizikovú funkciu. Rozdelenie a typ funkcie vyberáme v úpravy/rozdelenie.

Krabicové a bodové grafy:
Na krabicovom grafe s fúzami je dolná hranica obdlžníka dolný kvartil, centrálny bod reprezentuje medián a horná hranica horný kvartil. Dolný fúz je minimum z dolného kvartilu minus 1,5 krát medzikvartilový rozsah a minimálnej hodnoty. Horný fúz analogicky maximum z horného kvartilu plus 1,5 krát medzikvartilový rozsah a maximálnej hodnoty. Body nad a pod fúzmi sú vybočujúce merania.

Popisná štatistika - teória