Popisná štatistika - príklad v programe UNISTAT
Popisná štatistika - teória |
Máme dátový súbor deti.usw, 11 stĺpcov (premenných) X 695 riadkov (respondentov), v ktorom sú údaje o novorodencoch. Hmotnosť-HM, dĺžka-DL, obvod hlavy-HLAVA, pôvod rodičky-R (nerómky/rómky),..
Cieľom popisnej štatistiky je zistiť
parametre polohy, variability a relatívnu frekvenčnú distribúciu sledovaných
premenných, overenie predpokladov potrebných v ďalších analýzach (napr. predpoklad
normality).
Pre určenie číselných charakteristík
použijeme procedúry z ponuky Statistika1/Popisní statistika:
Po výbere procedúry Souhrnné charakteristiky vypĺňame dialógové okno:
Tu je možné vybrať na výpočet jeden
alebo viac vektorov, alebo, druhá možnosť je výber jedného vektora, z ktorého
bude urobený výpočet pre každú jeho podmnožinu určenú kategoriálnym vektorom,
tu nazývanom faktor (napr. pohlavie).
Rovnaké je zadanie aj pre procedúru Konfidenční intervaly a Kvantily.
Procedúra Konfidenční intervaly má navyše možnosť vybrať dva kvantily (implicitne
je nastavený horný a dolný kvartil), procedúra Kvantily má možnosť výberu deviatich
percentilov.
Pre procedúru Výběrové charakteristiky sú tri možnosti výberu dát na
výpočet, v závislosti od ich typu:
Podobne je to aj v procedúre Rozdělení
četností. Tu sa zadáva minimum a maximum, t.j. stred prvého a posledného
intervalu, a ich šírka. V príklade bolo zadané 500, 4500 a šírka najprv 500,
potom 1000.
Takto vyzerá výstup spomenutých procedúr pre vektor HM:
*************************** Souhrnné charakteristiky ****************************
Statistiky| hm
-------------------+---------------
Rozsah| 691,0000
Průměr| 3074,3560
Medián| 3100,0000
Rozptyl| 328366,6499
Směrodatná odchylka| 573,0329
Směrodatná chyba| 21,7992
Variační koeficient| 0,1864
Minimum| 700,0000
Maximum| 4650,0000
Rozpětí| 3950,0000
Dolní kvartil| 2800,0000
Horní kvartil| 3500,0000
Rozpětí kvartilů| 700,0000
Šikmost| -0,6370
Sm. chyba šikmosti| 0,0930
Špičatost| 1,0147
Sm. chyba špičat.| 0,1857
*************************** Výběrové charakteristiky ****************************
** Pro hm **
Rozsah = 695
Chybějící = 4
Průměr = 3074,3560
Medián = 3100,0000
Geometrický průměr = 3011,3039
Harmonický průměr = 2930,7755
Dolní kvartil = 2800,0000
Horní kvartil = 3500,0000
Rozpětí kvartilů = 700,0000
Minimum = 700,0000
Maximum = 4650,0000
Rozpětí = 3950,0000
Součet = 2124380,0000
Součet čtverců = 6757673400
Nevychýlený rozptyl = 328366,6499
Nevychýlená směr odchylka = 573,0329
Směrodatná chyba průměru = 21,7992
Rozptyl = 327891,4449
Směrodatná odchylka = 572,6181
Variační koeficient = 0,1863
Průměrná odchylka = 436,5166
3. centrální moment =-119349429,6114
4. centrální moment = 429916308030,9
Nevychýlený 3.moment =-119869344,3560
Koeficient šikmosti =-0,6357
Koeficient špičatosti = 3,9987
Pearsonův koef. šikmosti =-0,1344
**************************** Konfidenční intervaly ******************************
** hm **
95% Konfidenční|
interval| Hodnota Dolní Horní
-------------------+---------------------------------------------
Průměr (Normál)| 3074,3560 3031,6304 3117,0816
Průměr (Student)| 3074,3560 3031,5553 3117,1567
Rozptyl| 328366,6499 22,6573 22,6573
Normání aproximace| Hodnota Dolní Horní
-------------------+---------------------------------------------
Medián| 3100,0000 3100,0000 3150,0000
25% Kvantil| 2800,0000 2700,0000 2800,0000
75% Kvantil| 3500,0000 3400,0000 3500,0000
95,216928% Přesný| konzervativní|
interval| Hodnota Dolní Horní
-------------------+---------------------------------------------
Medián| 3100,0000 3100,0000 3150,0000
25% Kvantil| 2800,0000 2700,0000 2800,0000
75% Kvantil| 3500,0000 3400,0000 3500,0000
Number of Cases = 691
*********************************** Kvantily ************************************
| hm
-------------------+--------------- Kvantil 1: 10%| 2350,0000
Kvantil 2: 20%| 2700,0000
Kvantil 3: 30%| 2900,0000
Kvantil 4: 40%| 3000,0000
Kvantil 5: 50%| 3100,0000
Kvantil 6: 60%| 3250,0000
Kvantil 7: 70%| 3400,0000
Kvantil 8: 80%| 3550,0000
Kvantil 9: 90%| 3700,0000
****************************** Rozdělení četností *******************************
** Pro hm **
Třída| Střed Četnost Kumulat. Procenta Kumulat.
-------+---------------------------------------------------------------
1| 500,0000 2 2 0,3% 0,3%
2| 1000,0000 0 2 0,0% 0,3%
3| 1500,0000 21 23 3,0% 3,3%
4| 2000,0000 33 56 4,8% 8,1%
5| 2500,0000 109 165 15,8% 23,9%
6| 3000,0000 249 414 36,0% 59,9%
7| 3500,0000 209 623 30,2% 90,2%
8| 4000,0000 62 685 9,0% 99,1%
9| 4500,0000 6 691 0,9% 100,0%
****************************** Rozdělení četností *******************************
** Pro hm **
Třída| Střed Četnost Kumulat. Procenta Kumulat.
-------+---------------------------------------------------------------
1| 500,0000 2 2 0,3% 0,3%
2| 1500,0000 33 35 4,8% 5,1%
3| 2500,0000 218 253 31,5% 36,6%
4| 3500,0000 412 665 59,6% 96,2%
5| 4500,0000 26 691 3,8% 100,0%
*********************************************************************************
Ďalšími možnosťami procedúr popisnej štatistiky sú pseudografy stonkový a listový graf, sekvenčný diagram a bodový graf. Posledný z nich je vhodný pre sledovanie vzťahu medzi dvoma premennými. Tu je výstup, alebo iba časť výstupu každej z nich:
*************************** Stonkový a listový graf *****************************
** Pro hm **
Jednotka listu = 10 1|2 reprezentuje 120
2 7| 00
2 8|
2 9|
2 10|
2 11|
2 12|
2 13|
5 14| 000
10 15| 00000
15 16| 00000
24 17| 000000005
28 18| 0005
35 19| 0000000
40 20| 00055
46 21| 000055
59 22| 0000000000555
72 23| 0000000000555
86 24| 00000000000555
111 25| 0000000000000000355555555
130 26| 0000000000000000055
171 27| 00000000000000000000000000000000000555555
206 28| 00000000000000000000000000055555555
253 29| 00000000000000000000000000000000000000005555555
316 30| 000000000000000000000000000000000000000000000055555555555555555
(56) 31| 00000000000000000000000000000000000000000000000555555555
319 32| 000000000000000000000000000000000000000000555555555
268 33| 0000000000000000000000000000000000000000055555555555
216 34| 0000000000000000000000000000000000055555
176 35| 00000000000000000000000000000005555555
138 36| 00000000000000000000000000000000000000055
97 37| 00000000000000000000000000000555555555
59 38| 000000000000005555
41 39| 000000000000005
26 40| 00000000005
15 41| 00000
10 42| 0000
6 43| 00
4 44|
4 45| 55
2 46| 55
****************************** Sekvenční diagram *******************************
** Pro hm ** Řádek| Hodnota 700,0000 4650,0000
-------+------------------------------------------------------------------------
1| 2200,0000 *
2| 2900,0000 *
3| 3400,0000 *
4| 2700,0000 *
5| 3300,0000 *
6| 2850,0000 *
7| 4200,0000 * ...
(Tu je vypísaný každý údaj, pre ich veľký počet nie je uvedený kompletný výpis) ********************************* Bodový graf **********************************
dl
62,0000+
|
|
|
| * * 4 32 * * 2
54,0000+ * *23*24 72* 4
| * * 23 *636097900*002584 2
| * 2**6502802060 52
| 2 * 2*759200*000*002066 5322 2
| ** * 2 43*300 006033 22 2
46,0000+ * 33 3 2
| 2** 23262* 2 2
| 2*
| 35 56 *
|
38,0000+ *
| 2*
| *
|
| 2
30,0000+
+-------------+-------------+-------------+-------------+-------------+
500,0000 1500,0000 2500,0000 3500,0000 4500,0000 5500,0000
hm
Pre popisné grafy
použijeme procedúry z ponuky Grafy/Popisné grafy. Vybraný graf je vytvorený
v osobitnom okne. Poklepaním na ktorýkoľvek objekt grafu alebo výberom vhodnej
položky z ponuky grafového okna sa dá tento ďalej upravovať.
Histogram:
Na osi x-ovej sú stredy triednych
intervalov, na osi z-ovej kumulované početnosti. Grafom sú preložené krivky
distribučných funkcií troch rozdelení, cez úpravy/rozdelenie je možné vybrať
ďalšie.Pri výbere histogramu je možné vybrať aj nerovnaké šírky triednych intervalov.
V tom prípade je treba zadať hranice každého z nich. Tiež sa dá poklepaním na
každý objekt grafu tento ďalej upravovať. 3D Histogram umožňuje na trojrozmernom
grafe znázorniť vzťah v rozdelení početností dvoch premenných.
Histogram logaritmov pravdepodobností:
Slúži na posúdenie log-normality rozdelenia frekvenčnej distribúcie dát.
V pozitívnom prípade body ležia na priamke.
Normálny pravdepodobnostný graf:
Ak dáta tu ležia na priamke, potom
majú normálne rozdelenie.
Graf distribučných funkcií:
Umožňuje u šiestich rozdelení pre vybranú premennú nakresliť graf hustoty pravdepodobnosti,
distribučnej funkcie (df), graf komplementárnej funkcie ku df (1-df), logaritmus
tejto funkcie a pre spojité rozdelenia aj rizikovú funkciu. Rozdelenie a typ
funkcie vyberáme v úpravy/rozdelenie.
Krabicové a bodové grafy:
Na krabicovom grafe s fúzami je dolná hranica obdlžníka dolný kvartil, centrálny
bod reprezentuje medián a horná hranica horný kvartil. Dolný fúz je minimum
z dolného kvartilu minus 1,5 krát medzikvartilový rozsah a minimálnej hodnoty.
Horný fúz analogicky maximum z horného kvartilu plus 1,5 krát medzikvartilový
rozsah a maximálnej hodnoty. Body nad a pod fúzmi sú vybočujúce merania.
Popisná štatistika - teória |