Uusi MINSTAT-operaatio

[viesti Survo-keskustelupalstalla (2001-2013)]

Kirjoittaja: Seppo Mustonen
Sähköposti:    -
Päiväys: 19.3.2002 18:20

Jo pitempään on ollut mielessäni lisätä perustunnuslukujen laskentaan
uusi operaatio, vaikka tarjolla on entisiäkin (kuten STAT, STATMSF,
CORR, jne.) miltei joka lähtöön.
Uusi MINSTAT (MINimal STATistics) on tarkoitettu helpottamaan
erityisesti sukrojen laadintaa, jotta niissä tarvittavat tunnusluvut
olisi mahdollisimman helppo poimia käyttöön.

MINSTAT toimii jo tällä hetkellä seuraavien esimerkkien tyyliin ja
tulee olemaan mukana versiosta 1.18 alkaen. Koska sitä on mahdollista
vielä kehitellä erilaisten toiveiden suuntaan, kommentoikaa ja
tehkää ehdotuksia.

Esimerkki 1:

VARS=Points,L_jump,Hi_jump,Height,Weight
MINSTAT DECA,CUR+1
Basic statistics of data G:\E\U\D\DECA N=48
Variable   mean      stddev          N  minimum   maximum
 Points    7843.479  161.6540       48  7649.000  8206.000
 L_jump    840.1875  50.72859       48  725.0000  951.0000
 Hi_jump   805.8542  64.80511       48  689.0000  925.0000
 Height    186.9583  5.090493       48  173.0000  198.0000
 Weight    85.56250  6.847600       48  68.00000  105.0000

MINSTAT on siis laskenut valituista muuttujista keskiarvon,
keskihajonnan,(puuttumattomien) havaintojen lukumäärän sekä
pienimmän ja suurimman havaintoarvon ja taulukoinut ne
tässä näkyvällä tavalla.
Sen lisäksi MINSTAT tallettaa tulokset myös matriisitiedostona
STAT.M, jonka sisältö näyttää seuraavalta:

MAT LOAD STAT.M
MATRIX STAT.M
Basic_statistics_of_DECA
///          mean   stddev        N  minimum  maximum
Points   7843.479  161.654   48.000 7649.000 8206.000
L_jump    840.188   50.729   48.000  725.000  951.000
Hi_jump   805.854   64.805   48.000  689.000  925.000
Height    186.958    5.090   48.000  173.000  198.000
Weight     85.563    6.848   48.000   68.000  105.000

STAT.M on sama kuin CORR-modulin laskema MSN.M lisättynä
minimum- ja maximum-sarakkeilla.

...............................................................
Esimerkki 2:

SYSTEM accuracy=6  / Vähennetään tulostustarkkuutta tällä komennolla.
MASK=--AAAAAAAAAA
JITTER=30 / Täsmennys, jolla Valitaan "täristyskynnys"
MINSTAT KUNNAT,CUR+1
Basic statistics of data KUNNAT N=464
Variable   mean     stddev         N  minimum  maximum  #val  jitter
 Väestö    10284.7  27836.7      464  127.000   483057     0  0.00000
 Synt.     137.894  368.088      464  1.00000  5851.00     0  0.00000
 Ala       661.633  1310.44      464  5.85000  15251.1     0  0.00000
 Maamet    2.95690  1.84797      464  0.00000  7.00000     8  1.00000
 Teoll     2.50216  1.34694      464  0.00000  6.00000     7  1.00000
 Palvelu   3.09267  1.20027      464  1.00000  8.00000     8  1.00000
 Asuin     119.056  295.835      464  0.00000  4192.00     0  0.00000
 Äyri      16.2251  0.97517      464  13.5000  18.5000    21  0.25000
 Tulotaso  12737.8  3102.74      464  7532.00  29631.0     0  0.00000
 SYNT      12.0223  3.45975      464  2.16920  25.8250     0  0.00000

Nyt taulukkoon tulee 2 lisäsaraketta, joista "#val" kertoo, montako
erilaista arvoa ko. muuttujalla on aineistossa. Jos arvojen määrä
ylittää "täristyskynnyksen", sarakkeeseen tulee 0.
Toinen lisäsarake "jitter" laskee sopivan täristysaskeleen muodossa
jitter=(maximum-minimum)(#val-1) (kun #val>1).
Tästä on hyötyä mm. hajontakuvien piirrossa, jossa on uutena piirteenä
otettu käyttöön XJITTER- ja YJITTER-täsmennykset.
Esim.
GPLOT KUNNAT,Maamet,Palvelu / XJITTER=1 YJITTER=1 SCALE=-1(1)9
piirtää muuttujien Maamet ja Palvelu (joilla #val=8 ja jitter=1)
hajontakuvan niin, että kummankin muuttuna suhteen oikea arvo, esim. a,
korvataan satunnaisella arvolla väliltä (a-0.5,a+0.5).
(Huom. yleisesti suositeltava välin pituus = jitter)
Näin muuten päällekkäisistä pisteistä surkastunut kuva saadaan
uskottavammin kuvaamaan todellista vaihtelua ja riippuvuutta, vaikka
jokainen piste on on hieman poissa paikaltaan.
Tämä tekniikkahan on Survossa ollut käytössä jo ties kuinka kauan
hajontakuvamatriiseissa (TYPE=DRAFTS) ja sitä ovat monet toivoneet
myös tavallisiin hajontakuviin. Nyt tuo toive on toteutunut.

Poimitaan vielä osa KUNNAT-aineistosta saadusta STAT.M-matriisista:
...............................................................
MAT LOAD STAT.M(*,N:jitter),12345678.12,CUR+1
MATRIX STAT.M
Basic_statistics_of_KUNNAT
///                N     minimum     maximum        #val      jitter
Väestö        464.00      127.00   483057.00        0.00        0.00
Synt.         464.00        1.00     5851.00        0.00        0.00
Ala           464.00        5.85    15251.08        0.00        0.00
Maamet        464.00        0.00        7.00        8.00        1.00
Teoll         464.00        0.00        6.00        7.00        1.00
Palvelu       464.00        1.00        8.00        8.00        1.00
Asuin         464.00        0.00     4192.00        0.00        0.00
Äyri          464.00       13.50       18.50       21.00        0.25
Tulotaso      464.00     7532.00    29631.00        0.00        0.00
SYNT          464.00        2.17       25.82        0.00        0.00
...............................................................

Huomattakoon, että yksittäisiä alkioita voi poimia esim.
editoriaalista laskentaa varten tyyliin:
MAT_STAT.M(Äyri,jitter)=0.25
MAT_STAT.M(Äyri,#val)=21

Kaiken tämän pitäisi mm. helpottaa Kimmon Survo-risteilyllä
esittelemän /SCATPLOT-sukron viimeistelyä niin, että
siinäkin pääsee tärisyttämään.

Luonnollisesti MINSTAT tuntee kaikki normaalit tilastollisten
operaatioiden toimintaa säätelevät täsmennykset kuten esim.
IND, CASES, SELECT.

Todellakin, jos on halua saada mukaan vielä muitakin tunnuslukuja,
kertokaa ja perustelkaa!

-Seppo

Vastaukset:
[ei vastauksia]

Survo-keskustelupalstan (2001-2013) viestit arkistoitiin aika ajoin sukrolla, joka automaattisesti rakensi viesteistä (yli 1600 kpl) HTML-muotoisen sivukokonaisuuden. Vuoden 2013 alusta Survo-keskustelua on jatkettu entistäkin aktiivisemmin osoitteessa forum.survo.fi. Tervetuloa mukaan!

Etusivu  |  Keskustelu
Copyright © Survo Systems 2001-2013. All rights reserved.
Updated 2013-06-15.