Tilastollisen tietojenkäsittelyn seminaari

Tilastotieteen laitos, Helsingin yliopisto

Tällä sivulla esitellään tilastollisen tietojenkäsittelyn seminaarissa keväällä 1998 pidettyjen ohjelmistoesittelyjen 7 tehtävää sekä näytteet tehtäviin liittyvistä aineistoista.

Tekstitiedosto TEHT.TXT, joka sisältää sekä tehtävät että annetut aineistot kokonaisuudessaan, on saatavilla pakatussa muodossa osoitteesta http://www.helsinki.fi/survo/teht.zip (86447 tavua).  

Kevään 1998 ohjelmistoesittelyjen tehtävät
Tehtävä 1: Aineistojen siirto
Tehtävä 2: Aineiston hallintaa
Tehtävä 3: Epälineaarinen regressiomalli
Tehtävä 4: Puuttuvan tiedon ongelma
Tehtävä 5: Erotteluanalyysi
Tehtävä 6: Ryhmittelyanalyysi
Tehtävä 7: Simulointikoe

Näytteitä tehtäviin liittyvistä aineistoista  

Tehtävä 1:

Siirrä tiedostossa TEHT.TXT olevat aineistot ohjelmallasi käsiteltäviksi tiedostoiksi.

Takaisin tehtäväluetteloon  

Tehtävä 2: Aineiston hallintaa

Alla on 10 muuttujan ja 40 havainnon aineisto X. Muodosta siitä (kopioimalla) 160 muuttujan ja 5120 havainnon aineisto (128*40=5120)


      1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16
  1   X  X  X  X  X  X  X  X  X  X  X  X  X  X  X  X
  2   X  X  X  X  X  X  X  X  X  X  X  X  X  X  X  X
  .   .  .  .
128   X  X  X  X  X  X  X  X  X  X  X  X  X  X  X  X
ja laske siitä keskiarvot, hajonnat ja korrelaatiomatriisi. Tässä on kiinnostavaa tietää tehtävän suoritusaika jälkimmäisen vaiheen osalta ja 160x5120-aineiston koko levyllä.

Aineisto X:
Havainto  X1  X2  X3  X4  X5  X6  X7  X8  X9 X10
A1         8  10  15  16  24  28  29  29  29  38
A2         3   3   6  14  16  24  24  26  31  32
A3         1   4   8  10  14  16  23  30  37  39
A4         3   7  11  18  23  31  37  37  45  51
A5         0   5  10  18  18  23  25  32  34  36
A6         9  18  27  32  32  39  46  53  53  58
A7         6   7  13  17  25  32  33  38  44  51
A8         4   6   8  13  14  20  23  25  32  34
A9         0   9  14  21  30  31  38  45  54  60
A10        8   8  11  15  20  22  26  26  33  33
A11        4   8  15  23  23  31  40  42  47  51
A12        5  14  19  20  28  31  35  37  46  47
A13        0   7   8  17  23  23  27  31  39  42
A14        1   3   8   8  17  19  28  28  37  46
A15        2   7   8  12  20  26  30  32  37  44
A16        3   7  13  18  26  34  41  43  49  56
A17        1   5   8   9  10  14  19  22  28  30
A18        9  16  20  21  30  34  43  45  50  54
A19        1   7  11  14  18  20  23  29  35  40
A20        8   8   8   8  11  18  22  29  31  37
A21        4  11  16  17  20  26  29  34  42  47
A22        3  10  17  22  27  33  39  48  51  54
A23        8  15  23  26  26  31  35  43  49  51
A24        6  10  14  20  21  29  37  46  50  52
A25        1   9  16  24  33  35  41  46  53  61
A26        1   7  14  21  21  30  36  44  46  55
A27        5  14  22  23  25  28  31  37  46  53
A28        5  12  17  19  25  29  36  44  46  48
A29        7  14  15  20  24  26  32  37  37  45
A30        5  13  16  23  25  33  33  37  44  44
A31        3   8  14  14  16  19  25  31  36  45
A32        1   2   7   8  15  20  21  30  31  34
A33        3  12  13  21  21  22  25  33  38  44
A34        4   6  10  18  25  28  32  40  47  52
A35        9   9  14  14  15  16  17  22  23  26
A36        3   3   9  13  20  24  30  31  35  35
A37        0   8  12  16  25  32  33  41  46  50
A38        2  10  13  19  20  25  31  32  38  42
A39        7   9  16  17  26  30  38  42  42  49
A40        3   3   4  11  12  19  28  37  39  44

Huom. tehtävä ei koske tätä X-aineistoa vaan siitä kopioimalla saatavaa 160 muuttujan ja 5120 havainnon aineistoa.

Takaisin tehtäväluetteloon  

Tehtävä 3: Epälineaarinen regressiomalli

Tiedoston TEHT.TXT lopussa on 3 muuttujan Y,X1,X2 ja 10000 havainnon aineisto EXP2, josta tulisi estimoida epälineaarisen regressiomallin Y=a1*exp(-b1*X1)+a2*exp(-b2*X2)+eps, eps on N(0,s^2), parametrit a1,b1,a2,b2 pienimmän neliösumman keinolla lähtien alkuarvauksista a1=3.5 b1=0.7 a2=10 b2=2.1 . Jälleen on kiinnostavaa tietää myös laskentaan kuluva aika.

Takaisin tehtäväluetteloon  

Tehtävä 4: Puuttuvan tiedon ongelma

Kymmenottelun maailmantilasto vuodelta 1973 (48 parhaan ottelijan lajikohtaiset pisteet sekä pituus ja paino) on esitetty taulukkona KYMMEN. Toinen taulukko KYMMEN2 on muuten sama, mutta siinä on 29 "puuttuvaa" tietoa. On tehtävä faktorianalyysi kummallakin aineistolla (ML-faktorointi 4 faktorilla ja Varimax-rotaatio) ja tutkia, miten hyvin puutteellisesta aineistosta (KYMMEN2) saatu ratkaisu vastaa täydellisestä (KYMMEN) saatua.

Aineistot KYMMEN ja KYMMEN2 ovat tiedoston TEHT.TXT lopussa.

Takaisin tehtäväluetteloon  

Tehtävä 5: Erotteluanalyysi

Tarkastellaan Tuomo Martikaisen vuonna 1995 kerättyä Helsingin alueen nuoria (18-30v) koskevaa 600 havainnon aineistoa. Siitä on tässä käytettävissä 39 muuttujan osa-aineisto. Asennemuuttujat on koodattu siten, että 1=eri mieltä, 5=samaa mieltä. Viimeisenä on muuttuja VOTENOW, joka kertoo, mitä puoluetta vastaaja olisi kyselyhetkellä äänestänyt vaaleissa.

Eri puolueita vastaavat muuttujan VOTENOW arvot seuraavasti:


  1=KESK 2=SDP 3=KOK 4=VAS 5=RKP 6=VIH 10=NUOR 13=EOS(ei_osaa_sanoa)

Aineistossa NUORET suurin osuus on niillä, joilla ei ole mitään kantaa (33%), sitten Kokoomuksella (17%) ja Vihreillä (13%). Tutki erotteluanalyysin avulla, miten nämä kolme ryhmää (EOS, KOK, VIH) eroavat toisistaan 38 ensimmäisen muuttujan suhteen.

Esitä tulokset myös graafisesti.

Muuttujaluettelo:


   1 SEX       Miespuolisuus (Nainen=1 Mies=2)
   2 AGEY      Ikä vuosina
   3 INTEREST  Kiinnostunut politiikasta
   4 TRUST     Luottamus nuorten ongelmien ratkaisuun
   5 STRENGTH  Vakiintunut oma poliittinen käsitys
   6 STABLE    Vakiintunut puoluekanta
   7 ONLYVOTE  Äänestäminen ainoa keino vaikuttaa
   8 COMPLIC   En ymmärrä politiikkaa
   9 MUCHSAME  Asiat jatkuvat hallituspuolueista riippumatta
  10 NOPEOPLE  Puolueet kiinnostuneita vain äänistä
  11 POLSYST   Poliittinen järjestelmä toimii
  12 PFINN     Ylpeä suomalaisuudesta
  13 PSCIENCE  Ylpeä tieteellisistä saavutuksista
  14 PSPORT    Ylpeä urheilusaavutuksista
  15 PPOLSYST  Ylpeä eduskunnasta ja pol.järjestelmästä
  16 PARTS     Ylpeä taiteellisista saavutuksista
  17 PECONOMY  Ylpeä taloudellisista saavutuksista
  18 PWELFARE  Ylpeä sosiaaliturvasta ja terv.huollosta
  19 LEASH     Poliitikot puolueensa "liekanuorassa"
  20 FAKES     Poliitikot eivät anna oikeaa kuvaa itsestään
  21 PLAYERS   Poliitikot "pelaavat varman päälle"
  22 WASTEMON  Poliitikot tuhlailevat
  23 PROTECT   Poliitikot suojelevat toisiaan
  24 RECKLESS  Poliitikot häikäilemättömiä ja julk.kipeitä
  25 DEVELAID  Kehitysapua on lisättävä
  26 REFUGEE   Otettava vastaan enemmän pakolaisia
  27 EXPLOIT   Suuromistajat rikastuvat työl.kustannuksella
  28 AUTHOBEY  Koulujen opetettava lapsia tottelevaisuuteen
  29 LAWOBEY   Lakia aina noudatettava (vaikka väärää)
  30 FREERIDE  Useimmat tuensaajat eivät sitä ansaitse
  31 OWNFAULT  Työttömyyden syyt ihmisessä itsessään
  32 RICHPRIV  Rikkaille eri lait kuin köyhille
  33 DEPEND    Hyvinvointivaltiossa ei huolehdita itsestä
  34 OWNFEET   Sos.avustukset vähentävät ihmisten omatoim.
  35 CONFLICT  Yhteistyö yrityksissä mahdotonta
  36 RESPECT   Nuoret eivät kunnioita perinteisiä arvoja
  37 PUNISH    Lainrikkojille ankarampia tuomioita
  38 DEATHPEN  Joihinkin rikoksiin kuolema sopivin ratkaisu
  39 VOTENOW   1=KESK 2=SDP 3=KOK 4=VAS 5=RKP 6=VIH 10=NUOR 13=EOS

Aineisto NUORET on tiedoston TEHT.TXT lopussa.

Takaisin tehtäväluetteloon  

Tehtävä 6: Ryhmittelyanalyysi

Tee ryhmittelyanalyysi (cluster analysis) aineistoille RYHMÄT1 ja RYHMÄT2.

Aineistot RYHMÄT1 ja RYHMÄT2 ovat tiedoston TEHT.TXT lopussa.

Takaisin tehtäväluetteloon  

Tehtävä 7: Simulointikoe

Muodosta 100 x 100 -korrelaatiomatriisi R, jonka rivin i ja sarakkeen j alkio on
     r(i,j)=r^[|i-j|/(|i-j|+1)]
(siis r potenssiin k/(k+1), missä k on erotuksen i-j itseisarvo) ja r=0.3 .

Generoi 100000 havainnon otos sellaisesta 100-ulotteisesta normaalijakaumasta, jonka korrelaatiomatriisi on R ja estimoi tuon otoksen perusteella sen lineaarisen regressiomallin parametrit, jonka selitettävänä on 1. muuttuja ja selittäjinä vakion lisäksi muut 99 muuttujaa. Kiinnostavaa on tietää sekä simulointiin että mallin laskemiseen kuluva aika ja tuloksista erityisesti yhteiskorrelaatiokerroin.

Takaisin tehtäväluetteloon  

Näytteitä tehtäviin liittyvistä aineistoista

 Aineisto KYMMEN: (12 muuttujaa ja 48 havaintoa)
(tässä vain 6 ensimmäistä havaintoa)


Nimi     100m Pitu Kuul Kork 400m Aida Kiek Seiv Keih 1500 Pit Pai
Skowrone  853  931  725  857  838  903  772  981  818  528 184  81
Hedmark   853  853  814  769  833  914  855  884  975  438 195  90
Le_Roy    879  951  799  779  838  881  819 1028  758  408 191  90
Zeilbaue  826  931  793  865  875  891  729  909  774  543 192  84
Zigert    879  840  924  857  788  892  866  920  671  497 198 105
Bennett   905  859  647  779  938  859  651 1028  794  661 173  68
  .        .    .    .    .    .    .    .    .    .    .   .   .
  .        .    .    .    .    .    .    .    .    .    .   .   .
  .        .    .    .    .    .    .    .    .    .    .   .   .

 Aineisto KYMMEN2: (12 muuttujaa ja 48 havaintoa)
(tässä vain 6 ensimmäistä havaintoa)


Nimi     100m Pitu Kuul Kork 400m Aida Kiek Seiv Keih 1500 Pit Pai
Skowrone  853  931  725  857  838  903  772  981  818  528 184  81
Hedmark   853  853  814  769  833  914    -  884  975  438 195  90
Le_Roy    879  951  799  779  838  881  819 1028  758  408 191  90
Zeilbaue  826  931  793  865  875  891  729  909  774  543 192  84
Zigert    879  840  924    -    -  892  866  920  671  497 198   -
Bennett   905  859  647    -  938  859  651 1028  794  661 173  68
  .        .    .    .    .    .    .    .    .    .    .   .   .
  .        .    .    .    .    .    .    .    .    .    .   .   .
  .        .    .    .    .    .    .    .    .    .    .   .   .

 Aineisto RYHMÄT1: (2 muuttujaa ja 150 havaintoa)
(tässä vain 6 ensimmäistä havaintoa)


     X      Y
-5.345  3.148
-4.971  2.900
-4.680  2.906
-4.403  2.488
-4.374  2.479
-4.310  2.486
    .      .
    .      .
    .      .

 Aineisto RYHMÄT2: (4 muuttujaa ja 473 havaintoa)
(tässä vain 6 ensimmäistä havaintoa)


 X1  X2  X3  X4
620 412 322 296
600 350 370 230
495 277 325 281
517 456 247 241
594 449 275 282
517 431 243 212
 .   .   .   .
 .   .   .   .
 .   .   .   .

 Aineisto NUORET: (39 muuttujaa ja 600 havaintoa)
(tässä vain 6 ensimmäistä havaintoa)


1 29 2 4 4 2 4 5 5 2 4 5 5 5 5 5 5 5 2 4 2 4 2 1 2 4 4 2 5 4 4 4 4 4 2 2 2 1 13
2 27 4 4 4 2 4 2 4 2 2 5 1 5 1 5 1 5 2 2 2 4 4 2 5 4 4 5 4 2 2 4 4 2 4 4 3 1 13
1 30 4 2 4 2 4 4 5 4 2 5 5 5 1 1 1 5 4 4 3 4 4 4 5 3 5 2 2 4 2 4 1 4 3 2 4 1 13
2 21 3 4 3 3 3 4 1 3 2 1 5 5 3 3 3 5 3 3 2 4 4 4 3 1 3 5 3 5 3 4 3 3 3 3 4 3 13
2 30 4 4 4 4 4 2 1 2 5 5 3 5 5 5 5 5 2 2 1 1 1 1 4 2 2 4 4 2 4 1 4 2 1 2 2 2  1
1 18 2 4 2 2 4 4 4 2 4 5 5 5 5 5 5 5 2 2 2 2 1 2 4 4 2 2 2 4 1 4 2 2 2 1 4 5 13
.  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .
.  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .
.  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .  .

 Aineisto EXP2: (3 muuttujaa ja 10000 havaintoa)
(tässä vain 6 ensimmäistä havaintoa)


    Y    X1    X2
4.284 0.056 0.569
3.628 0.301 0.575
4.506 0.051 0.818
0.350 0.821 0.896
2.569 0.239 0.752
6.476 0.126 0.210
   .     .     .
   .     .     .
   .     .     .

Edellä esitellyt aineistot sisältyvät täydellisinä tekstitiedostoon TEHT.TXT, jonka voi kopioida itselleen pakatussa muodossa osoitteesta http://www.helsinki.fi/survo/teht.zip (86447 tavua). Tiedostossa on myös tehtävien kuvaukset.

Takaisin tehtäväluetteloon



| Seminaarin etusivu |