Tällä sivulla esitellään tilastollisen tietojenkäsittelyn seminaarissa keväällä 1998 pidettyjen ohjelmistoesittelyjen 7 tehtävää sekä näytteet tehtäviin liittyvistä aineistoista.
Tekstitiedosto TEHT.TXT
, joka sisältää sekä tehtävät että
annetut aineistot kokonaisuudessaan, on saatavilla pakatussa muodossa
osoitteesta
http://www.helsinki.fi/survo/teht.zip (86447 tavua).
Näytteitä tehtäviin liittyvistä aineistoista
Siirrä tiedostossa TEHT.TXT
olevat aineistot ohjelmallasi
käsiteltäviksi tiedostoiksi.
Alla on 10 muuttujan ja 40 havainnon aineisto X
. Muodosta siitä
(kopioimalla) 160 muuttujan ja 5120 havainnon aineisto
(128*40=5120)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
1 X X X X X X X X X X X X X X X X
2 X X X X X X X X X X X X X X X X
. . . .
128 X X X X X X X X X X X X X X X X
ja laske siitä keskiarvot, hajonnat ja korrelaatiomatriisi.
Tässä on kiinnostavaa tietää tehtävän suoritusaika
jälkimmäisen vaiheen osalta ja 160x5120-aineiston koko
levyllä.
Aineisto X:
Havainto X1 X2 X3 X4 X5 X6 X7 X8 X9 X10
A1 8 10 15 16 24 28 29 29 29 38
A2 3 3 6 14 16 24 24 26 31 32
A3 1 4 8 10 14 16 23 30 37 39
A4 3 7 11 18 23 31 37 37 45 51
A5 0 5 10 18 18 23 25 32 34 36
A6 9 18 27 32 32 39 46 53 53 58
A7 6 7 13 17 25 32 33 38 44 51
A8 4 6 8 13 14 20 23 25 32 34
A9 0 9 14 21 30 31 38 45 54 60
A10 8 8 11 15 20 22 26 26 33 33
A11 4 8 15 23 23 31 40 42 47 51
A12 5 14 19 20 28 31 35 37 46 47
A13 0 7 8 17 23 23 27 31 39 42
A14 1 3 8 8 17 19 28 28 37 46
A15 2 7 8 12 20 26 30 32 37 44
A16 3 7 13 18 26 34 41 43 49 56
A17 1 5 8 9 10 14 19 22 28 30
A18 9 16 20 21 30 34 43 45 50 54
A19 1 7 11 14 18 20 23 29 35 40
A20 8 8 8 8 11 18 22 29 31 37
A21 4 11 16 17 20 26 29 34 42 47
A22 3 10 17 22 27 33 39 48 51 54
A23 8 15 23 26 26 31 35 43 49 51
A24 6 10 14 20 21 29 37 46 50 52
A25 1 9 16 24 33 35 41 46 53 61
A26 1 7 14 21 21 30 36 44 46 55
A27 5 14 22 23 25 28 31 37 46 53
A28 5 12 17 19 25 29 36 44 46 48
A29 7 14 15 20 24 26 32 37 37 45
A30 5 13 16 23 25 33 33 37 44 44
A31 3 8 14 14 16 19 25 31 36 45
A32 1 2 7 8 15 20 21 30 31 34
A33 3 12 13 21 21 22 25 33 38 44
A34 4 6 10 18 25 28 32 40 47 52
A35 9 9 14 14 15 16 17 22 23 26
A36 3 3 9 13 20 24 30 31 35 35
A37 0 8 12 16 25 32 33 41 46 50
A38 2 10 13 19 20 25 31 32 38 42
A39 7 9 16 17 26 30 38 42 42 49
A40 3 3 4 11 12 19 28 37 39 44
Huom. tehtävä ei koske tätä X
-aineistoa vaan siitä kopioimalla
saatavaa 160 muuttujan ja 5120 havainnon aineistoa.
Tiedoston TEHT.TXT
lopussa on 3 muuttujan Y,X1,X2 ja
10000 havainnon aineisto
EXP2, josta tulisi estimoida epälineaarisen regressiomallin
Y=a1*exp(-b1*X1)+a2*exp(-b2*X2)+eps, eps on N(0,s^2),
parametrit a1,b1,a2,b2 pienimmän neliösumman keinolla
lähtien alkuarvauksista a1=3.5 b1=0.7 a2=10 b2=2.1 .
Jälleen on kiinnostavaa tietää myös laskentaan kuluva aika.
Kymmenottelun maailmantilasto vuodelta 1973 (48 parhaan ottelijan lajikohtaiset pisteet sekä pituus ja paino) on esitetty taulukkona KYMMEN. Toinen taulukko KYMMEN2 on muuten sama, mutta siinä on 29 "puuttuvaa" tietoa. On tehtävä faktorianalyysi kummallakin aineistolla (ML-faktorointi 4 faktorilla ja Varimax-rotaatio) ja tutkia, miten hyvin puutteellisesta aineistosta (KYMMEN2) saatu ratkaisu vastaa täydellisestä (KYMMEN) saatua.
Aineistot KYMMEN ja KYMMEN2 ovat tiedoston TEHT.TXT
lopussa.
Tarkastellaan Tuomo Martikaisen vuonna 1995 kerättyä Helsingin alueen nuoria (18-30v) koskevaa 600 havainnon aineistoa. Siitä on tässä käytettävissä 39 muuttujan osa-aineisto. Asennemuuttujat on koodattu siten, että 1=eri mieltä, 5=samaa mieltä. Viimeisenä on muuttuja VOTENOW, joka kertoo, mitä puoluetta vastaaja olisi kyselyhetkellä äänestänyt vaaleissa.
Eri puolueita vastaavat muuttujan VOTENOW arvot seuraavasti:
1=KESK 2=SDP 3=KOK 4=VAS 5=RKP 6=VIH 10=NUOR 13=EOS(ei_osaa_sanoa)
Aineistossa NUORET suurin osuus on niillä, joilla ei ole mitään kantaa (33%), sitten Kokoomuksella (17%) ja Vihreillä (13%). Tutki erotteluanalyysin avulla, miten nämä kolme ryhmää (EOS, KOK, VIH) eroavat toisistaan 38 ensimmäisen muuttujan suhteen.
Esitä tulokset myös graafisesti.
Muuttujaluettelo:
1 SEX Miespuolisuus (Nainen=1 Mies=2)
2 AGEY Ikä vuosina
3 INTEREST Kiinnostunut politiikasta
4 TRUST Luottamus nuorten ongelmien ratkaisuun
5 STRENGTH Vakiintunut oma poliittinen käsitys
6 STABLE Vakiintunut puoluekanta
7 ONLYVOTE Äänestäminen ainoa keino vaikuttaa
8 COMPLIC En ymmärrä politiikkaa
9 MUCHSAME Asiat jatkuvat hallituspuolueista riippumatta
10 NOPEOPLE Puolueet kiinnostuneita vain äänistä
11 POLSYST Poliittinen järjestelmä toimii
12 PFINN Ylpeä suomalaisuudesta
13 PSCIENCE Ylpeä tieteellisistä saavutuksista
14 PSPORT Ylpeä urheilusaavutuksista
15 PPOLSYST Ylpeä eduskunnasta ja pol.järjestelmästä
16 PARTS Ylpeä taiteellisista saavutuksista
17 PECONOMY Ylpeä taloudellisista saavutuksista
18 PWELFARE Ylpeä sosiaaliturvasta ja terv.huollosta
19 LEASH Poliitikot puolueensa "liekanuorassa"
20 FAKES Poliitikot eivät anna oikeaa kuvaa itsestään
21 PLAYERS Poliitikot "pelaavat varman päälle"
22 WASTEMON Poliitikot tuhlailevat
23 PROTECT Poliitikot suojelevat toisiaan
24 RECKLESS Poliitikot häikäilemättömiä ja julk.kipeitä
25 DEVELAID Kehitysapua on lisättävä
26 REFUGEE Otettava vastaan enemmän pakolaisia
27 EXPLOIT Suuromistajat rikastuvat työl.kustannuksella
28 AUTHOBEY Koulujen opetettava lapsia tottelevaisuuteen
29 LAWOBEY Lakia aina noudatettava (vaikka väärää)
30 FREERIDE Useimmat tuensaajat eivät sitä ansaitse
31 OWNFAULT Työttömyyden syyt ihmisessä itsessään
32 RICHPRIV Rikkaille eri lait kuin köyhille
33 DEPEND Hyvinvointivaltiossa ei huolehdita itsestä
34 OWNFEET Sos.avustukset vähentävät ihmisten omatoim.
35 CONFLICT Yhteistyö yrityksissä mahdotonta
36 RESPECT Nuoret eivät kunnioita perinteisiä arvoja
37 PUNISH Lainrikkojille ankarampia tuomioita
38 DEATHPEN Joihinkin rikoksiin kuolema sopivin ratkaisu
39 VOTENOW 1=KESK 2=SDP 3=KOK 4=VAS 5=RKP 6=VIH 10=NUOR 13=EOS
Aineisto NUORET on tiedoston TEHT.TXT
lopussa.
Tee ryhmittelyanalyysi (cluster analysis) aineistoille RYHMÄT1 ja RYHMÄT2.
Aineistot RYHMÄT1 ja RYHMÄT2 ovat tiedoston TEHT.TXT
lopussa.
Muodosta 100 x 100 -korrelaatiomatriisi R, jonka rivin i ja sarakkeen j
alkio on
r(i,j)=r^[|i-j|/(|i-j|+1)]
(siis r potenssiin k/(k+1), missä k on erotuksen i-j itseisarvo)
ja r=0.3 .
Generoi 100000 havainnon otos sellaisesta 100-ulotteisesta normaalijakaumasta, jonka korrelaatiomatriisi on R ja estimoi tuon otoksen perusteella sen lineaarisen regressiomallin parametrit, jonka selitettävänä on 1. muuttuja ja selittäjinä vakion lisäksi muut 99 muuttujaa. Kiinnostavaa on tietää sekä simulointiin että mallin laskemiseen kuluva aika ja tuloksista erityisesti yhteiskorrelaatiokerroin.
Aineisto KYMMEN: (12 muuttujaa ja 48 havaintoa)
(tässä vain 6 ensimmäistä havaintoa)
Nimi 100m Pitu Kuul Kork 400m Aida Kiek Seiv Keih 1500 Pit Pai
Skowrone 853 931 725 857 838 903 772 981 818 528 184 81
Hedmark 853 853 814 769 833 914 855 884 975 438 195 90
Le_Roy 879 951 799 779 838 881 819 1028 758 408 191 90
Zeilbaue 826 931 793 865 875 891 729 909 774 543 192 84
Zigert 879 840 924 857 788 892 866 920 671 497 198 105
Bennett 905 859 647 779 938 859 651 1028 794 661 173 68
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
Aineisto KYMMEN2: (12 muuttujaa ja 48 havaintoa)
(tässä vain 6 ensimmäistä havaintoa)
Nimi 100m Pitu Kuul Kork 400m Aida Kiek Seiv Keih 1500 Pit Pai
Skowrone 853 931 725 857 838 903 772 981 818 528 184 81
Hedmark 853 853 814 769 833 914 - 884 975 438 195 90
Le_Roy 879 951 799 779 838 881 819 1028 758 408 191 90
Zeilbaue 826 931 793 865 875 891 729 909 774 543 192 84
Zigert 879 840 924 - - 892 866 920 671 497 198 -
Bennett 905 859 647 - 938 859 651 1028 794 661 173 68
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
Aineisto RYHMÄT1: (2 muuttujaa ja 150 havaintoa)
(tässä vain 6 ensimmäistä havaintoa)
X Y
-5.345 3.148
-4.971 2.900
-4.680 2.906
-4.403 2.488
-4.374 2.479
-4.310 2.486
. .
. .
. .
Aineisto RYHMÄT2: (4 muuttujaa ja 473 havaintoa)
(tässä vain 6 ensimmäistä havaintoa)
X1 X2 X3 X4
620 412 322 296
600 350 370 230
495 277 325 281
517 456 247 241
594 449 275 282
517 431 243 212
. . . .
. . . .
. . . .
Aineisto NUORET: (39 muuttujaa ja 600 havaintoa)
(tässä vain 6 ensimmäistä havaintoa)
1 29 2 4 4 2 4 5 5 2 4 5 5 5 5 5 5 5 2 4 2 4 2 1 2 4 4 2 5 4 4 4 4 4 2 2 2 1 13
2 27 4 4 4 2 4 2 4 2 2 5 1 5 1 5 1 5 2 2 2 4 4 2 5 4 4 5 4 2 2 4 4 2 4 4 3 1 13
1 30 4 2 4 2 4 4 5 4 2 5 5 5 1 1 1 5 4 4 3 4 4 4 5 3 5 2 2 4 2 4 1 4 3 2 4 1 13
2 21 3 4 3 3 3 4 1 3 2 1 5 5 3 3 3 5 3 3 2 4 4 4 3 1 3 5 3 5 3 4 3 3 3 3 4 3 13
2 30 4 4 4 4 4 2 1 2 5 5 3 5 5 5 5 5 2 2 1 1 1 1 4 2 2 4 4 2 4 1 4 2 1 2 2 2 1
1 18 2 4 2 2 4 4 4 2 4 5 5 5 5 5 5 5 2 2 2 2 1 2 4 4 2 2 2 4 1 4 2 2 2 1 4 5 13
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Aineisto EXP2: (3 muuttujaa ja 10000 havaintoa)
(tässä vain 6 ensimmäistä havaintoa)
Y X1 X2
4.284 0.056 0.569
3.628 0.301 0.575
4.506 0.051 0.818
0.350 0.821 0.896
2.569 0.239 0.752
6.476 0.126 0.210
. . .
. . .
. . .
Edellä esitellyt aineistot sisältyvät täydellisinä tekstitiedostoon
TEHT.TXT
, jonka voi kopioida itselleen pakatussa muodossa osoitteesta
http://www.helsinki.fi/survo/teht.zip (86447 tavua). Tiedostossa on
myös tehtävien kuvaukset.