Re: Etälukion

[vastaus aiempaan viestiin]

Kirjoittaja: Lauri Tarkkonen
Sähköposti:    lauri.tarkkonen'at'helsinki.fi
Päiväys: 11.12.2002 4:56

Seppo Mustonen kirjoitti 4.12.2002 9:28 :

>Vaikka itsekin olen matemaatikko, olen kauan ollut sitä mieltä, että
>tilastollista ajattelua, ennen kaikkea tilastojen ja tilastokuvien
>tulkintaa tulisi opettaa kouluissa yläasteilla ja lukioissa yhteisenä
>ja yleisenä kansalaistaitona eikä pelkästään matematiikan tunneilla.
> 
Koska yhteiskunnan tilan kuvaaminen tapahtuu usein tilastojen
avulla on tilastoaineiston lukutaito ja siitä tehtävien johto-
päätösten ymmärtäminen demokratian toteutumisen kannalta varsin
keskeistä. Tämän vuoksi tilastotieteen alkeiden ymmärtäminen
kuuluu jo kouluopetukseen.

>>Termi "keskiverto" on kuitenkin käsitykseni mukaan puhtaasti
>suomalainen keksintö enkä tiedä, kuka oli se onneton, joka aikoinaan
>halusi omia tälle sanalle tuon erikoismerkityksen.
>Keskiverto on kielemme yleissanoja (kts. Nykysuomen sanakirja), eikä
>tätä tosiasiaa muuta juontajan toteamus: "Keskiverrolle on varattu jo
>tietty merkitys"!
>Keskivertoa vastaavaa sanaa ei liene esim. englannin- tai saksan-
>kielessä. Parempi ilmaisu on "geometrinen keskiarvo" (esim.
>englanniksi
>"geometric mean"), jota nykyisin myös suomenkielisissä oppikirjoissa
>käytetään.

Keskiverron käsittelyyn tuhlattu aika olisi todellakin voitu käyttää
paremmin. Esimerkiksi todeta, sitä käytettävän geometrisen keskiarvon
nimenä, jos lisäksi olisi todettu, että jos havaintoarvoista otetaan
logaritmit ja lasketaan niiden aritmeettinen keskiarvo, päädytään
geometriseen keskirarvoon. Samalla olisi ollut erinomainen tilaisuus
kertoa, että suhdelukuasteikollisille muuttujille geometrinen keski-
arvo on hyvin käyttökelpoinen tunnusluku.


>Geometrisen keskiarvon mielekäs käyttöalue rajoittuu eksponentiaalista
> 
>kasvua tai vähenemistä (likimain) kuvaavien aineistojen tarkasteluun.
>Kun esim. aritmeettisessa jonossa
>   1 2 3 4 5 6 7
>(aritmeettinen) keskiarvo 4 on "oikea keskiluku" niin vastaavasti
>geometrisesti kasvavassa jonossa
>   1  2  4  8 16 32 64
>geometrinen keskiarvo 8 on "oikea keskiluku" (keskimmäinen).
>Aritmeettinen keskiarvo 127/7=18.14 kuvaa siinä tilannetta heikommin.
> 
>"Geometrinen keskiarvo" juontanee sitäpaitsi juurensa geometriasta
>siten, että suorakulmaisessa kolmiossa ABC
> 
>             C                   kulma ACB siis suora
>            /|  \
>           / |      \
>          /  |h         \
>         /   |              \
>        /    |                  \
>       A-----D-------------------B
>          x          y
> 
>korkeusjanan CD pituus h on (osakolmioiden yhdenmuotoisuuden ansiosta)
> 
>sama kuin janojen x (AD) ja y (DB) pituuksien geometrinen keskiarvo,
>sillä verrannosta h:x=y:h seuraa välittömästi h=sqrt(x*y).
>Saattaapa olla, että tuo suomenkielessä kummitellut "keskiverto" on
>lähtöisin tältä "sylttytehtaalta", koska verrannollisuudestahan siinä
>on kysymys.
> 
>Kun sitten ohjelmassa käsitellään keskilukuja, ei kiinnitetä
>mitään huomiota siihen, millä edellytyksillä kutakin niistä
>(keskiarvo, geometrinen keskiarvo, mediaani, moodi) sopii käyttää.
>Sen asemasta, että kulutetaan aikaa melkein 4 minuuttia tarpeettomaan
>"keskiarvo pro keskiverto"-pohdintaan, olisi tullut kiinnittää
>huomiota
>mittaamisen tasoon eli siihen, minkälaatuista tietoa aineistossa
>olevat
>luvut oikeastaan tarjoavat.
>Se, että jonkin ilmiön kuvaus on pystytty esittämään joukkona
>lukuja, ei vielä oikeuta ilman muuta tekemään mitä tahansa
>(tilastollisia) laskutoimituksia. Eri menettelyjen (tässä tapauksessa
>keskilukujen laskemiset) riippuvat olennaisesti mitta-asteikon
>tasosta seuraavasti:
> 
>  Asteikko            Esimerkkejä               Keskiluku
> 
>---------------------------------------------------------------------
>  laatueroasteikko    väri, sukupuoli           tyyppiarvo eli moodi
> 
>  järjestysasteikko   asennemittaus,            moodi ja mediaani
>                      mineraalien kovuus
> 
>  intervalliasteikko  lämpötila ja monet        edelliset + keskiarvo
>                      muut fysikaaliset
>                      ilmiöt
> 
>  suhdeasteikko       paino, ikä, lukumäärä     edelliset +
>                                                esim.
>eksponentiaalista
>                                                kasvua kuvaavissa
>                                                tilanteissa
>geometrinen
>                                                keskiarvo
> 

Tilastojen käytössä keskeinen ongelma on juuri hassusti käytetyt
tunnusluvut, tässä olisi ollut erinomainen tilaisuus näyttää, että
tilastoja luettaessa vastuu on usein lukijalla, eikä aina pidä
uskoa kaikkea mitä tilastoilla osoitetaan.

>Mitta-asteikkoja on sitäpaitsi kätevä luonnehtia jopa matemaattisesti
>kertomalla, miten yleisen muunnoksen y=f(x) mittaluku x sietää ilman,
>että kadotetaan informaatiota. Yleisimmät sallitut muunnokset ovat:
> 
>  Asteikko            Sallitut muunnokset
> 
>5'23:
>Kun tarkastellaan kvantitatiivista aineistoa, tyyppiarvon laskeminen
>luokittelemattomassa tilanteessa on usein järjetöntä .
>Ohjelmassa väitetään, että aineistolla on kaksi tyyppiarvoa
>(18 ja 55), koska vain nuo arvot sattuvat esiintymään useammin kuin
>kerran ja siis kahdesti, mutta siinä ei ole mitään tolkkua.
> 
>Tilastotiedettä ymmärtävän silmin aineistossa tyyppiarvona
>voidaan (jos on pakko) pitää esim. ikäluokkaa 30-39, kun
>aineisto luokitellaan tasavälisesti:
> 
>  ikä     frekvenssi
>  < 20    2
>  20-29   1
>  30-39   5
>  40-49   1
>  50 -    2
> 
>Hieman myöhemmin (6'15) tyyppiarvon esittelyyn olisi kyllä ollut oiva
>tilaisuus, kun näytetään Etälukion opiskelijoita ikäryhmittäin,
>jolloin frekvenssijakauma on
> 
>  ikä     frekvenssi
>  <18      99
>  18-29   989
>  30-39   666
>  40-49   612
>  50-59   227
>  60>      53
> 
>Tosin tässä olisi joka tapauksessa ollut parempi käyttää
>mahdollisimman
>tasavälistä luokittelua, esim. <20, 20-29, 30-39, 40-49, jne.
>jolloin nähtäisiin selkeämmin, että tyyppiarvo sijoittuu mitä
>ilmeisimmin ikäluokkaan 20-29.

Tässä olisi ollut erinomainen tilaisuus osoittaa, miten joku
tunnusluku, tässä moodi on hyvä toisessa paikassa ja huono
toisessa. Jos vielä olisi vaivauduttu ajattelemaan, että miten
aineiston esitys vaikuttaa tunnuslukuihin, niin luokittelemalla
aineistoa hieman uudestaan, nuoret < 20, nuoret aikuiset 20-29,
aikuiset 30-50, keski-ikäiset 50 - ... jne olisi voitu todeta,
että moodi onkin nyt aikuiset. Tällainen luokittelu saattaisi
moniin tarkasteluihin olla käyttökelpoinen, ellei ole tarvis
erotella aikuisen luokan eri päitä toisistaan.

> 
>6'45:
>Normaalijakauman merkitystä on tyydytty kuvaamaan sanoin
>"Normaalijakauma on yleisesti tunnettu jatkuva jakauma ja sitä
>käytetään
>usein käytännön tilanteiden tilastollisena mallina. Normaalijakaumaa
>noudattavat sellaiset satunnaismuuttujat, joiden arvoon vaikuttavat
>useat tekijät."
>Viittaukset ko. jakauman historiaan ja eräisiin muihin ominaisuuksiin
>ovat aivan paikallaan, mutta tärkeämpää olisi kertoa hieman tarkemmin,
> 
>miksi normaalijakauma sopii "käytännön tilanteisiin".
> 
>Tässä siis olisi ehdottomasti paikallaan viittaus
>todennäköisyyslasken-
>nan keskeiseen raja-arvolauseeseen: Ko. lausehan sanoo, että hyvin
>yleisin edellytyksin samasta jakaumasta saatujen, riippumattomien
>havaintojen summa (ja keskiarvo) lähestyy jakaumaltaan
>normaalijakaumaa,
>kun havaintojen lukumäärä kasvaa ja usein tämä toteutuu melko hyvin jo
>luokkaa 30 olevilla havaintomäärillä.
> 
Asiaa olisi voitu havainnollistaa aivan triviaalilla tavalla,
esimerkiksi ottaa kahden, kolmen ja neljän nopan summa ja todeta
kuinka tasainen yhden nopan jakautuma kehittyy huipukkaaksi.
Tämä olisi konkretisoinut asiaa varsin voimakkaasti.

>> 
>8'40:
>Vaikka graafiset esitykset ohjelmassa ovat visuaalisesti selkeitä,
>normaalijakauman tiheysfunktio on aina piirretty väärin siten, että
>käyrää ei ole jatkettu positiivisella eikä negatiivisella
>puolella laidoille asti. Nyt vaikuttaa jopa siltä, että jos
>jatkettaisiin, käyrä näyttäisi menevän x-akselin alapuolelle!
>Perspektiivikuvana juontajan edessä esitys ehkä käy, mutta ei silloin,
>kun kellokäyrä esitetään koordinaatistossa.
> 
Normaalijakautuman perustavaa laatua oleva ominaisuus on sen jatkuminen
äärettömään ja sen käyttö sellaisissa tapauksissa, joissa havainto-
arvoilla on selkeä alaraja, esimerkiksi vaikkapa 0, kuten ikä,
tai kirjoitusten pistemäärä on esimerkki matemaattisen mallin ja
todellisuuden välisestä ristiriidasta. Olisi hyvä kertoa, että
joskus tällainen ristiriita ei ole fataali, mutta joskus se on.

>10'30:
>Neuvolaesimerkin kasvukäyrät jne. ovat OK.
> 
>14'40:
>Esim.2 Pitkän matematiikan kirjoitukset (kev.2000)
>Ei ole mitenkään todettu, että normaalijakaumaolettamus juuri
>tässä aineistossa olisi voimassa.
> 
>Useinhan esim. matemaattisten aineiden kokeissa tyypillistä
>on jakauman kaksihuippuisuus eli kokelaat jakautuvat helposti
>kahteen (joskus jopa useampaan) ryhmään eli "ne jotka osaavat"
>ja "ne jotka eivät osaa", jolloin ollaan kaukana normaalisuudesta.
>Tästä ei pidä päätellä, että koepisteitä pitäisi jotenkin väkisin
>"normalisoida" tai koetehtäviä laatia siten, että tulosten jakauma
>olisi kauniisti normaalijakauman mukainen.

Tämä on varsin tärkeä huomautus, eivät kaikki maailman asiat
ole normaalisti jakautuneita.
> 
>Jos 5 prosentille kokelaista suodaan laudatur, voi pisterajan toki
>määrätä suoraan empiirisen jakaumankin pohjalta ilman
>normaalisuusolettamusta.

Tämä on myös varsin oleellinen huomautus, ei aina ole pakko
lähteä liikkeelle puhdasoppisista matemaattisista rakennelmista,
vaan usein olisi syytä lähteä myös empiirisestä todellisuudesta.

> 
>17'10:>Tämän jälkeen ohjelman uusin versio poikkeaakin keväällä nähdystä
>ja minulle viime viikolla nauhalla toimitetusta siten, että
>tavanomaisen t-testin esittely ja suoritus on korvattu asiantuntija-
>haastattelulla, mikä on selvä parannus. Tosin kyseessä on
>eräänlainen hätäratkaisu, sillä uusitussa versiossa po. kysymystä
>pohdiskellaan kyllä järkevästi mutta vain periaatetasolla. Juontajan
>esittämään kysymykseen ei tule koskaan uudistetussa versiossa
>konkreettista vastausta, vaikka siinäkin kerrotaan yllämainitut
>tunnusluvut, näytetään frekvenssijakaumat ja juontaja esittää
>yllämainitun kysymyksen.
> 
>Alkuperäisessä versiossa keskiarvojen vertailu suoritettiin
>t-testillä,
>mutta se esitettiin tavalla, joka jätti koko testaamisen ideankin
>hämärän peittoon. Siinä esiintyi useita uusia käsitteitä ja
>merkintöjä,
>joita ei kunnolla perusteltu. Juontaja vain latoi kaavoja eteen ja
>luki
>niitä mekaanisesti selittämättä tuskin mitään. Mutta tämähän on
>onneksi
>nyt poistettu.
> 
Tässä kohdassa leikkaaminen on ollut aika onnetonta. Vierailija
joutuu kommentteineen aivan tyhjän päälle eikä asiaan perehtymät-
tömällä kuulijoilla ole juuri mahdollisuutta ymmärtää mistä on
kysymys, he kenties uskovat sen. Tilastollinen päätöksenteko olisi
voitu pohjustaa melkein kaikille televisionkatsojille tutun amerik-
kalaisen oikeudenkäyntiperiaatteen kanssa: Syytetty on syytön
kunnes toisin todistetaan. Nollahypoteesi on siis että tekijällä
ei ole vaikutusta tai eroja ei ole, ja jos tältä pohjalta käyty
tarkastelu osoittautuu epäuskottavaksi, niin siten nollahypoteesi
hylätään ja päädytään vaihtoehtoiseen hypoteesiin. Ilmiöön liittuyvä
todennäköisyysjakautuma on nollahypoteesin vallitessa tunnettu,
ja voidaan siten arvioida kuinka todennäköistä on, että syytetty
on syytön, jos se on epätodennäköistä, niin silloin voidaan uskoa
hänen olevan syyllinen.

>        ....................................
> 
>Kuten edellä esitetystä näkyy, huomautettavaa on niin paljon, että
>ohjelmaan tulisi edelleenkin tehdä melkoisia muutoksia.
> 
Tilastotieteeseen voidaan tulla sekä matemaattisten lainalaisuuksien
että empiiristen ilmiöiden kautta. Matemaatikot tulevat usein
matemaattisten lainalaisuuksien kautta, eivätkä välttämättä kohtaa
empiiristä todellisuutta. Kuitenkin olisi tärkeää havaita, että
tilastotieteen tehtävä on todellisuuden kuvaaminen ja matemaatti-
set rakenteet ovat vain työkaluja.

- Lauri Tarkkonen

Vastaukset:

Survo-keskustelupalstan (2001-2013) viestit arkistoitiin aika ajoin sukrolla, joka automaattisesti rakensi viesteistä (yli 1600 kpl) HTML-muotoisen sivukokonaisuuden. Vuoden 2013 alusta Survo-keskustelua on jatkettu entistäkin aktiivisemmin osoitteessa forum.survo.fi. Tervetuloa mukaan!

Etusivu  |  Keskustelu
Copyright © Survo Systems 2001-2013. All rights reserved.
Updated 2013-06-15.