[vastaus aiempaan viestiin]
Kirjoittaja: | Lauri Tarkkonen |
---|---|
Sähköposti: | lauri.tarkkonen'at'helsinki.fi |
Päiväys: | 11.12.2002 4:56 |
Seppo Mustonen kirjoitti 4.12.2002 9:28 : >Vaikka itsekin olen matemaatikko, olen kauan ollut sitä mieltä, että >tilastollista ajattelua, ennen kaikkea tilastojen ja tilastokuvien >tulkintaa tulisi opettaa kouluissa yläasteilla ja lukioissa yhteisenä >ja yleisenä kansalaistaitona eikä pelkästään matematiikan tunneilla. > Koska yhteiskunnan tilan kuvaaminen tapahtuu usein tilastojen avulla on tilastoaineiston lukutaito ja siitä tehtävien johto- päätösten ymmärtäminen demokratian toteutumisen kannalta varsin keskeistä. Tämän vuoksi tilastotieteen alkeiden ymmärtäminen kuuluu jo kouluopetukseen. >>Termi "keskiverto" on kuitenkin käsitykseni mukaan puhtaasti >suomalainen keksintö enkä tiedä, kuka oli se onneton, joka aikoinaan >halusi omia tälle sanalle tuon erikoismerkityksen. >Keskiverto on kielemme yleissanoja (kts. Nykysuomen sanakirja), eikä >tätä tosiasiaa muuta juontajan toteamus: "Keskiverrolle on varattu jo >tietty merkitys"! >Keskivertoa vastaavaa sanaa ei liene esim. englannin- tai saksan- >kielessä. Parempi ilmaisu on "geometrinen keskiarvo" (esim. >englanniksi >"geometric mean"), jota nykyisin myös suomenkielisissä oppikirjoissa >käytetään. Keskiverron käsittelyyn tuhlattu aika olisi todellakin voitu käyttää paremmin. Esimerkiksi todeta, sitä käytettävän geometrisen keskiarvon nimenä, jos lisäksi olisi todettu, että jos havaintoarvoista otetaan logaritmit ja lasketaan niiden aritmeettinen keskiarvo, päädytään geometriseen keskirarvoon. Samalla olisi ollut erinomainen tilaisuus kertoa, että suhdelukuasteikollisille muuttujille geometrinen keski- arvo on hyvin käyttökelpoinen tunnusluku. >Geometrisen keskiarvon mielekäs käyttöalue rajoittuu eksponentiaalista > >kasvua tai vähenemistä (likimain) kuvaavien aineistojen tarkasteluun. >Kun esim. aritmeettisessa jonossa > 1 2 3 4 5 6 7 >(aritmeettinen) keskiarvo 4 on "oikea keskiluku" niin vastaavasti >geometrisesti kasvavassa jonossa > 1 2 4 8 16 32 64 >geometrinen keskiarvo 8 on "oikea keskiluku" (keskimmäinen). >Aritmeettinen keskiarvo 127/7=18.14 kuvaa siinä tilannetta heikommin. > >"Geometrinen keskiarvo" juontanee sitäpaitsi juurensa geometriasta >siten, että suorakulmaisessa kolmiossa ABC > > C kulma ACB siis suora > /| \ > / | \ > / |h \ > / | \ > / | \ > A-----D-------------------B > x y > >korkeusjanan CD pituus h on (osakolmioiden yhdenmuotoisuuden ansiosta) > >sama kuin janojen x (AD) ja y (DB) pituuksien geometrinen keskiarvo, >sillä verrannosta h:x=y:h seuraa välittömästi h=sqrt(x*y). >Saattaapa olla, että tuo suomenkielessä kummitellut "keskiverto" on >lähtöisin tältä "sylttytehtaalta", koska verrannollisuudestahan siinä >on kysymys. > >Kun sitten ohjelmassa käsitellään keskilukuja, ei kiinnitetä >mitään huomiota siihen, millä edellytyksillä kutakin niistä >(keskiarvo, geometrinen keskiarvo, mediaani, moodi) sopii käyttää. >Sen asemasta, että kulutetaan aikaa melkein 4 minuuttia tarpeettomaan >"keskiarvo pro keskiverto"-pohdintaan, olisi tullut kiinnittää >huomiota >mittaamisen tasoon eli siihen, minkälaatuista tietoa aineistossa >olevat >luvut oikeastaan tarjoavat. >Se, että jonkin ilmiön kuvaus on pystytty esittämään joukkona >lukuja, ei vielä oikeuta ilman muuta tekemään mitä tahansa >(tilastollisia) laskutoimituksia. Eri menettelyjen (tässä tapauksessa >keskilukujen laskemiset) riippuvat olennaisesti mitta-asteikon >tasosta seuraavasti: > > Asteikko Esimerkkejä Keskiluku > >--------------------------------------------------------------------- > laatueroasteikko väri, sukupuoli tyyppiarvo eli moodi > > järjestysasteikko asennemittaus, moodi ja mediaani > mineraalien kovuus > > intervalliasteikko lämpötila ja monet edelliset + keskiarvo > muut fysikaaliset > ilmiöt > > suhdeasteikko paino, ikä, lukumäärä edelliset + > esim. >eksponentiaalista > kasvua kuvaavissa > tilanteissa >geometrinen > keskiarvo > Tilastojen käytössä keskeinen ongelma on juuri hassusti käytetyt tunnusluvut, tässä olisi ollut erinomainen tilaisuus näyttää, että tilastoja luettaessa vastuu on usein lukijalla, eikä aina pidä uskoa kaikkea mitä tilastoilla osoitetaan. >Mitta-asteikkoja on sitäpaitsi kätevä luonnehtia jopa matemaattisesti >kertomalla, miten yleisen muunnoksen y=f(x) mittaluku x sietää ilman, >että kadotetaan informaatiota. Yleisimmät sallitut muunnokset ovat: > > Asteikko Sallitut muunnokset > >5'23: >Kun tarkastellaan kvantitatiivista aineistoa, tyyppiarvon laskeminen >luokittelemattomassa tilanteessa on usein järjetöntä . >Ohjelmassa väitetään, että aineistolla on kaksi tyyppiarvoa >(18 ja 55), koska vain nuo arvot sattuvat esiintymään useammin kuin >kerran ja siis kahdesti, mutta siinä ei ole mitään tolkkua. > >Tilastotiedettä ymmärtävän silmin aineistossa tyyppiarvona >voidaan (jos on pakko) pitää esim. ikäluokkaa 30-39, kun >aineisto luokitellaan tasavälisesti: > > ikä frekvenssi > < 20 2 > 20-29 1 > 30-39 5 > 40-49 1 > 50 - 2 > >Hieman myöhemmin (6'15) tyyppiarvon esittelyyn olisi kyllä ollut oiva >tilaisuus, kun näytetään Etälukion opiskelijoita ikäryhmittäin, >jolloin frekvenssijakauma on > > ikä frekvenssi > <18 99 > 18-29 989 > 30-39 666 > 40-49 612 > 50-59 227 > 60> 53 > >Tosin tässä olisi joka tapauksessa ollut parempi käyttää >mahdollisimman >tasavälistä luokittelua, esim. <20, 20-29, 30-39, 40-49, jne. >jolloin nähtäisiin selkeämmin, että tyyppiarvo sijoittuu mitä >ilmeisimmin ikäluokkaan 20-29. Tässä olisi ollut erinomainen tilaisuus osoittaa, miten joku tunnusluku, tässä moodi on hyvä toisessa paikassa ja huono toisessa. Jos vielä olisi vaivauduttu ajattelemaan, että miten aineiston esitys vaikuttaa tunnuslukuihin, niin luokittelemalla aineistoa hieman uudestaan, nuoret < 20, nuoret aikuiset 20-29, aikuiset 30-50, keski-ikäiset 50 - ... jne olisi voitu todeta, että moodi onkin nyt aikuiset. Tällainen luokittelu saattaisi moniin tarkasteluihin olla käyttökelpoinen, ellei ole tarvis erotella aikuisen luokan eri päitä toisistaan. > >6'45: >Normaalijakauman merkitystä on tyydytty kuvaamaan sanoin >"Normaalijakauma on yleisesti tunnettu jatkuva jakauma ja sitä >käytetään >usein käytännön tilanteiden tilastollisena mallina. Normaalijakaumaa >noudattavat sellaiset satunnaismuuttujat, joiden arvoon vaikuttavat >useat tekijät." >Viittaukset ko. jakauman historiaan ja eräisiin muihin ominaisuuksiin >ovat aivan paikallaan, mutta tärkeämpää olisi kertoa hieman tarkemmin, > >miksi normaalijakauma sopii "käytännön tilanteisiin". > >Tässä siis olisi ehdottomasti paikallaan viittaus >todennäköisyyslasken- >nan keskeiseen raja-arvolauseeseen: Ko. lausehan sanoo, että hyvin >yleisin edellytyksin samasta jakaumasta saatujen, riippumattomien >havaintojen summa (ja keskiarvo) lähestyy jakaumaltaan >normaalijakaumaa, >kun havaintojen lukumäärä kasvaa ja usein tämä toteutuu melko hyvin jo >luokkaa 30 olevilla havaintomäärillä. > Asiaa olisi voitu havainnollistaa aivan triviaalilla tavalla, esimerkiksi ottaa kahden, kolmen ja neljän nopan summa ja todeta kuinka tasainen yhden nopan jakautuma kehittyy huipukkaaksi. Tämä olisi konkretisoinut asiaa varsin voimakkaasti. >> >8'40: >Vaikka graafiset esitykset ohjelmassa ovat visuaalisesti selkeitä, >normaalijakauman tiheysfunktio on aina piirretty väärin siten, että >käyrää ei ole jatkettu positiivisella eikä negatiivisella >puolella laidoille asti. Nyt vaikuttaa jopa siltä, että jos >jatkettaisiin, käyrä näyttäisi menevän x-akselin alapuolelle! >Perspektiivikuvana juontajan edessä esitys ehkä käy, mutta ei silloin, >kun kellokäyrä esitetään koordinaatistossa. > Normaalijakautuman perustavaa laatua oleva ominaisuus on sen jatkuminen äärettömään ja sen käyttö sellaisissa tapauksissa, joissa havainto- arvoilla on selkeä alaraja, esimerkiksi vaikkapa 0, kuten ikä, tai kirjoitusten pistemäärä on esimerkki matemaattisen mallin ja todellisuuden välisestä ristiriidasta. Olisi hyvä kertoa, että joskus tällainen ristiriita ei ole fataali, mutta joskus se on. >10'30: >Neuvolaesimerkin kasvukäyrät jne. ovat OK. > >14'40: >Esim.2 Pitkän matematiikan kirjoitukset (kev.2000) >Ei ole mitenkään todettu, että normaalijakaumaolettamus juuri >tässä aineistossa olisi voimassa. > >Useinhan esim. matemaattisten aineiden kokeissa tyypillistä >on jakauman kaksihuippuisuus eli kokelaat jakautuvat helposti >kahteen (joskus jopa useampaan) ryhmään eli "ne jotka osaavat" >ja "ne jotka eivät osaa", jolloin ollaan kaukana normaalisuudesta. >Tästä ei pidä päätellä, että koepisteitä pitäisi jotenkin väkisin >"normalisoida" tai koetehtäviä laatia siten, että tulosten jakauma >olisi kauniisti normaalijakauman mukainen. Tämä on varsin tärkeä huomautus, eivät kaikki maailman asiat ole normaalisti jakautuneita. > >Jos 5 prosentille kokelaista suodaan laudatur, voi pisterajan toki >määrätä suoraan empiirisen jakaumankin pohjalta ilman >normaalisuusolettamusta. Tämä on myös varsin oleellinen huomautus, ei aina ole pakko lähteä liikkeelle puhdasoppisista matemaattisista rakennelmista, vaan usein olisi syytä lähteä myös empiirisestä todellisuudesta. > >17'10:>Tämän jälkeen ohjelman uusin versio poikkeaakin keväällä nähdystä >ja minulle viime viikolla nauhalla toimitetusta siten, että >tavanomaisen t-testin esittely ja suoritus on korvattu asiantuntija- >haastattelulla, mikä on selvä parannus. Tosin kyseessä on >eräänlainen hätäratkaisu, sillä uusitussa versiossa po. kysymystä >pohdiskellaan kyllä järkevästi mutta vain periaatetasolla. Juontajan >esittämään kysymykseen ei tule koskaan uudistetussa versiossa >konkreettista vastausta, vaikka siinäkin kerrotaan yllämainitut >tunnusluvut, näytetään frekvenssijakaumat ja juontaja esittää >yllämainitun kysymyksen. > >Alkuperäisessä versiossa keskiarvojen vertailu suoritettiin >t-testillä, >mutta se esitettiin tavalla, joka jätti koko testaamisen ideankin >hämärän peittoon. Siinä esiintyi useita uusia käsitteitä ja >merkintöjä, >joita ei kunnolla perusteltu. Juontaja vain latoi kaavoja eteen ja >luki >niitä mekaanisesti selittämättä tuskin mitään. Mutta tämähän on >onneksi >nyt poistettu. > Tässä kohdassa leikkaaminen on ollut aika onnetonta. Vierailija joutuu kommentteineen aivan tyhjän päälle eikä asiaan perehtymät- tömällä kuulijoilla ole juuri mahdollisuutta ymmärtää mistä on kysymys, he kenties uskovat sen. Tilastollinen päätöksenteko olisi voitu pohjustaa melkein kaikille televisionkatsojille tutun amerik- kalaisen oikeudenkäyntiperiaatteen kanssa: Syytetty on syytön kunnes toisin todistetaan. Nollahypoteesi on siis että tekijällä ei ole vaikutusta tai eroja ei ole, ja jos tältä pohjalta käyty tarkastelu osoittautuu epäuskottavaksi, niin siten nollahypoteesi hylätään ja päädytään vaihtoehtoiseen hypoteesiin. Ilmiöön liittuyvä todennäköisyysjakautuma on nollahypoteesin vallitessa tunnettu, ja voidaan siten arvioida kuinka todennäköistä on, että syytetty on syytön, jos se on epätodennäköistä, niin silloin voidaan uskoa hänen olevan syyllinen. > .................................... > >Kuten edellä esitetystä näkyy, huomautettavaa on niin paljon, että >ohjelmaan tulisi edelleenkin tehdä melkoisia muutoksia. > Tilastotieteeseen voidaan tulla sekä matemaattisten lainalaisuuksien että empiiristen ilmiöiden kautta. Matemaatikot tulevat usein matemaattisten lainalaisuuksien kautta, eivätkä välttämättä kohtaa empiiristä todellisuutta. Kuitenkin olisi tärkeää havaita, että tilastotieteen tehtävä on todellisuuden kuvaaminen ja matemaatti- set rakenteet ovat vain työkaluja. - Lauri Tarkkonen
Vastaukset: |
---|
Survo-keskustelupalstan (2001-2013) viestit arkistoitiin aika ajoin sukrolla, joka automaattisesti rakensi viesteistä (yli 1600 kpl) HTML-muotoisen sivukokonaisuuden. Vuoden 2013 alusta Survo-keskustelua on jatkettu entistäkin aktiivisemmin osoitteessa forum.survo.fi. Tervetuloa mukaan!