[viesti Survo-keskustelupalstalla (2001-2013)]
Kirjoittaja: | Seppo Mustonen |
---|---|
Sähköposti: | - |
Päiväys: | 4.12.2002 9:28 |
TV1:n ns. Etälukiossa on lähetetty viime viikkoina matematiikan opetuksesta neljän ohjelman sarjaa uusintana lauantaisin klo 12.30-13. Tämä sarja tuli ulos jo viime keväänä ja satuin silloin näkemään sen viimeisen (4.) osan, joka on varustettu otsikolla "Tilastot". Vaikka ohjelma on teknisesti korkealaatuinen ja esitystapa sympaattinen, se on sisällöltään monin kohdin valitettavan puutteellinen. Koska Opetushallitus on osavastuussa tästä ohjelmasarjasta, otin silloin keväällä välittömästi yhteyttä henkilöön, joka on tuon instanssin puolesta ollut valvomassa ohjelman tekoa ja esitin hänelle huolestumiseni ohjelman tasosta. Tällä ei näyttänyt kuitenkaan olevan mitään vaikutusta, sillä ohjelman vastaavalta tuottajalta (YLE) kuulin viime viikolla, että sarja lähetetään nyt uusintana sellaisenaan. Pyysin tällöin käyttööni YLE:stä ko. jakson nauhalla ja olen katsonut sen uudelleen pariinkin kertaan. Arviointini ohjelmasta on tässä viestissä. Toivon, että ainakin ne, joita tilastotieteen opetuksen asema lukioissa kiinnostaa, katsoisivat ensi lauantain ohjelman (ja jopa nauhoittaisivat sen itselleen). Tällöin he voivat paremmin arvioida ohjelmaa ja seurata kritiikkiäni yksityiskohtaisesti. Lähetettyäni maanantaina (2.12) arviointini ohjelman tuottajalle sähköpostitse tiedustelin tiistaiaamuna (3.12) häneltä viestini perilletuloa. Yllättäen sain nyt kuulla, että ohjelmaan on sittenkin tehty eräitä muutoksia, joten kävin hakemassa välittömästi tuon uusimmankin version. Tilanne on nyt sellainen, että ensi lauantaina 7.12 klo 12.30 TV1 lähettää uudelleen tuon tilastotieteeseen liittyvän jakson muuten alkuperäisessä asussaan, mutta aivan ohjelman lopussa ollut t-testiä koskeva esimerkki on siitä poistettu ja korvattu asiantuntijahaastattelulla. --------------------------------- Ohjelman pääepäkohta on siinä, että ohjelmantekijät ovat toimineet "puhtaan matematiikan" arvomaailmasta käsin, tulkitsemalla ja laskemalla asioita mekaanisesti. He eivät oikein piittaa siitä, mikä on laskemisen tarkoitus ja mitä keinoa on kulloinkin mielekästä soveltaa. Tämä kuvastaa osittain ennalta tuttua monien matematiikan opettajien välinpitämätöntä ja joskus jopa halveksivaa suhtautumista "epäeksaktia" todennäköisyyslaskentaa ja varsinkin tilastotiedettä kohtaan. Tässä ohjelmassa ei kuitenkaan esiinny mitään tarkoitushakuista tilastotieteen mollaamista. Vaikka itsekin olen matemaatikko, olen kauan ollut sitä mieltä, että tilastollista ajattelua, ennen kaikkea tilastojen ja tilastokuvien tulkintaa tulisi opettaa kouluissa yläasteilla ja lukioissa yhteisenä ja yleisenä kansalaistaitona eikä pelkästään matematiikan tunneilla. Käyn nyt läpi tärkeimmät yksityiskohdat ja yritän selittää, mikä on mennyt pieleen ja myös ehdottaa, mitä voitaisiin panna tilalle. Kellotukset osoittavat, mitä kohtaa ohjelmassa käsittelen. 00'00 Etälukio 00'06 Matematiikka, Tilastot, osa 4. 00'26: Yritys "opettaa kansalle", ettei saisi puhua keskivertoilmaisuilla (esim. "keskiarvoihminen" pro "keskivertoihminen") on tarpeetonta ja tahattoman huvittavaa. Kun ohjelmassa sanotaan, että "matematiikassa määritellään" keskiverto tietyllä kaavalla (havaintoarvojen tulon n. juuri, kun havaintomäärä on n), se on nimellisesti totta joidenkin oppikirjojen mukaan. Termi "keskiverto" on kuitenkin käsitykseni mukaan puhtaasti suomalainen keksintö enkä tiedä, kuka oli se onneton, joka aikoinaan halusi omia tälle sanalle tuon erikoismerkityksen. Keskiverto on kielemme yleissanoja (kts. Nykysuomen sanakirja), eikä tätä tosiasiaa muuta juontajan toteamus: "Keskiverrolle on varattu jo tietty merkitys"! Keskivertoa vastaavaa sanaa ei liene esim. englannin- tai saksan- kielessä. Parempi ilmaisu on "geometrinen keskiarvo" (esim. englanniksi "geometric mean"), jota nykyisin myös suomenkielisissä oppikirjoissa käytetään. Geometrisen keskiarvon mielekäs käyttöalue rajoittuu eksponentiaalista kasvua tai vähenemistä (likimain) kuvaavien aineistojen tarkasteluun. Kun esim. aritmeettisessa jonossa 1 2 3 4 5 6 7 (aritmeettinen) keskiarvo 4 on "oikea keskiluku" niin vastaavasti geometrisesti kasvavassa jonossa 1 2 4 8 16 32 64 geometrinen keskiarvo 8 on "oikea keskiluku" (keskimmäinen). Aritmeettinen keskiarvo 127/7=18.14 kuvaa siinä tilannetta heikommin. "Geometrinen keskiarvo" juontanee sitäpaitsi juurensa geometriasta siten, että suorakulmaisessa kolmiossa ABC C kulma ACB siis suora /| \ / | \ / |h \ / | \ / | \ A-----D-------------------B x y korkeusjanan CD pituus h on (osakolmioiden yhdenmuotoisuuden ansiosta) sama kuin janojen x (AD) ja y (DB) pituuksien geometrinen keskiarvo, sillä verrannosta h:x=y:h seuraa välittömästi h=sqrt(x*y). Saattaapa olla, että tuo suomenkielessä kummitellut "keskiverto" on lähtöisin tältä "sylttytehtaalta", koska verrannollisuudestahan siinä on kysymys. Kun sitten ohjelmassa käsitellään keskilukuja, ei kiinnitetä mitään huomiota siihen, millä edellytyksillä kutakin niistä (keskiarvo, geometrinen keskiarvo, mediaani, moodi) sopii käyttää. Sen asemasta, että kulutetaan aikaa melkein 4 minuuttia tarpeettomaan "keskiarvo pro keskiverto"-pohdintaan, olisi tullut kiinnittää huomiota mittaamisen tasoon eli siihen, minkälaatuista tietoa aineistossa olevat luvut oikeastaan tarjoavat. Se, että jonkin ilmiön kuvaus on pystytty esittämään joukkona lukuja, ei vielä oikeuta ilman muuta tekemään mitä tahansa (tilastollisia) laskutoimituksia. Eri menettelyjen (tässä tapauksessa keskilukujen laskemiset) riippuvat olennaisesti mitta-asteikon tasosta seuraavasti: Asteikko Esimerkkejä Keskiluku --------------------------------------------------------------------- laatueroasteikko väri, sukupuoli tyyppiarvo eli moodi järjestysasteikko asennemittaus, moodi ja mediaani mineraalien kovuus intervalliasteikko lämpötila ja monet edelliset + keskiarvo muut fysikaaliset ilmiöt suhdeasteikko paino, ikä, lukumäärä edelliset + esim. eksponentiaalista kasvua kuvaavissa tilanteissa geometrinen keskiarvo Mitta-asteikkoja on sitäpaitsi kätevä luonnehtia jopa matemaattisesti kertomalla, miten yleisen muunnoksen y=f(x) mittaluku x sietää ilman, että kadotetaan informaatiota. Yleisimmät sallitut muunnokset ovat: Asteikko Sallitut muunnokset --------------------------------------------------------------------- laatuero f(x) on bijektio (siis kääntäen yksikäsitteinen) järjestys f(x) on monotonisesti kasvava funktio intervalli f(x)=ax+b (missä a>0 ja b ovat vakioita) suhde f(x)=ax (missä a>0) Pahimpia "unohduksia" ohjelmassa on se, ettei tilastollista vaihtelua kuvaavia mittalukuja, mm. keskihajontaa lainkaan esitellä; ei edes empiirisen keskihajonnan yksinkertaista kaavaa anneta. Hajontaluvuilla on toki yhtä tärkeä merkitys satunnaisilmiöiden kuvauksessa kuin keskiluvuillakin. Keskihajonta putkahtaa sanana esille vasta normaalijakauman kohdalla (9'10), mutta sitä ei silloinkaan mitenkään "selitetä" tai määritellä, vaikka jatkossa paljon käytetäänkin. 4'10: Tässä käsitellään pientä, 11 havainnon ikäaineistoa 18, 18, 25, 33, 35, 36, 37, 38, 40, 55, 55. Edellä esittämäni valossa mm. "keskiverron", siis geometrisen keskiarvon käyttö on tässä yhteydessä kyseenalaista. Mediaanin ja (aritmeettisen) keskiarvon käyttö on mahdollista. 5'23: Kun tarkastellaan kvantitatiivista aineistoa, tyyppiarvon laskeminen luokittelemattomassa tilanteessa on usein järjetöntä . Ohjelmassa väitetään, että aineistolla on kaksi tyyppiarvoa (18 ja 55), koska vain nuo arvot sattuvat esiintymään useammin kuin kerran ja siis kahdesti, mutta siinä ei ole mitään tolkkua. Tilastotiedettä ymmärtävän silmin aineistossa tyyppiarvona voidaan (jos on pakko) pitää esim. ikäluokkaa 30-39, kun aineisto luokitellaan tasavälisesti: ikä frekvenssi < 20 2 20-29 1 30-39 5 40-49 1 50 - 2 Hieman myöhemmin (6'15) tyyppiarvon esittelyyn olisi kyllä ollut oiva tilaisuus, kun näytetään Etälukion opiskelijoita ikäryhmittäin, jolloin frekvenssijakauma on ikä frekvenssi <18 99 18-29 989 30-39 666 40-49 612 50-59 227 60> 53 Tosin tässä olisi joka tapauksessa ollut parempi käyttää mahdollisimman tasavälistä luokittelua, esim. <20, 20-29, 30-39, 40-49, jne. jolloin nähtäisiin selkeämmin, että tyyppiarvo sijoittuu mitä ilmeisimmin ikäluokkaan 20-29. 6'45: Normaalijakauman merkitystä on tyydytty kuvaamaan sanoin "Normaalijakauma on yleisesti tunnettu jatkuva jakauma ja sitä käytetään usein käytännön tilanteiden tilastollisena mallina. Normaalijakaumaa noudattavat sellaiset satunnaismuuttujat, joiden arvoon vaikuttavat useat tekijät." Viittaukset ko. jakauman historiaan ja eräisiin muihin ominaisuuksiin ovat aivan paikallaan, mutta tärkeämpää olisi kertoa hieman tarkemmin, miksi normaalijakauma sopii "käytännön tilanteisiin". Tässä siis olisi ehdottomasti paikallaan viittaus todennäköisyyslasken- nan keskeiseen raja-arvolauseeseen: Ko. lausehan sanoo, että hyvin yleisin edellytyksin samasta jakaumasta saatujen, riippumattomien havaintojen summa (ja keskiarvo) lähestyy jakaumaltaan normaalijakaumaa, kun havaintojen lukumäärä kasvaa ja usein tämä toteutuu melko hyvin jo luokkaa 30 olevilla havaintomäärillä. Samalla olisi ollut tilaisuus (joidenkin arvostettujen historiallisten hahmojen kustannuksella) mainita suomalainen J.W.Lindeberg, jonka 1900-luvun alkupuolen saavutuksiin tämän tärkeän lauseen minimiehtojen etsijänä edelleenkin viitataan todennäköisyysteoreettisissa tutkimuksissa. 8'40: Vaikka graafiset esitykset ohjelmassa ovat visuaalisesti selkeitä, normaalijakauman tiheysfunktio on aina piirretty väärin siten, että käyrää ei ole jatkettu positiivisella eikä negatiivisella puolella laidoille asti. Nyt vaikuttaa jopa siltä, että jos jatkettaisiin, käyrä näyttäisi menevän x-akselin alapuolelle! Perspektiivikuvana juontajan edessä esitys ehkä käy, mutta ei silloin, kun kellokäyrä esitetään koordinaatistossa. 10'30: Neuvolaesimerkin kasvukäyrät jne. ovat OK. 14'40: Esim.2 Pitkän matematiikan kirjoitukset (kev.2000) Ei ole mitenkään todettu, että normaalijakaumaolettamus juuri tässä aineistossa olisi voimassa. Useinhan esim. matemaattisten aineiden kokeissa tyypillistä on jakauman kaksihuippuisuus eli kokelaat jakautuvat helposti kahteen (joskus jopa useampaan) ryhmään eli "ne jotka osaavat" ja "ne jotka eivät osaa", jolloin ollaan kaukana normaalisuudesta. Tästä ei pidä päätellä, että koepisteitä pitäisi jotenkin väkisin "normalisoida" tai koetehtäviä laatia siten, että tulosten jakauma olisi kauniisti normaalijakauman mukainen. Jos 5 prosentille kokelaista suodaan laudatur, voi pisterajan toki määrätä suoraan empiirisen jakaumankin pohjalta ilman normaalisuusolettamusta. 17'10: Esim.3 "pussituskone" on OK. 19'00: Esim.4 Keskiarvojen erot Tässä esitellään syksyn 2001 ylioppilaskirjoitusten matematiikan kokeen (lyhyt oppimäärä) puoltoäänten frekvenssijakaumat erikseen etälukiolaisten (43 kpl) ja muiden (5564 kpl) osalta. Etälukiolaisilla puoltoäänten keskiarvo oli 3.77 (keskihajonta 2.00) ja muilla taas vastaavasti 3.42 (2.06). Juontaja sanoo: "Tutkitaan, eroaako etäopiskelijoiden puoltoäänten keskiarvo kaikkien muiden keskiarvosta?" Tämän jälkeen ohjelman uusin versio poikkeaakin keväällä nähdystä ja minulle viime viikolla nauhalla toimitetusta siten, että tavanomaisen t-testin esittely ja suoritus on korvattu asiantuntija- haastattelulla, mikä on selvä parannus. Tosin kyseessä on eräänlainen hätäratkaisu, sillä uusitussa versiossa po. kysymystä pohdiskellaan kyllä järkevästi mutta vain periaatetasolla. Juontajan esittämään kysymykseen ei tule koskaan uudistetussa versiossa konkreettista vastausta, vaikka siinäkin kerrotaan yllämainitut tunnusluvut, näytetään frekvenssijakaumat ja juontaja esittää yllämainitun kysymyksen. Alkuperäisessä versiossa keskiarvojen vertailu suoritettiin t-testillä, mutta se esitettiin tavalla, joka jätti koko testaamisen ideankin hämärän peittoon. Siinä esiintyi useita uusia käsitteitä ja merkintöjä, joita ei kunnolla perusteltu. Juontaja vain latoi kaavoja eteen ja luki niitä mekaanisesti selittämättä tuskin mitään. Mutta tämähän on onneksi nyt poistettu. .................................... Kuten edellä esitetystä näkyy, huomautettavaa on niin paljon, että ohjelmaan tulisi edelleenkin tehdä melkoisia muutoksia. Mielestäni parempi ajatus olisi käyttää nuo muutosresurssit kokonaan uuden ohjelman tekoon, jossa toimittaisiin tilastollisen ajattelun eikä matematiikan nykyopetuksen ehdoilla. Uudistetussa versiossa loppuosa paikkaa hieman tätä epäkohtaa. Monia asioita voisi hyvin havainnollistaa tietokoneen avulla tehtävillä simulointikokeilla. Näin mm. näytettäisiin, miten keskeinen raja- arvolause toimii käytännössä. Samaten esim. viimeisenä ohjelmassa esitetty keskiarvojen vertailu olisi kyllä voitu viedä tulokseen ytimekkäästi ja ymmärrettävästi esim. seuraavasti: (Käytän tässä Survo-ohjelmiston keinoja; ohjelman ilmaisversio on kaikkien vapaasti käytettävissä.) Alla on suoraan Survon ns. toimituskenttään (tekstinkirjoitustilaan) kirjoitettua tekstiä: ....................................................................... Tarkastellaan kahta riippumatonta yhden muuttujan otosta, joiden koot ovat n1,n2, keskiarvot m1,m2 ja keskihajonnat s1,s2. Perusolettamus: Otokset ovat peräisin normaalijakaumista niin, että mahdollisesti odotusarvot my1 ja my2 poikkeavat toisistaan, mutta keskihajonnat ovat samat. Nollahypoteesi H0: my1 = my2 Vastahypoteesi H1: my1 < my2 tai my1 > my2 Tässä tilanteessa käytetään kaksisuuntaista t-testiä, joka perustuu otoskeskiarvojen m1 ja m2 erotuksen tarkasteluun, jolloin liian suuri |m1-m2| antaa aiheen epäillä H0:n paikkansapitävyyttä. Tarkalleen testisuureena on t=(m1-m2)/s/sqrt(1/n1+1/n2) missä s on yhdistetystä otoksesta laskettu keskihajonta s=sqrt(((n1-1)*s1^2+(n2-1)*s2^2)/(n1+n2-2)) . Jos H0 on voimassa, testisuure t noudattaa t-jakaumaa n1+n2-2 vapausasteella ja kaksisuuntaisen testin kriittinen taso on P=if(m1>m2)then(P1)else(P2) , missä P1=2*(1-t.F(n1+n2-2,t)) ja P2=2*t.F(n1+n2-2,t) . t.F(n,x) on t-jakauman kertymäfunktio, kun vapausasteita on n ja argumenttina x. Esimerkissä 4 otosten tunnusluvut ovat n1=43 m1=3.77 s1=2.00 n2=5564 m2=3.42 s2=2.06 ACCURACY=3 jolloin saadaan (suoraan aktivoimalla alla oleva P) P=0.267 eli todennäköisyys sille, että saataisiin itseisarvoltaan tässä esiintyneen suuruinen tai sitä pienempi keskiarvoero, on noin 0.27, mikä osoittaa ettei tämä ole mikään harvinainen tilanne. Niinpä H0 jää voimaan kaikilla järkevillä riskitasoilla. ....................................................................... Yllä voidaan lähtöarvoja n1,n2,m2,m2,s1,s2 vapaasti muutella ja aktivoida uudelleen P= joten koko tuo tarina vastaa täysin yleistä t-testiohjelmaa. Tarinaa voi tietenkin laajentaa kertomalla periaatteista ja teknisistä yksityiskohdista tarkemmin. Huomattakoon, että tarinan takana ei ole mitään erillistä testi- ohjelmaa, vaan kysyttäessä P:tä (siis aktivoitaessa hiirellä tuossa tekstissä P= ) Survo pystyy tekstin seasta "lukemaan" alkuarvot sekä samoin lukemaan tarvittavat kaavat ja laskemaan niiden avulla kysytyn tuloksen. Tarina on helposti kopioitavissa toisille, jotka haluavat tehdä vastaavia laskelmia. Sama tehtävä voidaan Survossa toteuttaa vielä yksinkertaisemmin, kun käytettävissä on alkuperäiset aineistot. Tässä tapauksessa saatoin konstruoida ohjelmassa esitettyjen frekvenssitaulukkojen pohjalta "alkuperäiset" 43 ja 5564 havainnon puoltoääniaineistot, joille annoin nimet MAT_ETA ja MAT_MUUT ja tarkastellulle puoltoääni-muuttujalle nimen Pisteet. Nyt koko testin voi suorittaa antamalla Survossa komennon /VERTAA MAT_ETA(Pisteet),MAT_MUUT(Pisteet) ja vastaamalla tällä komennolla käynnistyvän Survon VERTAA- ohjelman esittämään, muutamaan perusoletuksia koskevaan kysymykseen. Tämän jälkeen toimituskenttään ilmaantuu seuraavanlainen vastaus: ....................................................................... Olettamukset: Otokset MAT_ETA(Pisteet) ja MAT_MUUT(Pisteet) ovat riippumattomia. Mittaukset intervalliasteikollisia. Kumpikin otos normaalijakaumasta. Nollahypoteesi: Kummankin otoksen havainnot saatu samasta jakaumasta. Vastahypoteesi: Havainnot saatu eri jakaumista (2-suuntainen testi). - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - COMPARE MAT_ETA(Pisteet),MAT_MUUT(Pisteet),CUR+1 / SIMUMAX=0 Riippumattomat otokset MAT_ETA(Pisteet) MAT_MUUT(Pisteet) Otoskoko 43 5564 Keskiarvo 3.767442 3.420561 Hajonta 2.021753 2.056364 t-testi: t=1.102 df=5605 (P=0.8648 1-suuntainen testi) Järjestyslukusumma (R) 133152 15588876 Mann-Whitney-testi (U) 132206 107046 (P=0.8829 1-suuntainen testi, normaalijakauma-approksimaatio) - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Päätelmät: Johtopäätökset perustuvat t-testiin. Kaksisuuntaisen testin kriittinen taso on 0.2704 . Hypoteesi "Otokset samasta jakaumasta" jää voimaan. ....................................................................... Siis kaikki ylläoleva on suoraa Survon VERTAA-ohjelman tulostusta. Ohjelma jopa "tulkitsee" sanallisesti sekä olettamukset että päätelmät. Lukiotasolla lienee aika mahdotonta johtaa niitä teoreettisia tuloksia, joita tarvitaan t-testin perustelemiseksi (otoskeskiarvon ja varianssin riippumattomuus, t-jakauma). Olisi joka tavalla yksinkertaisempaa tyytyä epäparametrisiin tai vielä paremmin satunnaistettuihin testeihin, joita esim. Survon VERTAA käyttää silloin, kun ei voida olettaa normaalisuutta tai kun otoskoot ovat pieniä. Tullaan siis toimeen t-testiin verrattuna myös paljon väljemmin perusoletuksin. Tästä on esimerkkejä mm. Survon suomenkielisessä opetussarjassa. Satunnaistetun testin idean ja toimivuuden pystyy kuvaamaan varsin vähin esitiedoin, kuten voi nähdä katsomalla Survon opetusohjelmia. Olen pahoillani, että nämä keskiarvotestin vaihtoehtoiset suoritustavat vievät tässä "paperilla" paljon tilaa; ne pääsevät paremmin oikeuksiinsa "luonnossa" eli katsottuna tietokoneen näytöltä. .................................... Korostaisin lopuksi sitä, että nykytekniikan ja sopivien tilasto- ohjelmien ansiosta tilastotiede on muuttumassa laboratorioaineeksi fysiikan ja kemian tapaan. On mahdollista ja joskus välttämätöntäkin tehdä laskennallisia kokeita teoreettisten tarkastelujen tueksi ja ymmärtämiseksi. Tämäntapainen kokeellinen tilastollinen tutkimus onkin luonteeltaan hyvin mielenkiintoista "salapoliisityötä". Uskon siis vakaasti, että Etälukioonkin olisi mahdollista tehdä ohjelma, joka on tämänhetkistä virheettömämpi, monipuolisempi, kiinnostavampi ja ennen muuta tekee paremmin oikeutta tilastolliselle ajattelulle. Seppo Mustonen
Vastaukset: |
---|
Survo-keskustelupalstan (2001-2013) viestit arkistoitiin aika ajoin sukrolla, joka automaattisesti rakensi viesteistä (yli 1600 kpl) HTML-muotoisen sivukokonaisuuden. Vuoden 2013 alusta Survo-keskustelua on jatkettu entistäkin aktiivisemmin osoitteessa forum.survo.fi. Tervetuloa mukaan!