[viesti Survo-keskustelupalstalla (2001-2013)]
Kirjoittaja: | Seppo Mustonen |
---|---|
Sähköposti: | - |
Päiväys: | 15.11.2005 14:14 |
Aloitan listaamalla kaksi yhden muuttujan aineistoa: DATA X: 3 6 7 9 12 14 15 18 21 24 27 28 30 33 35 END (15 havaintoa) DATA Y: 2.45 2.89 2.90 3.34 3.37 3.54 3.69 3.79 4.22 4.68 4.68 4.83 4.85 4.89 5.07 5.40 5.72 5.78 5.98 6.01 6.02 6.24 6.47 6.74 7.09 7.09 7.12 7.14 7.35 7.80 8.02 8.20 8.20 8.24 8.25 8.77 9.14 9.32 9.36 9.36 9.61 10.11 10.23 10.25 10.45 10.72 10.78 10.93 10.94 11.45 11.55 11.78 12.32 12.49 12.93 12.94 13.05 13.05 13.38 13.38 13.40 14.17 14.27 14.27 14.49 14.51 15.14 15.16 15.39 15.61 15.65 15.66 15.68 15.83 16.05 16.05 16.30 16.30 17.16 17.18 17.38 17.39 17.52 17.86 17.87 18.26 18.51 18.53 18.86 18.87 18.95 19.19 19.39 19.41 19.62 19.62 20.07 20.52 20.55 20.73 20.97 21.18 21.41 21.42 21.65 21.85 21.85 21.91 22.91 22.93 23.13 23.13 23.13 23.27 23.50 23.58 23.59 23.60 24.59 24.61 25.61 25.95 26.11 26.27 26.48 26.86 26.87 26.97 27.97 27.99 28.30 28.36 28.70 28.97 28.98 30.66 32.01 32.45 32.46 32.69 32.69 32.83 33.56 33.57 35.43 35.44 36.53 36.55 36.56 36.94 END (150 havaintoa) Ennenkuin luet eteenpäin, pysähdy hetkeksi miettimään, huomaatko mitään erityistä. Voit halutessasi siirtää datat omaan Survoosi ja kokeilla erilaisia esitys- ja analysointitapoja. Ensimmäisen aineiston (X) rakenne on helppo hahmottaa pelkästään katselemalla. Toinen (Y) on hankalampi (ellen sanoisi mahdoton) ilman tarkempaa analysointia. Z (mietiskelytauko) Z Z Z Z Z Z Z Z Z Z Z Z Z Z Z Z Z Z Z Z Z Z Z Ei liene vaikea keksiä, että ensimmäinen aineisto koostuu yksinkertai- sesti kokonaisluvuista, jotka ovat jaollisia joko luvulla 3 tai 7 tai molemmilla ja nämä luvut on pantuna suuruusjärjestykseen. Lukujono jatkuisi siis luvuilla 36,39,42,45,48,49,... Sanon tässä yhteydessä lukuja q1=3 ja q2=7 aineiston X kvanteiksi. Myös toiseeen aineistoon on piilotettuna vastaavia ominaisuuksia, mutta ne on huomattavasti vaikeampi paljastaa mm. pyöristysten ja satunnaisvirheiden vuoksi. Jari Pakkanen piti 8.11.2005 (siis viime viikolla) Helsingin yliopiston taidehistorian laitoksella mielenkiintoisen vierailuluennon, jossa hän käsitteli klassisten temppelien rakenteiden modulaarisia tulkintoja. Jari toimii nykyisin Lontoon yliopistossa ja hän on ollut pitkään taitava ja ahkera Survon käyttäjä. Olen seurannut hänen tutkimustyötään ja mm. esitarkastanut hänen väitöskirjaansa. Jarin ja häntä ennen lukuisten antiikin tutkijoiden eräänä mielenkiinnon kohteena on, perustuvatko tietyn temppelin mittasuhteet (pylväiden korkeus ja leveys jne.) määrättyyn mittayksikköön, esim. johonkin luokkaa 30 cm olevaan jalkamittaan. Jari on ilmeisesti ensimmäisenä osannut soveltaa kunnon tilastollista analyysia tällaisissa tarkasteluissa ja hän on viimeaikaisilla tutkimuksillaan esittänyt kritiikkiä "moderneja modulaarisia lukutapoja" vastaan. Viimeisissä töissään Jari soveltaa tunnetun englantilaisen tilasto- matemaatikon D.G.Kendallin vuonna 1974 esittämää "cosine quantogram" - analyysia. Kendall on julkaissut menetelmänsä kirjoituksessaan "Hunting quanta" (Royal Society of London. Mathematical and Physical Sciences A 276, 231-266). Kendallin kiinnostus liittyi mahdolliseen perusmittaan Britannian muinaisissa megaliittisissa ympyröissä. Palaan Kendallin menetelmään myöhemmin. Jarin esitystä seuratessani tuli mieleeni, että perusmitan (kvantin) etsintää voisi harrastaa suoraan (rajoitetulla) pienimmän neliösumman keinolla ja sitä kokeillakseni tein Survoon QUANTA-ohjelman, joka antaa aineistolle X seuraavat tulokset: DATA X: 3 6 7 9 12 14 15 18 21 24 27 28 30 33 35 END RANGE=2(0.1)8 / kvanttien sallittu vaihteluväli Q_MIN=2 / kvantin pienin sallittu arvo QUANTA X,X,2,CUR+1 / parametrit: aineisto, muuttuja, kvanttien lkm jne. Data: X Variable: X N=15 ss=0 quant # matches 1 3.000000 11 2 3.500000 4 Yllä QUANTA-komento on aktivoitu ja sen tuottamat tulokset näkyvät komennon alla. Toimintaa ohjaa kvanttien vaihteluväli (RANGE) ja pienin hyväksyttävä arvo (Q_MIN). Jälkimmäinen on aina tarpeen, sillä valitsemalla kvantti kyllin pieneksi (esim. tässä ykköseksi), jako menee tasan jokaisella arvolla ja se kertoisi vain kaikkien havaintojen olevan kokonaislukuja. Tulostuksista näkyy, että toiseksi kvantiksi on saatu seitsikon asemasta sen puolikas 3.5, mikä on hyväksyttävää, sillä kvantiksi kelpaa aina murto-osakin, kunhan se on vain alarajan Q_MIN=2 yläpuolella. QUANTA on samalla luokitellut havainnot kvanttien mukaisesti, jolloin kvanttiin 3 liittyy 11 havaintoa (kolmella jaolliset) ja kvanttiin 3.5 sillä tai seitsemällä jaolliset, 4 kpl. Luku 21=3*7 on mennyt kolmoskvantin kastiin. QUANTA käyttää oletusarvoisesti rajoitettua pienimmän neliösumman menetelmää. Kahden kvantin tapauksessa se etsii sallitulta vaihteluväliltä ne luvut q1 ja q2, jotka aineistossa x_1, x_2,..., x_n minimoivat summan n ss(q1,q2) = SUM min[g(x_i,q1)^2,g(x_i,q2)^2] i=1 missä funktio g(x,q) tarkoittaa itseisarvoltaan pienintä mahdollista jakojäännöstä, kun luku x jaetaan luvulla q. Siis esim. g(9,3)=0, g(7,3)=1, g(35,3)=-1. Koska joko g(x,3)=0 tai g(x,3.5)=0 kaikilla X-aineiston luvuilla x, on ss(3,3.5)=0 eli summa saa kvanteilla 3 ja 3.5 pienimmän mahdollisimman arvonsa 0, mikä on ihannetilanne. QUANTA ilmoittaa summan minimiarvon toisella tulostusrivillä (ss=0). Tässä tapauksessa ratkaisun huomaa suoraankin ilman laskemisia. Koska yleisesti "kaikki ei mene tasan", QUANTA joutuu hakemaan ratkaisua numeerisen optimoinnin kautta. Tehtävää vaikeuttaa kohdefunktion hieman Saharaa muistuttava pinnanmuodostus, joka on täynnä toisistaan erillään olevia "hiekkakuoppia". Niistä syvimmän löytäminen voi olla vaikeaa, sillä kun joutuu yhteen kuoppaan, niin sieltä on vaikea kavuta ylös nähdäkseen kunnolla ympärilleen. Syvimmän kuopan löytämiseksi QUANTA käyttää kaikkia RANGE-täsmennyksen tarjoamia kvanttiyhdistelmiä lähtöarvoina. Kun tässä esimerkissä oli RANGE=2(0.1)8 eli vaihteluväli 2:sta 8:aan välein 0.1, mahdollisia lähtöarvoja on 1+(8-2)/0.1=61 kappaletta ja lähtöarvopareja peräti 61*60/2=1830. Tässä tapauksessa pari (3,3.5) on suoraan ratkaisu, mutta QUANTA ei "usko tätä" vaan etsii kustakin lähtöarvoyhdistelmästä lähtien funktion ss() minimiä Powellin konjugattigradienttimenetelmällä. Se lienee tämäntapaisissa ongelmissa suhteellisen tehokas keino. Koneet ovat onneksi nykyisin niin nopeita, että turhalta tuntuvaa työtäkin saattaa sietää. Aikaa kuluu koneellani alle 0.3 sekuntia. Jos tyytyy yhteen kvanttiin, QUANTA kertoo seuraavaa .......................... RANGE=2(0.1)8 Q_MIN=2 QUANTA X,X,1,CUR+1 Data: X Variable: X N=15 ss=3.95263 quant # matches 1 2.992105 15 .......................... eli yrittää tarjota hieman epätarkkaa kolmosta. Jäännösneliösumma ss=3.95263 osoittaa selvästi, ettei yksi kvantti riitä. Voi kokeilla jopa kolmellakin kvantilla seuraavasti .......................... RANGE=2(0.1)5 Q_MIN=2 QUANTA X,X,3,CUR+1 Data: X Variable: X N=15 ss=0 quant # matches 1 3.000000 11 2 3.181818 1 3 2.333333 3 .......................... jolloin kvanteiksi saadaan tarkalleen ottaen 3, 35/11 ja 7/3 eli keskimmäinen kvantti on pantu huolehtimaan havaintoarvosta 35. Tämä johtuu hakutavasta, joka suosii alarajasta Q_MIN huolimatta mahdollisimman pieniä kvantteja. Kendallin menetelmä on aivan toisenlainen. Se perustuu aineistossa x_1, x_2,..., x_n muotoa n phi(q) = sqrt(2/n)* SUM cos(2*pi*eps(i)/q) i=1 olevaan summaan, missä eps(i) on jakojäännös, kun X jaetaan q:lla ja tällöin 0<=eps(i)<q. Tätä summaa tai sen graafista kuvaajaa tarkastellaan kvanttimuuttujan q eri arvoilla. Summa phi(q) saa suurimmat arvonsa potentiaalisten kvanttien q kohdalla. Olen liittänyt phi(q)-funktion laskennan optiona METHOD=Kendall QUANTA-ohjelmaan. Aineistolla X saadaan tällöin seuraavaa tulostusta: .......................... RANGE=2(0.001)5 METHOD=Kendall SCORE_MIN=1 QUANTA X,X,0,CUR+1 / 3. parametrilla ei ole nyt merkitystä. Data: X Variable: X N=15 GPLOT COSQUANT,quant,score / LINE=1 MODE=SVGA Plot the quantogram! Peaks of Kendall's Cosine Quantogram: quant score 2.3350 1.5076 2.9950 3.2941 3.4640 1.0264 .......................... Nyt RANGE-täsmennys kertoo, millä q-arvoilla funktio phi(q) lasketaan. Funktion arvot (score) talletetaan omaksi Survo-tiedostoksi COSQUANT ja sen piirtoa varten QUANTA tulostaa valmiin GPLOT-kaavion. Numeeriset "piikit", jotka ylittävät täsmennyksen SCORE_MIN antaman arvon (tässä 1), luetellaan tulostuksen päätteeksi. Tulokset eivät ole aivan tarkkoja, sillä kvantit hieman häiritsevät toisiaan Esim. 2.9950 vastaa kolmosta. Aikaisemmassa rajoitetussa pns-menetelmässä havainnot ryhmittyvät omille kvanteilleen, jolloin vastaavaa häirintää ei esiinny. * * * Laajempi 150 havainnon aineisto Y on luotu seuraavasti: .......................... s=2006 p=rand(s) k=10+int(90*rand(s)) q1=0.223 q2=0.337 q3=0.373 eps=0.01*N.G(0,1,rand(s)) p=rand(s) Y1=round(k*q1+eps,2) Y2=round(k*q2+eps,2) Y3=round(k*q3+eps,2) Y=if(p<1/3)then(Y1)else(if(p<2/3)then(Y2)else(Y3)) VAR Y TO QUANTA .......................... Siinä on siis 3 kvanttia q1=0.223, q2=0.337, q3=0.373 ja havaintoarvot ovat niiden satunnaisia (ainakin 10-kertaisia) monikertoja rasitettuna pienellä satunnaisvirheellä ja pyöristyksellä 2 desimaaliin. Kutakin tyyppiä on noin kolmasosa aineistosta. Havaintoarvot on lopuksi (erillisellä FILE SORT:illa) asetettu suuruusjärjestykseen tiedostoon QUANTAS. Pienimmän neliösumman menetelmä antaa seuraavat tulokset: .......................... Yksi kvantti: RANGE=0.2(0.01)0.5 Q_MIN=0.2 QUANTA QUANTAS,Y,1,CUR+1 Data: QUANTAS Variable: Y N=150 ss=0.321973 quant # matches 1 0.222771 150 .......................... 2 kvanttia: RANGE=0.2(0.01)0.5 Q_MIN=0.2 QUANTA QUANTAS,Y,2,CUR+1 Data: QUANTAS Variable: Y N=150 ss=0.114389 quant # matches 1 0.373013 52 2 0.222875 98 .......................... 3 kvanttia: RANGE=0.2(0.01)0.5 Q_MIN=0.2 QUANTA QUANTAS,Y,3,CUR+1 Data: QUANTAS Variable: Y N=150 ss=0.0144519 quant # matches 1 0.336966 40 2 0.373001 44 3 0.222986 66 .......................... Nähdään, että neliösumma tulee ratkaisevasti pienemmäksi 3 kvantilla edellisiin verrattuna ja kvanttien estimoidut arvot ovan sangen lähellä "oikeita". Myös 1 ja 2 kvantin ratkaisut tulevat omalla tavallaan lähelle totuutta; tekevät minkä voivat. Jos yrittää peräti 4 kvantilla, pienin (0.223) "separoituu" kahdeksi lähekkäiseksi arvoksi (0.223030 ja 0.222642) ja neliösumma putoaa arvoon 0.0102 eli melko vähän. Tulokset puhuvat siis selvästi 3 kvantin ratkaisun puolesta. Mainittakoon vielä, että haluttaessa QUANTA laskee täsmennyksellä RES=<muuttuja1>,<muuttuja2> kaksi lisämuuttujaa, jotka ilmaisevat, kvanttiin kukin havainto kuuluu ja kuinka suuri on havainnon poikkeama ao. kvantin lähimmästä monikerrasta. Muuttamatta Y-aineiston yleisiä tilastollisia ominaisuuksia jokaiseen havaintoon voidaan lisätä normaalisti jakautunut satunnaiskomponentti, jonka keskihajonta on 0.5 ja pyöristää havaintoarvot jälleen kahteen desimaaliin. Tein tästä 1000-kertaisen toistokokeen etsimällä QUANTA:lla jokaisesta näin muunnetusta 150 havainnon aineistosta kolmea kvanttia. Minimineliösumman ss vaihteluväli oli (0.064,0.101), keskiarvo 0.0875, keskihajonta 0.0055 ja mediaani 0.0881 eli kvanttirakenne oli kaikissa tapauksissa selvästi rikkoutunut, koska alkuperäisen aineiston vastaava neliösumma 0.014 on erittäin selvästi vaihteluvälin alapuolella. Tämä lienee yleisestikin sopiva tapa testata valitun "kvanttihypoteesin" pätevyyttä aineistokohtaisesti. Kendallin menetelmällä Y-aineistosta saadaan seuraavaa: .......................... RANGE=0.2(0.0001)0.5 METHOD=Kendall SCORE_MIN=2.5 QUANTA QUANTAS,Y,0,CUR+1 Data: QUANTAS Variable: Y N=150 GPLOT COSQUANT,quant,score / LINE=1 MODE=SVGA Plot the quantogram! Peaks of Kendall's Cosine Quantogram: quant score 0.2205 2.7026 0.2228 7.5266 0.2731 2.6665 0.2853 2.7129 0.3370 2.5770 0.3414 2.5580 0.3727 4.1799 0.4202 3.0656 .......................... Kvantit 0.223 (score=7.5) ja 0.373 (score=4.2) löytyvät kärjestä, mutta kolmas kvantti 0.337 vasta 7. sijalta (score=2.6). Tämä viittaisi siihen, ettei Kendallin menetelmä ilmeisesti toimi kunnolla useampien kvanttien tapauksessa; eihän se alunperin sellaiseen ole tarkoitettukaan. * * * Näiden alustavien kokeiden perusteella näyttää siltä, että rajoitettu pienimmän neliösumman menetelmä toimii paremmin kuin Kendallin menetelmä. Arkeologisissa ja muissa vastaavissa aineistoissa kvantteja lienee todellisuudessa aina vain yksi. Arvelisin kuitenkin, että niissäkin kannattaa käyttää pns-menetelmää useammalla kvantilla, jolloin peruskvanttiin sopimattomille mittauksille saadaan eräänlaisia kaatopaikkoja ja se oikea kvantti - mikäli sellaista lainkaan esiintyy - tulee puhtaammin esiin. Olen mm. hakusanoilla "quanta" ja "Kendall" etsinyt verkosta, onko viime aikoina po. aiheesta ilmaantunut uutta tietoa. Haku ei ole toistaiseksi tuottanut mainitsemisen arvoisia tuloksia. Vaikka QUANTA-ohjelma kohdistuu vain hyvin erikoisten aineistojen käsittelyyn, tulen liittämään sen SURVO MM:ään versiosta 2.35 lähtien. Olen valmis toimittamaan QUANTA:n myös niille vanhempien versioiden käyttäjille, jotka haluavat tehdä omia kokeilujaan. Olisi mukava kuulla, löytyykö "kvanttien metsästykselle" uusia kohteita. Seppo Mustonen
Vastaukset: |
---|
Survo-keskustelupalstan (2001-2013) viestit arkistoitiin aika ajoin sukrolla, joka automaattisesti rakensi viesteistä (yli 1600 kpl) HTML-muotoisen sivukokonaisuuden. Vuoden 2013 alusta Survo-keskustelua on jatkettu entistäkin aktiivisemmin osoitteessa forum.survo.fi. Tervetuloa mukaan!