Kvantteja metsästämässä

[viesti Survo-keskustelupalstalla (2001-2013)]

Kirjoittaja: Seppo Mustonen
Sähköposti:    -
Päiväys: 15.11.2005 14:14

Aloitan listaamalla kaksi yhden muuttujan aineistoa:

DATA X: 3 6 7 9 12 14 15 18 21 24 27 28 30 33 35 END
(15 havaintoa)

DATA Y: 2.45 2.89 2.90 3.34 3.37 3.54 3.69 3.79 4.22 4.68 4.68 4.83
4.85 4.89 5.07 5.40 5.72 5.78 5.98 6.01 6.02 6.24 6.47 6.74 7.09 7.09
7.12 7.14 7.35 7.80 8.02 8.20 8.20 8.24 8.25 8.77 9.14 9.32 9.36 9.36
9.61 10.11 10.23 10.25 10.45 10.72 10.78 10.93 10.94 11.45 11.55 11.78
12.32 12.49 12.93 12.94 13.05 13.05 13.38 13.38 13.40 14.17 14.27 14.27
14.49 14.51 15.14 15.16 15.39 15.61 15.65 15.66 15.68 15.83 16.05 16.05
16.30 16.30 17.16 17.18 17.38 17.39 17.52 17.86 17.87 18.26 18.51 18.53
18.86 18.87 18.95 19.19 19.39 19.41 19.62 19.62 20.07 20.52 20.55 20.73
20.97 21.18 21.41 21.42 21.65 21.85 21.85 21.91 22.91 22.93 23.13 23.13
23.13 23.27 23.50 23.58 23.59 23.60 24.59 24.61 25.61 25.95 26.11 26.27
26.48 26.86 26.87 26.97 27.97 27.99 28.30 28.36 28.70 28.97 28.98 30.66
32.01 32.45 32.46 32.69 32.69 32.83 33.56 33.57 35.43 35.44 36.53 36.55
36.56 36.94 END
(150 havaintoa)

Ennenkuin luet eteenpäin, pysähdy hetkeksi miettimään, huomaatko
mitään erityistä. Voit halutessasi siirtää datat omaan Survoosi ja
kokeilla erilaisia esitys- ja analysointitapoja.
Ensimmäisen aineiston (X) rakenne on helppo hahmottaa pelkästään
katselemalla. Toinen (Y) on hankalampi (ellen sanoisi mahdoton)
ilman tarkempaa analysointia.

Z   (mietiskelytauko)
 Z
  Z
   Z
    Z
     Z
      Z
       Z
        Z
         Z
          Z
           Z
            Z
             Z
              Z
               Z
                Z
                 Z
                  Z
                   Z
                    Z
                     Z
                      Z
                       Z
Ei liene vaikea keksiä, että ensimmäinen aineisto koostuu yksinkertai-
sesti kokonaisluvuista, jotka ovat jaollisia joko luvulla 3 tai 7 tai
molemmilla ja nämä luvut on pantuna suuruusjärjestykseen. Lukujono
jatkuisi siis luvuilla 36,39,42,45,48,49,...
Sanon tässä yhteydessä lukuja q1=3 ja q2=7 aineiston X kvanteiksi.

Myös toiseeen aineistoon on piilotettuna vastaavia ominaisuuksia,
mutta ne on huomattavasti vaikeampi paljastaa mm. pyöristysten ja
satunnaisvirheiden vuoksi.

Jari Pakkanen piti 8.11.2005 (siis viime viikolla) Helsingin yliopiston
taidehistorian laitoksella mielenkiintoisen vierailuluennon, jossa
hän käsitteli klassisten temppelien rakenteiden modulaarisia tulkintoja.
Jari toimii nykyisin Lontoon yliopistossa ja hän on ollut pitkään
taitava ja ahkera Survon käyttäjä. Olen seurannut hänen tutkimustyötään
ja mm. esitarkastanut hänen väitöskirjaansa.

Jarin ja häntä ennen lukuisten antiikin tutkijoiden eräänä mielenkiinnon
kohteena on, perustuvatko tietyn temppelin mittasuhteet (pylväiden
korkeus ja leveys jne.) määrättyyn mittayksikköön, esim. johonkin
luokkaa 30 cm olevaan jalkamittaan. Jari on ilmeisesti ensimmäisenä
osannut soveltaa kunnon tilastollista analyysia tällaisissa
tarkasteluissa ja hän on viimeaikaisilla tutkimuksillaan esittänyt
kritiikkiä "moderneja modulaarisia lukutapoja" vastaan.

Viimeisissä töissään Jari soveltaa tunnetun englantilaisen tilasto-
matemaatikon D.G.Kendallin vuonna 1974 esittämää "cosine quantogram" -
analyysia. Kendall on julkaissut menetelmänsä kirjoituksessaan
"Hunting quanta" (Royal Society of London. Mathematical and Physical
Sciences A 276, 231-266). Kendallin kiinnostus liittyi mahdolliseen
perusmittaan Britannian muinaisissa megaliittisissa ympyröissä.

Palaan Kendallin menetelmään myöhemmin. Jarin esitystä seuratessani
tuli mieleeni, että perusmitan (kvantin) etsintää voisi harrastaa
suoraan (rajoitetulla) pienimmän neliösumman keinolla ja sitä
kokeillakseni tein Survoon QUANTA-ohjelman, joka antaa aineistolle
X seuraavat tulokset:

DATA X: 3 6 7 9 12 14 15 18 21 24 27 28 30 33 35 END

RANGE=2(0.1)8       / kvanttien sallittu vaihteluväli
Q_MIN=2             / kvantin pienin sallittu arvo
QUANTA X,X,2,CUR+1  / parametrit: aineisto, muuttuja, kvanttien lkm jne.
Data: X Variable: X  N=15
ss=0
     quant       # matches
 1   3.000000        11
 2   3.500000         4

Yllä QUANTA-komento on aktivoitu ja sen tuottamat tulokset näkyvät
komennon alla. Toimintaa ohjaa kvanttien vaihteluväli (RANGE)
ja pienin hyväksyttävä arvo (Q_MIN). Jälkimmäinen on aina tarpeen,
sillä valitsemalla kvantti kyllin pieneksi (esim. tässä ykköseksi), jako
menee tasan jokaisella arvolla ja se kertoisi vain kaikkien havaintojen
olevan kokonaislukuja.
Tulostuksista näkyy, että toiseksi kvantiksi on saatu seitsikon
asemasta sen puolikas 3.5, mikä on hyväksyttävää, sillä kvantiksi
kelpaa aina murto-osakin, kunhan se on vain alarajan Q_MIN=2
yläpuolella.
QUANTA on samalla luokitellut havainnot kvanttien mukaisesti, jolloin
kvanttiin 3 liittyy 11 havaintoa (kolmella jaolliset) ja kvanttiin
3.5 sillä tai seitsemällä jaolliset, 4 kpl. Luku 21=3*7 on mennyt
kolmoskvantin kastiin.

QUANTA käyttää oletusarvoisesti rajoitettua pienimmän neliösumman
menetelmää. Kahden kvantin tapauksessa se etsii sallitulta
vaihteluväliltä ne luvut q1 ja q2, jotka aineistossa x_1, x_2,..., x_n
minimoivat summan
             n
ss(q1,q2) = SUM  min[g(x_i,q1)^2,g(x_i,q2)^2]
            i=1

missä funktio g(x,q) tarkoittaa itseisarvoltaan pienintä mahdollista
jakojäännöstä, kun luku x jaetaan luvulla q.
Siis esim. g(9,3)=0, g(7,3)=1, g(35,3)=-1.
Koska joko g(x,3)=0 tai g(x,3.5)=0 kaikilla X-aineiston luvuilla x, on
ss(3,3.5)=0 eli summa saa kvanteilla 3 ja 3.5 pienimmän mahdollisimman
arvonsa 0, mikä on ihannetilanne. QUANTA ilmoittaa summan minimiarvon
toisella tulostusrivillä (ss=0).

Tässä tapauksessa ratkaisun huomaa suoraankin ilman laskemisia.
Koska yleisesti "kaikki ei mene tasan", QUANTA joutuu hakemaan ratkaisua
numeerisen optimoinnin kautta. Tehtävää vaikeuttaa kohdefunktion
hieman Saharaa muistuttava pinnanmuodostus, joka on täynnä toisistaan
erillään olevia "hiekkakuoppia". Niistä syvimmän löytäminen voi olla
vaikeaa, sillä kun joutuu yhteen kuoppaan, niin sieltä on vaikea
kavuta ylös nähdäkseen kunnolla ympärilleen.
Syvimmän kuopan löytämiseksi QUANTA käyttää kaikkia RANGE-täsmennyksen
tarjoamia kvanttiyhdistelmiä lähtöarvoina.
Kun tässä esimerkissä oli RANGE=2(0.1)8 eli vaihteluväli 2:sta 8:aan
välein 0.1, mahdollisia lähtöarvoja on 1+(8-2)/0.1=61 kappaletta
ja lähtöarvopareja peräti 61*60/2=1830. Tässä tapauksessa pari
(3,3.5) on suoraan ratkaisu, mutta QUANTA ei "usko tätä" vaan etsii
kustakin lähtöarvoyhdistelmästä lähtien funktion ss() minimiä
Powellin konjugattigradienttimenetelmällä. Se lienee tämäntapaisissa
ongelmissa suhteellisen tehokas keino.
Koneet ovat onneksi nykyisin niin nopeita, että turhalta tuntuvaa
työtäkin saattaa sietää. Aikaa kuluu koneellani alle 0.3 sekuntia.

Jos tyytyy yhteen kvanttiin, QUANTA kertoo seuraavaa
..........................
RANGE=2(0.1)8
Q_MIN=2
QUANTA X,X,1,CUR+1
Data: X Variable: X  N=15
ss=3.95263
     quant       # matches
 1   2.992105        15
..........................
eli yrittää tarjota hieman epätarkkaa kolmosta. Jäännösneliösumma
ss=3.95263 osoittaa selvästi, ettei yksi kvantti riitä.

Voi kokeilla jopa kolmellakin kvantilla seuraavasti
..........................
RANGE=2(0.1)5
Q_MIN=2
QUANTA X,X,3,CUR+1
Data: X Variable: X  N=15
ss=0
     quant       # matches
 1   3.000000        11
 2   3.181818         1
 3   2.333333         3
..........................
jolloin kvanteiksi saadaan tarkalleen ottaen 3, 35/11 ja 7/3
eli keskimmäinen kvantti on pantu huolehtimaan havaintoarvosta 35.
Tämä johtuu hakutavasta, joka suosii alarajasta Q_MIN huolimatta
mahdollisimman pieniä kvantteja.

Kendallin menetelmä on aivan toisenlainen. Se perustuu aineistossa
x_1, x_2,..., x_n muotoa
                         n
    phi(q) = sqrt(2/n)* SUM cos(2*pi*eps(i)/q)
                        i=1

olevaan summaan, missä eps(i) on jakojäännös, kun X jaetaan q:lla
ja tällöin 0<=eps(i)<q.
Tätä summaa tai sen graafista kuvaajaa tarkastellaan kvanttimuuttujan q
eri arvoilla.
Summa phi(q) saa suurimmat arvonsa potentiaalisten kvanttien q kohdalla.

Olen liittänyt phi(q)-funktion laskennan optiona METHOD=Kendall
QUANTA-ohjelmaan.

Aineistolla X saadaan tällöin seuraavaa tulostusta:
..........................
RANGE=2(0.001)5  METHOD=Kendall  SCORE_MIN=1
QUANTA X,X,0,CUR+1  / 3. parametrilla ei ole nyt merkitystä.
Data: X Variable: X  N=15
GPLOT COSQUANT,quant,score / LINE=1 MODE=SVGA Plot the quantogram!
Peaks of Kendall's Cosine Quantogram:
 quant        score
 2.3350       1.5076
 2.9950       3.2941
 3.4640       1.0264
..........................
Nyt RANGE-täsmennys kertoo, millä q-arvoilla funktio phi(q) lasketaan.
Funktion arvot (score) talletetaan omaksi Survo-tiedostoksi COSQUANT
ja sen piirtoa varten QUANTA tulostaa valmiin GPLOT-kaavion.
Numeeriset "piikit", jotka ylittävät täsmennyksen SCORE_MIN antaman
arvon (tässä 1), luetellaan tulostuksen päätteeksi.

Tulokset eivät ole aivan tarkkoja, sillä kvantit hieman häiritsevät
toisiaan Esim. 2.9950 vastaa kolmosta. Aikaisemmassa rajoitetussa
pns-menetelmässä havainnot ryhmittyvät omille kvanteilleen, jolloin
vastaavaa häirintää ei esiinny.

                          * * *

Laajempi 150 havainnon aineisto Y on luotu seuraavasti:
..........................
s=2006
p=rand(s) k=10+int(90*rand(s))
q1=0.223 q2=0.337 q3=0.373
eps=0.01*N.G(0,1,rand(s)) p=rand(s)
Y1=round(k*q1+eps,2) Y2=round(k*q2+eps,2) Y3=round(k*q3+eps,2)
Y=if(p<1/3)then(Y1)else(if(p<2/3)then(Y2)else(Y3))

VAR Y TO QUANTA
..........................
Siinä on siis 3 kvanttia q1=0.223, q2=0.337, q3=0.373
ja havaintoarvot ovat niiden satunnaisia (ainakin 10-kertaisia)
monikertoja rasitettuna pienellä satunnaisvirheellä ja pyöristyksellä
2 desimaaliin.
Kutakin tyyppiä on noin kolmasosa aineistosta.
Havaintoarvot on lopuksi (erillisellä FILE SORT:illa) asetettu
suuruusjärjestykseen tiedostoon QUANTAS.

Pienimmän neliösumman menetelmä antaa seuraavat tulokset:
..........................
Yksi kvantti:
RANGE=0.2(0.01)0.5  Q_MIN=0.2
QUANTA QUANTAS,Y,1,CUR+1
Data: QUANTAS Variable: Y  N=150
ss=0.321973
     quant       # matches
 1   0.222771       150
..........................
2 kvanttia:
RANGE=0.2(0.01)0.5  Q_MIN=0.2
QUANTA QUANTAS,Y,2,CUR+1
Data: QUANTAS Variable: Y  N=150
ss=0.114389
     quant       # matches
 1   0.373013        52
 2   0.222875        98
..........................
3 kvanttia:
RANGE=0.2(0.01)0.5  Q_MIN=0.2
QUANTA QUANTAS,Y,3,CUR+1
Data: QUANTAS Variable: Y  N=150
ss=0.0144519
     quant       # matches
 1   0.336966        40
 2   0.373001        44
 3   0.222986        66
..........................
Nähdään, että neliösumma tulee ratkaisevasti pienemmäksi 3 kvantilla
edellisiin verrattuna ja kvanttien estimoidut arvot ovan sangen
lähellä "oikeita". Myös 1 ja 2 kvantin ratkaisut tulevat omalla
tavallaan lähelle totuutta; tekevät minkä voivat.

Jos yrittää peräti 4 kvantilla, pienin (0.223) "separoituu" kahdeksi
lähekkäiseksi arvoksi (0.223030 ja 0.222642) ja neliösumma putoaa
arvoon 0.0102 eli melko vähän. Tulokset puhuvat siis selvästi 3
kvantin ratkaisun puolesta.

Mainittakoon vielä, että haluttaessa QUANTA laskee täsmennyksellä
RES=<muuttuja1>,<muuttuja2> kaksi lisämuuttujaa, jotka ilmaisevat,
kvanttiin kukin havainto kuuluu ja kuinka suuri on havainnon poikkeama
ao. kvantin lähimmästä monikerrasta.

Muuttamatta Y-aineiston yleisiä tilastollisia ominaisuuksia jokaiseen
havaintoon voidaan lisätä normaalisti jakautunut satunnaiskomponentti,
jonka keskihajonta on 0.5 ja pyöristää havaintoarvot jälleen kahteen
desimaaliin.
Tein tästä 1000-kertaisen toistokokeen etsimällä QUANTA:lla jokaisesta
näin muunnetusta 150 havainnon aineistosta kolmea kvanttia.
Minimineliösumman ss vaihteluväli oli (0.064,0.101), keskiarvo 0.0875,
keskihajonta 0.0055 ja mediaani 0.0881 eli kvanttirakenne oli kaikissa
tapauksissa selvästi rikkoutunut, koska alkuperäisen aineiston vastaava
neliösumma 0.014 on erittäin selvästi vaihteluvälin alapuolella.
Tämä lienee yleisestikin sopiva tapa testata valitun "kvanttihypoteesin"
pätevyyttä aineistokohtaisesti.

Kendallin menetelmällä Y-aineistosta saadaan seuraavaa:
..........................
RANGE=0.2(0.0001)0.5 METHOD=Kendall SCORE_MIN=2.5
QUANTA QUANTAS,Y,0,CUR+1
Data: QUANTAS Variable: Y  N=150
GPLOT COSQUANT,quant,score / LINE=1 MODE=SVGA Plot the quantogram!
Peaks of Kendall's Cosine Quantogram:
 quant        score
 0.2205       2.7026
 0.2228       7.5266
 0.2731       2.6665
 0.2853       2.7129
 0.3370       2.5770
 0.3414       2.5580
 0.3727       4.1799
 0.4202       3.0656
..........................
Kvantit 0.223 (score=7.5) ja 0.373 (score=4.2) löytyvät kärjestä,
mutta kolmas kvantti 0.337 vasta 7. sijalta (score=2.6).
Tämä viittaisi siihen, ettei Kendallin menetelmä ilmeisesti
toimi kunnolla useampien kvanttien tapauksessa; eihän se alunperin
sellaiseen ole tarkoitettukaan.

                          * * *

Näiden alustavien kokeiden perusteella näyttää siltä, että rajoitettu
pienimmän neliösumman menetelmä toimii paremmin kuin Kendallin
menetelmä. Arkeologisissa ja muissa vastaavissa aineistoissa kvantteja
lienee todellisuudessa aina vain yksi. Arvelisin kuitenkin, että
niissäkin kannattaa käyttää pns-menetelmää useammalla kvantilla, jolloin
peruskvanttiin sopimattomille mittauksille saadaan eräänlaisia
kaatopaikkoja ja se oikea kvantti - mikäli sellaista lainkaan esiintyy -
tulee puhtaammin esiin.

Olen mm. hakusanoilla "quanta" ja "Kendall" etsinyt verkosta, onko
viime aikoina po. aiheesta ilmaantunut uutta tietoa. Haku ei ole
toistaiseksi tuottanut mainitsemisen arvoisia tuloksia.

Vaikka QUANTA-ohjelma kohdistuu vain hyvin erikoisten aineistojen
käsittelyyn, tulen liittämään sen SURVO MM:ään versiosta 2.35
lähtien.
Olen valmis toimittamaan QUANTA:n myös niille vanhempien versioiden
käyttäjille, jotka haluavat tehdä omia kokeilujaan.
Olisi mukava kuulla, löytyykö "kvanttien metsästykselle" uusia
kohteita.

Seppo Mustonen

Vastaukset:
[ei vastauksia]

Survo-keskustelupalstan (2001-2013) viestit arkistoitiin aika ajoin sukrolla, joka automaattisesti rakensi viesteistä (yli 1600 kpl) HTML-muotoisen sivukokonaisuuden. Vuoden 2013 alusta Survo-keskustelua on jatkettu entistäkin aktiivisemmin osoitteessa forum.survo.fi. Tervetuloa mukaan!

Etusivu  |  Keskustelu
Copyright © Survo Systems 2001-2013. All rights reserved.
Updated 2013-06-15.