[vastaus aiempaan viestiin]
Kirjoittaja: | Seppo Mustonen |
---|---|
Sähköposti: | - |
Päiväys: | 11.4.2005 14:48 |
Totean puolestani sen lisäksi mitä Reijo jo vastasi, että painojen käyttö regressioanasyysissa on melkein aina subjektiivinen, tutkijan tavoitteista riippuva asia. Painotetussa tilanteessa käytetty Petrin esittämä regressiokertoimien lauseke (Huom. olen vaihtanut merkinnän W merkinnäksi V) MAT B=INV(X'*INV(V)*X)*(X'*INV(V)*Y) voidaan tulkita tavalliseksi painottamattomaksi lausekkeeksi MAT B=INV(WX'*WX)*WX'*WY painotetulle aineistolle WX=W*X, WY=W*Y, missä W'*W=V eli V:n ollessa lävistäjämatriisi, tämä vastaa havaintojen painotusta V:n lävistäjäalkioiden neliöjuurilla W. Survon LINREG-operaatiossa voi havaintojen painot W antaa muuttujalla, jonka maski on W. Tämä on todettu Survon eglanninkielisessä oppaassa (1992) suvulla 168: "An optional weight variable is included by the mask W. The sum of weights is always rescaled to N, the number of active observations.", mutta se on jäänyt pois käytönaikaisesta opastuksesta ja on syytä lisätä sinnekin. Se miten painot skaalataan regressioanalyysissa, ei vaikuta itse regressiokertoimiin eikä esim. selitysosuuteen R^2, mutta mm. kertoimien keskivirheisiin se vaikuttaa. LINREG:issä skaalaus (painojen summa =N) tarkoittaa, että havaintojen lukumäärä säilyy ja vapausasteet lasketaan tämän mukaisesti. Painotuksen ollessa subjektiivinen, kuten ilmeisesti Petrin sovelluksessa, tämä lienee oikea menettely. Jos kyseessä onkin luokitettu aineisto, jossa havaintojen frekvenssejä käytetään painoina, em. skaalaus ei anna kertoimille oikeita keskivirheitä vaan ne tulee skaalata kertomalla vapauasteiden suhteen neliöjuurella eli luvulla sqrt((N-k)/(SW-k)), missä k on regressiokertoimien lukumäärä ja SW on painojen alkuperäinen summa. Esitän pienen esimerkin: Tässä on 10 havainnon aineisto, jossa on neljää tyyppiä olevia havaintoja eri frekvenssein: DATA KOE Y X1 X2 6 1 2 6 1 2 6 3 2 6 3 2 6 3 2 8 4 0 8 4 0 8 2 1 8 2 1 8 2 1 Mallille Y=b0+b1*X1+b2*X2+eps saadaan suoraan tulokset: LINREG KOE,CUR+1 / VARS=Y(Y),X1(X),X2(X) RESULTS=0 Linear regression analysis: Data KOE, Regressand Y N=10 Variable Regr.coeff. Std.dev. t beta X1 -0.301370 0.161753 -1.863 -0.309 X2 -1.369863 0.212218 -6.455 -1.070 constant 9.534247 0.619583 15.39 Variance of regressand Y=1.111111111 df=9 Residual variance=0.187866928 df=7 R=0.9319 R^2=0.8685 Kun sama aineisto annetaan luokitettuna painomuuttujan kera eli N=4 DATA KOEW Y X1 X2 Paino 6 1 2 2 6 3 2 3 8 4 0 2 8 2 1 3 saadaan painotetun analyysin tulokset: LINREG KOEW,CUR+1 / VARS=Y(Y),X1(X),X2(X),Paino(W) RESULTS=0 Linear regression analysis: Data KOEW, Regressand Y N=4 Weight variable: Paino , sum of weights= 10.00000 Variable Regr.coeff. Std.dev. t beta X1 -0.301370 0.427959 -0.704 -0.309 X2 -1.369863 0.561477 -2.440 -1.070 constant 9.534247 1.639263 5.816 Variance of regressand Y=1.333333333 df=3 Residual variance=0.526027397 df=1 R=0.9319 R^2=0.8685 Jälkimmäisen analyysin kertoimien keskivirheet tulee siis korjata näin: s1=0.427959 -> sqrt((4-3)/(10-3))*s1=0.161753 s2=0.561477 -> sqrt((4-3)/(10-3))*s2=0.212218 s0=1.639263 -> sqrt((4-3)/(10-3))*s0=0.619583 - Seppo
Vastaukset: |
---|
Survo-keskustelupalstan (2001-2013) viestit arkistoitiin aika ajoin sukrolla, joka automaattisesti rakensi viesteistä (yli 1600 kpl) HTML-muotoisen sivukokonaisuuden. Vuoden 2013 alusta Survo-keskustelua on jatkettu entistäkin aktiivisemmin osoitteessa forum.survo.fi. Tervetuloa mukaan!