Re: Painotettu PNS REGDIAG-muotoisesti MAT?

[vastaus aiempaan viestiin]

Kirjoittaja: Seppo Mustonen
Sähköposti:    -
Päiväys: 11.4.2005 14:48

Totean puolestani sen lisäksi mitä Reijo jo vastasi, että
painojen käyttö regressioanasyysissa on melkein aina
subjektiivinen, tutkijan tavoitteista riippuva asia.

Painotetussa tilanteessa käytetty Petrin esittämä regressiokertoimien
lauseke (Huom. olen vaihtanut merkinnän W merkinnäksi V)

MAT B=INV(X'*INV(V)*X)*(X'*INV(V)*Y)

voidaan tulkita tavalliseksi painottamattomaksi lausekkeeksi

MAT B=INV(WX'*WX)*WX'*WY

painotetulle aineistolle WX=W*X, WY=W*Y, missä W'*W=V
eli V:n ollessa lävistäjämatriisi, tämä vastaa havaintojen
painotusta V:n lävistäjäalkioiden neliöjuurilla W.

Survon LINREG-operaatiossa voi havaintojen painot W antaa muuttujalla,
jonka maski on W.
Tämä on todettu Survon eglanninkielisessä oppaassa (1992) suvulla 168:
"An optional weight variable is included by the mask W. The sum of
weights is always rescaled to N, the number of active observations.",
mutta se on jäänyt pois käytönaikaisesta opastuksesta ja on syytä
lisätä sinnekin.

Se miten painot skaalataan regressioanalyysissa, ei vaikuta itse
regressiokertoimiin eikä esim. selitysosuuteen R^2, mutta mm. kertoimien
keskivirheisiin se vaikuttaa.
LINREG:issä skaalaus (painojen summa =N) tarkoittaa, että havaintojen
lukumäärä säilyy ja vapausasteet lasketaan tämän mukaisesti.
Painotuksen ollessa subjektiivinen, kuten ilmeisesti Petrin
sovelluksessa, tämä lienee oikea menettely.

Jos kyseessä onkin luokitettu aineisto, jossa havaintojen frekvenssejä
käytetään painoina, em. skaalaus ei anna kertoimille oikeita
keskivirheitä vaan ne tulee skaalata kertomalla vapauasteiden
suhteen neliöjuurella eli luvulla
sqrt((N-k)/(SW-k)),
missä k on regressiokertoimien lukumäärä ja SW on painojen alkuperäinen
summa.

Esitän pienen esimerkin:

Tässä on 10 havainnon aineisto, jossa on neljää tyyppiä olevia
havaintoja eri frekvenssein:
DATA KOE
 Y X1 X2
 6 1  2
 6 1  2
 6 3  2
 6 3  2
 6 3  2
 8 4  0
 8 4  0
 8 2  1
 8 2  1
 8 2  1

Mallille Y=b0+b1*X1+b2*X2+eps saadaan suoraan tulokset:
LINREG KOE,CUR+1 / VARS=Y(Y),X1(X),X2(X) RESULTS=0
Linear regression analysis: Data KOE, Regressand Y         N=10
Variable Regr.coeff.    Std.dev.    t     beta
X1       -0.301370       0.161753 -1.863 -0.309
X2       -1.369863       0.212218 -6.455 -1.070
constant  9.534247       0.619583  15.39
Variance of regressand Y=1.111111111 df=9
Residual variance=0.187866928 df=7
R=0.9319 R^2=0.8685

Kun sama aineisto annetaan luokitettuna painomuuttujan kera eli N=4
DATA KOEW
 Y X1 X2  Paino
 6 1  2   2
 6 3  2   3
 8 4  0   2
 8 2  1   3

saadaan painotetun analyysin tulokset:
LINREG KOEW,CUR+1 / VARS=Y(Y),X1(X),X2(X),Paino(W) RESULTS=0
Linear regression analysis: Data KOEW, Regressand Y         N=4
Weight variable: Paino   , sum of weights= 10.00000
Variable Regr.coeff.    Std.dev.    t     beta
X1       -0.301370       0.427959 -0.704 -0.309
X2       -1.369863       0.561477 -2.440 -1.070
constant  9.534247       1.639263  5.816
Variance of regressand Y=1.333333333 df=3
Residual variance=0.526027397 df=1
R=0.9319 R^2=0.8685

Jälkimmäisen analyysin kertoimien keskivirheet tulee siis korjata näin:

s1=0.427959 -> sqrt((4-3)/(10-3))*s1=0.161753
s2=0.561477 -> sqrt((4-3)/(10-3))*s2=0.212218
s0=1.639263 -> sqrt((4-3)/(10-3))*s0=0.619583

- Seppo

Vastaukset:
[ei vastauksia]

Survo-keskustelupalstan (2001-2013) viestit arkistoitiin aika ajoin sukrolla, joka automaattisesti rakensi viesteistä (yli 1600 kpl) HTML-muotoisen sivukokonaisuuden. Vuoden 2013 alusta Survo-keskustelua on jatkettu entistäkin aktiivisemmin osoitteessa forum.survo.fi. Tervetuloa mukaan!

Etusivu  |  Keskustelu
Copyright © Survo Systems 2001-2013. All rights reserved.
Updated 2013-06-15.