close

Anmelden

Neues Passwort anfordern?

Anmeldung mit OpenID

4. Wie valide sind Schlussfolgerungen aus einer Regressionsstudie

EinbettenHerunterladen
4. Wie valide sind Schlussfolgerungen aus einer
Regressionsstudie?
Aussagen und Schlussfolgerungen zu Kausalwirkungen, die auf
Basis einer Regressionsstudie gezogen werden, haben nicht den
Status von Beweisen, wie z.B. die Ableitung von Eigenschaften
von Sch¨atzfunktionen (Konsistenz, Erwartungstreue, Effizienz,
asymptotische Normalverteilung) aus Modellannahmen.
Interne Validit¨
at bezieht sich auf die G¨
ultigkeit solcher Aussagen u
¨ber die Population, aus der die Stichprobe f¨
ur die
Regressionsstudie stammt, externe Validit¨
at auf verallgemeinernde Aussagen, die Ergebnisse auf andere Populationen und
Rahmenbedingungen u
¨bertragen.
122
Pr¨
ufsteine f¨
ur interne Validit¨
at:
¨
Uber
die interessierende Ursache-Wirkungs-Beziehung und
die involvierten Koeffizienten sollte Klarheit herrschen. Die
Sch¨
atzer der relevanten Koeffizienten sollten unverzerrt
und konsistent sein, im Hinblick auf Tests und Konfidenzintervalle m¨
ussen auch die Standardfehler konsistent gesch¨atzt
werden.
Zun¨achst f¨
unf einschl¨agige Konstellationen, unter denen notwendige Annahmen f¨
ur die Konsistenz und Unverzerrtheit der
Sch¨atzer verletzt werden, sowie Hinweise zur Schadensbehebung oder -begrenzung:
123
1. Fehlende Variablen f¨
uhren zur Verzerrung des OLSSch¨atzers, wenn sie nicht nur Y beeinflussen, sondern auch
mit dem relevanten Regressor X1 (ggf. auch mehreren) korreliert sind. Grund daf¨
ur ist die Verletzung der Annahme
E(u|X1) = 0. Daher sollte schon vor der Regressionsanalyse
u
¨berlegt werden:
(a) Welche mit X1 korrelierten Einfl¨
usse sind unber¨
ucksichtigt? Gibt es Daten der fehlenden Variablen, oder von
Kontrollvariablen X2, . . . mit der Eigenschaft, dass der
bedingte Erwartungswert der St¨
orgr¨
oße, wenn er ungleich Null ist, zumindest nicht mehr von X1 abh¨
angt,
E(u|X1, X2, . . .) = E(u|X2, . . .).
124
Dann ist E(βˆ1|X1, X2, . . .) = β1. Betrachte dazu die Erweiterung der einfachen Regression von Yi auf X1i (in
der βˆ1 wegen fehlender Variablen verzerrt ist) um eine
Kontrollvariable X2 mit
E(ui|X1i, X2i) = E(ui|X2i) = γ0 + γ2X2i,
also
E(Yi|X1i, X2i) = β0 + β1X1i + β2X2i + γ0 + γ2X2i, also
Yi = (β0 + γ0) + β1X1i + (β2 + γ2)X2i + vi,
mit E(vi|X1i, X2i) = 0, d.h. die urspr¨
unglich verletzte
St¨
orgr¨
oßenannahme ist f¨
ur vi erf¨
ullt und der OLS-Sch¨atzer
(X X)−1Xy sch¨atzt konsistent β0 + γ0, β1 und β2 + γ2.
125
(b) Die Aufnahme zus¨atzlicher Variablen hat aber auch einen
Preis: sie erh¨
oht die Varianzen der OLS-Sch¨atzer. Es ist
also abzuw¨agen, ob die Reduktion von Verzerrung die
Verringerung der Pr¨azision aufwiegt.
(c) In der Pr¨asentation der Ergebnisse einer Regressionsstudie
zum kausalen Effekt der Variablen X1 auf Y sollten nicht
nur f¨
ur die letztlich favorisierte Spezifikation mit zus¨atzlichen Variablen X2, . . . die Sch¨atzergebnisse angegeben
werden, sondern auch f¨
ur alternative Regressionen.
(d) Auch wenn Daten f¨
ur fehlende Variablen oder Kontrollvariablen nicht zur Verf¨
ugung stehen, bleiben ggf. M¨
oglichkeiten, die Verzerrung durch fehlende Variablen zu vermeiden:
126
• Verwendung von Querschnittsdaten zu verschiedenen
Zeitpunkten (Paneldatenanalyse, Kap. 5),
¨
• Anderung
des Sch¨atzverfahrens (Instrumentalvariablensch¨
atzung, Kap. 7),
• Randomisierung der Einflussvariablen X1, randomisiertes kontrolliertes Experiment.
2. Fehlspezifikation der funktionalen Form der Regressionsfunktion f¨
uhrt dazu, dass der (m¨
oglicherweise vom
X−Niveau abh¨angige) marginale Effekt von X auf Y auch
bei großer Stichprobe verzerrt gesch¨atzt wird. Vgl. dazu
verschiedene nichtlineare Ans¨atze in Kapitel 3.
127
3. Messfehler in den erkl¨
arenden Variablen f¨
uhren dazu, dass die OLS-Sch¨atzung nicht konsistent ist. Im klassischen Fehler-in-den-Variablen-Modell wird angenommen,
dass anstelle des tats¨achlichen Regressors Xi die Variable
˜ i = Xi + εi verwendet wird, wobei angenommen wird, dass
X
die Messfehler εi unabh¨angig identisch verteilt sind mit Erwartungwert Null und Varianz σε2, unkorreliert mit Xi und
mit der St¨
orgr¨
oße ui. Dann gilt:
˜ i + (ui − β1εi),
Yi = β0 + β1Xi + ui =⇒ Yi = β0 + β1X
˜ i = Xi +εi mit der St¨
wobei der Regressor X
orgr¨
oße korreliert
2
p
σ
2
X
˜ i, ui − β1εi) = −β1σε , und βˆ1 −→ 2 2 β1.
ist, Cov(X
σ +σ
X
ε
128
F¨
ur den OLS-Sch¨atzer βˆ1 gilt also plimn−→∞ |βˆ1| < |β1| und
die Verzerrung nimmt mit wachsender Messfehlervarianz zu.
2
Wenn man das Verh¨altnis σε2/σX
kennt oder sch¨atzen kann,
ist leicht eine Korrektur des OLS-Sch¨atzers βˆ1 m¨
oglich, so dass
der korrigierte Sch¨atzer konsistent ist:
σε2
1+ 2
σX
p
ˆ
β1 −→ β1.
2
Wenn σε2/σX
unbekannt und der Messfehler nicht zu vermeiden
ist, kann man mit einem Instrumentalvariablensch¨
atzer der
Verzerrung durch Fehler-in-den-Variablen entgehen. Dazu muss
man eine sog. Instrumentalvariable finden, die mit X korreliert
ist, aber nicht mit dem Messfehler.
129
4. Wenn die Stichprobenauswahl von den Y −Werten
abh¨
angig ist, z.B. wenn - beabsichtigt oder unbeabsichtigt - Beobachtungen ausgeschlossen werden, bei denen Y
unterhalb eines Schwellenwerts liegen, ist der OLS-Sch¨atzer
verzerrt und inkonsistent (sample selection bias). Sch¨atzverfahren, die in dieser Situation konsistent sind, bauen
auf Maximum-Likelihood-Verfahren in Modellen mit bin¨aren
abh¨angigen Variablen auf (Kap. 6).
5. Simultane Kausalit¨
at von X nach Y und von Y nach X
f¨
uhrt dazu, dass X mit der St¨
orgr¨
oße korreliert und der OLSSch¨atzer verzerrt und inkosistent ist (simultaneous equation
bias).
130
Die Situation simultaner Kausalit¨at kann formalisiert erfasst
werden, indem zur Regressionsbeziehung f¨
ur den Einfluss von
X auf Y eine weitere Gleichung f¨
ur eine umgekehrte Regressionsbeziehung formuliert wird, also ein interdependentes System
simultaner Regressionsgleichungen, z.B.
Yi = β0 + β1X1i + β2X2i + ui und
X1i = γ0 + γ1Yi + γ3X3i + vi.
Die konsistente Sch¨atzung in simultanen Gleichungssystemen
¨
spielte eine dominierende Rolle in der Entwicklung der Okonometrie, vor allem im Kontext makro¨
okonomischer Modelle. Ein
L¨
osungsansatz ist die Instrumentalvariablensch¨
atzung.
131
Sind die Standardfehler der OLS-Sch¨
atzer konsistent?
Wenn die Standardfehler nicht mit einem konsistenten Sch¨atzverfahren berechnet wurden, sind darauf beruhende Konfidenzintervalle und Tests nicht mehr valide. Die Konsistenz der
gesch¨atzten Standardfehler h¨angt davon ab, welche Annahmen bez¨
uglich der Varianzen und Kovarianzen der St¨
orgr¨
oßen
ad¨aquat sind.
Wie bereits hervorgehoben wurde, wird man oft von Heteroskedastizit¨at ausgehen m¨
ussen, in diesem Fall sind nur die entsprechenden robusten Standardfehler konsistent. Dar¨
uberhinaus
wurden Sch¨atzer der Varianzen der OLS-Sch¨atzer entwickelt,
die auch bei korrelierten St¨
orgr¨
oßen konsistent sind.
132
5. Einf¨
uhrung in die Regressionsanalyse mit Paneldaten
Ausgangspunkt: Bei der Untersuchung der kausalen Wirkung
eines Regressors X (ggf. auch mehrerer) auf Y anhand von
Querschnittsdaten sind wichtige Einflussgr¨
oßen f¨
ur Y , die mit
X korreliert sind, nicht im Regressionsmodell ber¨
ucksichtigt
und es liegen auch keine Kontrollvariablen daf¨
ur vor. Dann ist
der OLS-Sch¨atzer des Koeffizienten von X verzerrt.
Bsp.: Die Wirkung von Alkoholsteuern (X) auf die Anzahl Y
von Verkehrstoten (pro 10000 Einw.) soll mit Querschnittsdaten
f¨
ur 48 Bundesstaaten untersucht werden. Es ist anzunehmen,
dass (nicht quantitativ beobachtete) unterschiedliche kulturelle
Pr¨agungen Y beeinflussen und auch mit X korreliert sind.
133
Ziel: Mit der Verwendung von Paneldaten zu X und Y , d.h.
Beobachtungen (Xit, Yit), die f¨
ur dieselben Querschnittseinheiten i = 1, . . . , n zu T verschiedenen Zeitpunkten bzw.
Zeitperioden t = 1, . . . , T erhoben wurden, soll die Verzerrung
des OLS-Sch¨atzers βˆ1 eliminiert werden.
Dazu wird der Regressionsansatz (vorher: der Regressor X
und ein Absolutglied) erweitert durch Modellierung von unterschiedlichen Querschnittseffekten α1, . . . , αn, fixed effects, die
u
¨ber die Zeit konstant sind:
Statt: Yit = β0 + β1Xit + uit
also: Yit = αi + β1Xit + uit,
i = 1, . . . , n; t = 1, . . . , T. (Nicht m¨
oglich ohne Paneldaten!)
134
Die fixed effects erfassen den Einfluss β2Zi = αi einer (unbeobachteten) Variablen Zi, die u
¨ber die Querschnittseinheiten
variiert, aber nicht u
¨ber die Zeit. Um das Modell in der u
¨blichen
Form eines multiplen Regressionsmodells zu schreiben, werden
Dummyvariablen D1i = 1 f¨
ur i = 1, 0 sonst, D2i = 1 f¨
ur
i = 2, 0 sonst, usw. bis Dni = 1 f¨
ur i = n, 0 sonst, eingef¨
uhrt:
Yit = α1D1i + α2D2i + . . . + αnDni + β1Xit + uit.
¨
Aquivalent
gilt die Darstellung mit dem Absolutglied α1 (i = 1
als Referenz) und Koeffizienten γi = αi − α1, i = 2, . . . , n:
Yit = α1 + γ2D2i + . . . + γnDni + β1Xit + uit.
135
Beachte, dass mit Absolutglied und n Dummyvariablen
D1, . . . , Dn exakte Multikollinearit¨at erzeugt w¨
urde.
Man spricht von einem balancierten Panel, wenn tats¨achlich
f¨
ur s¨amtliche Querschnittseinheiten (Individuen) Beobachtungen zu denselben Zeitpunkten t = 1, . . . , T vorliegen, sonst
heißt das Panel unbalanciert.
Offensichtlich kann das Modell auch auf den Fall mit mehreren
Regressoren X1,it, . . . , XK,it erweitert werden zu
Yit = αi + β1X1,it + . . . + βK XK,it + uit,
bzw.
Yit = α1 +γ2D2i +. . .+γnDni +β1X1,it +. . .+βK XK,it +uit.
136
F¨
ur die OLS-Sch¨atzung ist es zweckm¨aßig, anstatt die - bei
großem n entsprechend große - Regressormatrix X mit allen
Dummyvariablen in der Formel (X X)−1X y zu verwenden,
¨aquivalent die Daten zun¨achst um ihr jeweiliges Querschnittsmittel (¨
uber die Zeit) zu zentrieren. Mit
Yit = αi + β1X1,it + . . . + βK XK,it + uit
und
Y i· = αi + β1X 1,i· + . . . + βK X K,i· + ui·
entfallen f¨
ur die Beziehung zwischen den zentrierten Daten die
Dummyvariablen:
Yit−Y i· = β1(X1,it−X 1,i·)+. . .+βK (XK,it−X K,i·)+(uit−ui·).
137
ˆ der mit den zentrierten Daten beAus dem OLS-Sch¨atzer β,
rechnet wird, k¨
onnen im zweiten Schritt die individuellen Effekte
αi gesch¨atzt werden mit:
α
ˆ i = Y i· − (βˆ1X 1,i· + . . . + βˆK X K,i·), i = 1, . . . , n.
ˆ mit den zentrierDiese stufenweise Sch¨atzung zun¨achst von β
ten Daten und dann die Berechnung der α
ˆ i, i = 1, . . . , n ist
¨aquivalent zur Berechnung des gesamten OLS-Sch¨atzers mit
(X X)−1X y unter Verwendung der nicht-zentrierten Daten,
einschließlich der Dummyvariablen. In der Dokumentation der
Sch¨atzergebnisse werden oft die u.U. sehr zahlreichen fixed effects gar nicht angegeben, da das Interesse auf den βˆi liegt.
138
Mit der Einbeziehung der Zeit-Dimension in die Untersuchung
er¨
offnet sich aber auch eine neue M¨
oglichkeit f¨
ur Verzerrung
des OLS-Sch¨atzers durch ausgelassene Variablen, wenn n¨amlich
nicht ber¨
ucksichtigte Einflussgr¨
oßen auf Y , die sich u
¨ber die
Zeit ver¨andern, mit den Regressoren Xk korreliert sind. Im
Beispiel k¨
onnte dies die Verbesserung von Sicherheitsstandards
bei der Weiterentwicklung von Kraftfahrzeugen sein.
Soweit f¨
ur solche (unbeobachteten) Einflussvariablen angenommen werden kann, dass sie u
¨ber die Zeit, aber nicht u
¨ber die
Individuen des Querschnitts variieren, ist zu erw¨agen, das Modell um fixed effects δ2, δ3, . . . , δT der Unterschiede zur ersten
Periode zu erweitern.
139
Damit ergibt sich, wenn zur Vereinfachung wieder nur ein
Regressor X betrachtet wird:
Yit = αi + δt + β1Xit + uit, δ1 = 0,
bzw.
Yit = α1D1i+α2D2i+. . .+αnDni+δ2B2t+. . .+δT BTt+β1Xit+uit,
oder
Yit = α1+γ2D2i+. . .+γnDni+δ2B2t+. . .+δT BTt+β1Xit+uit,
mit den Zeiteffekt-Dummyvariablen Bst = 1 f¨
ur s = t und
Bst = 0 f¨
ur s = t, s = 2, . . . , T und αi = α1 + γi, i = 2, . . . , n.
140
Den OLS-Sch¨atzer kann man auch hier wieder stufenweise
bestimmen, indem die Daten zun¨achst in Abweichungen vom
Querschnittsmittel und vom Zeitmittel geschrieben werden. Die
αi werden zun¨achst eliminiert durch Mittelung u
¨ber die Zeit
f¨
ur jedes Individuum und Subraktion der Gleichungen:
Yit = αi + δt + β1Xit + uit
Y i· = αi + δ + β1X i· + ui·,
˜ it + u
Y˜it = δ˜t + β1X
˜it,
also
˜ it = Xit − X i· und δ˜t = δt − δ, wobei
mit Y˜it = Yit − Y i·, X
T
T
1
1
Y i· = T t=1 Yit, X i· = T t=1 Xit.
141
Anschließend k¨
onnen die δ˜t analog eliminiert werden durch
Mittelung u
¨ber den Querschnitt f¨
ur die einzelnen Perioden und
n
die Bildung der Differenzen. Mit Y ·t = n1 i=1 Yit und analog
n
X ·t = n1 i=1 Xit, ergibt sich der OLS-Sch¨atzer βˆ1 durch
Regression von
Yit∗ = Yit − Y i· − Y ·t + Y
also
βˆ1
∗
auf Xit
= Xit − X i· − X ·t + X,
=
n
i=1
n
i=1
T
∗ ∗
X
t=1 itYit
.
T
∗
2
t=1(Xit)
Mit βˆ1 k¨
onnen in der folgenden Stufe die OLS-Sch¨atzer der δt
und αi bestimmt werden:
142
Die Kontraste δˆt zur ersten Periode ergeben sich f¨
ur t =
1, . . . , T mit
δˆt = (Y ·t − Y ·1) − βˆ1(X ·t − X ·1)
mit dem Mittelwert δˆ = (Y − Y ·1) − βˆ1(X − X ·1).
Die individuenspezifischen Absolutglieder αi werden schließlich
gesch¨atzt mit
ˆ i = 1, . . . , n.
α
ˆ i = Y i· − βˆ1X i· − δ,
Die individuellen fixed effects αi werden oft als wichtiger betrachtet als die Kontraste δt zur ersten Periode.
143
Die Eigenschaften der OLS-Sch¨atzer h¨angen grunds¨atzlich
davon ab, welche Annahmen als ad¨aquat gelten k¨
onnen. Im
Hinblick auf die Konsistenz muss die ”wachsende Stichprobengr¨
oße” zun¨achst pr¨azisiert werden. Wenn T als fest
angenommen wird und n −→ ∞ betrachtet wird, dann w¨achst
mit dem Stichprobenumfang n auch die Anzahl n der Parametersch¨atzer α
ˆ i, deren Varianzen folglich nicht gegen Null
gehen. Die Konsistenz des OLS-Sch¨atzers βˆ1 ist dagegen,
wenn keine Verzerrung durch weiterhin unber¨
ucksichtigte, mit
X korrelierte Variablen verbleibt, unter plausiblen Annahmen
gesichert. Solche plausiblen, nicht allzu restriktiven Annahmen
kann man wie folgt formulieren:
144
Annahmen zum Panel-Regressionsmodell mit fixed effects
Yit = αi + δt + β1Xit + uit, i = 1, . . . , n, t = 1, . . . , T, δ1 = 0,
wobei
1. E(uit|Xi1, Xi2, . . . , XiT ) = 0,
2. (Xi1, Xi2, . . . , XiT , ui1, ui2, . . . , uiT ), i = 1, . . . , n sind unabh¨angig identisch verteilte Zufallsvektoren,
3. (Xit, uit) haben endliche vierte Momente (ungleich Null),
4. Es gibt keine perfekte Multikollinearit¨at.
145
Mit der zweiten Annahme, dass die n Vektoren (mit 2T Komponenten u
¨ber alle Perioden) unabh¨angig identisch verteilt sind,
wird zugelassen, daß innerhalb der gemeinsamen Verteilung eines solchen Vektors f¨
ur eine Querschnittseinheit Korrelation
zwischen St¨
orgr¨
oßen uit und uis vorliegt. Die Korrelation von
St¨
orgr¨
oßen, die zu verschiedenen Perioden f¨
ur die gleiche Querschnittseinheit besteht, wird auch als Autokorrelation oder
serielle Korrelation bezeichnet.
Auch f¨
ur den Fall von Autokorrelation und Heteroskedastizi¨at
sind robuste Verfahren zur konsistenten Sch¨atzung der Standardfehler entwickelt worden, auf die wir hier aber nicht n¨aher
eingehen.
146
Unter den formulierten Annahmen sind die OLS-Sch¨atzer von
β im fixed effects Modell bei großer Stichprobe approximativ
normalverteilt mit der robust gesch¨atzten Varianz-KovarianzMatrix und dem Erwartungswertvektor β. Intervallsch¨atzung
und Tests k¨
onnen damit wie im vorher betrachteten Regressionsmodell durchgef¨
urt werden.
Wenn man - mit dem Hinweis auf die Ber¨
ucksichtigung der
Heterogenit¨at der Individuen und der Perioden durch fixed
effects - von den wesentlich st¨arkeren Annahme des klassischen linearen Modells ausgeht, also von unabh¨angig identisch
N(0, σ 2)−verteilten St¨
orgr¨
oßen uit, i = 1, . . . , n, t = 1, . . . , T,
ˆ wesentlich einfacher.
wird die Sch¨atzung von V(β)
147
6. Regression mit einer bin¨
aren abh¨
angigen Variablen
Wie kann der Einfluss von Variablen auf eine Entscheidung zwischen zwei Alternativen (”discrete choice”) analysiert werden?
Beispielsweise auf die Entscheidung zwischen
- Ablehnung (Y = 1) oder Annahme (Y = 0) eines Kreditantrags?
Einflussvariablen: Verh¨altnis von monatlicher Belastung zum
Einkommen, Hautfarbe des Antragstellers.
- Annahme (Y = 1) oder Ablehnung (Y = 0) eines Bewerbers?
Einflussvariablen: Qualifikationsmerkmale, Geschlecht.
148
- Aufnahme einer Erwerbst¨atigkeit seitens verheirateter Frauen, ja (Y = 1) oder nein (Y = 0)?
Einflussvariablen: Ausbildung, Anzahl/Alter der Kinder.
- Reaktion auf einen Spendenbrief, ja (Y = 1) oder nein
(Y = 0)?
Einflussvariablen: Einkommen, fr¨
uhere Spendent¨atigkeit, Geschlecht.
- K¨
undigung (Y = 1) oder Fortf¨
uhrung (Y = 0) eines Versicherungsvertrags?
Einflussvariablen: Schadensverlauf, Vertragsdauer, Preis, Rabattregelung.
149
F¨
ur eine bin¨are Zufallsvariable Y gilt
E(Y ) = 1 · Pr(Y = 1) + 0 · Pr(Y = 0) = Pr(Y = 1).
Eine Regressionsfunktion f (X1, . . . , XK ), die den bedingten Erwartungswert E(Y |X1, . . . , XK ) modelliert, gibt damit
zugleich Pr(Y = 1|X1, . . . , XK ), die bedingte Wahrscheinlichkeit an.
Als Referenzmodell wird gelegentlich das lineare Wahrscheinlichkeitsmodell
Yi = Pr(Yi = 1|X1i, . . . , XKi)+ui = β0+β1X1i+. . .+βK XKi+ui
betrachtet. Die Schw¨achen dieses Modells sind offensichtlich.
150
Das Probit- und das Logit-Modell
Sowohl im Probit-Modell als auch im Logit-Modell wird als
Regressionsfunktion eine Verteilungsfunktion F an der Stelle
von X iβ = β0 + β1X1i + . . . + βK XKi verwendet:
Pr(Yi = 1|X i) = F (X iβ) =
Φ(X iβ) im Probit-Modell
,
Λ(X iβ) im Logit-Modell
wobei Φ und Λ die Verteilungfunktionen der Standardnormalverteilung und der logistischen Verteilung sind:
t
1 − z2
√ e 2 dz
Φ(t) =
2π
−∞
1
und Λ(t) =
.
−t
1+e
151
0.6
0.4
0.2
Φ(t)
Λ(t)
Λ(1.8t)
0.0
Prob(X ≤ t)
0.8
1.0
Standardnormalverteilung und logistische Verteilung
−4
−2
0
2
4
152
t
Da die Varianz der verwendeten logistischen Verteilung mit
π 2/3 ≈ 1.82, die der Standardnormalverteilung mit 1 gegeben
ist, sollte f¨
ur die Gr¨
oßenordnung der Parameter
β logit ≈ 1.8β probit
erwartet werden.
Der marginale Effekt einer stetigen Einflussvariablen Xk auf
monatliche Belastung
Pr(Y = 1|X i), z.B. von X1 = monatliches
Einkommen auf die bedingte Ablehnungswahrscheinlichkeit, ist gegeben mit
∂ Pr(Y = 1|X i) ∂F (X iβ)
=
=
∂Xik
∂Xik
ϕ(X iβ)βk im Probit-Modell
,
λ(X iβ)βk im Logit-Modell
153
wobei mit ϕ und λ die Dichtefunktionen der Standardnormalverteilung bzw. der logistischen Verteilung bezeichnet werden,
1 − t2
ϕ(t) = √ e 2
2π
und λ(t) = Λ(t)(1 − Λ(t).
Im Gegensatz zum linearen Wahrscheinlichkeitsmodell, wo der
marginale Effekt konstant βk ist, ist hier der marginale Effekt
von der Dichte in X iβ abh¨angig. Im Bereich kleiner Dichte,
d.h. f¨
ur Pr(Y = 1|X i) nahe 0 oder 1, ist der marginale Effekt
also nur noch gering.
Auch der Effekt einer qualitativen 0 − 1−Variablen X1, z.B.
F (β0 + β1 + β2X2i) − F (β0 + β2X2i), ist abh¨angig von den
Werten der u
¨brigen Variablen.
154
0.6
0.4
0.2
0.0
Ablehnungswahrscheinlichkeit
0.8
1.0
Pr(Y = 1|X1, X2 = x2, . . . , XK = xK ) als Funktion einer
stetigen Einflussvariablen X1 in einem Logit-Modell
155
0.0
0.2
0.4
0.6
Belastung/Einkommen
0.8
1.0
Parametersch¨
atzung im Probit- und Logit-Modell
F¨
ur die Parametersch¨atzung bietet sich die MaximumLikelihood-Methode an, da im Probit- und Logit-Modell die
bedingten Wahrscheinlichkeiten der Stichprobenrealisierungen
von Yi, i = 1, . . . , n unmittelbar gegeben sind. F¨
ur Stichprobenrealisierungen (yi, xi) ist die Likelihoodfunktion und die
Log-Likelihoodfunktion gegeben mit:
n
F (xiβ)yi (1 − F (xiβ))1−yi ,
L(β) =
i=1
n
yi ln(F (xiβ)) + (1 − yi) ln(1 − F (xiβ))
l(β) = ln L(β) =
i=1
156
Dabei ist f¨
ur die Verteilungsfunktion F im Probit-Modell Φ und
im Logit-Modell Λ zu verwenden. Als notwendige Bedingung
ergibt sich damit f¨
ur die ML-Sch¨atzer das folgende System
nichtlinearer Gleichungen in β, das mit numerischen Methoden
gel¨
ost werden kann:
n
ˆ
(yi − F (xiβ))
i=1
ˆ
f (xiβ)
ˆ
ˆ
F (xiβ)(1
− F (xiβ))
xi = 0.
Beachte, dass sich diese Bedingungen im Logit-Modell vereinfachen zu:
n
ˆ i = 0.
(yi − Λ(xiβ))x
i=1
157
ˆ wird konsistent gesch¨atzt
Die Varianz-Kovarianz-Matrix von β
mit

−1
n

ˆ ix

λ(x
β)x
im Logit-Modell

i
i
i=1
ˆ β)
ˆ =
−1
V(
2
ˆ
ϕ(xiβ)
n


im Probit-Modell
xi xi

i=1
ˆ
ˆ
Φ(xiβ)(1 − Φ(xiβ))
ˆ bei großen Stichproben
Approximativ sind die ML-Sch¨atzer β
gemeinsam normalverteilt mit dem Erwartungswertvektor β und
der gegebenen Varianz-Kovarianz-Matrix. Auf dieser Grundlage
k¨
onnen Konfidenzintervalle f¨
ur die Parameter gebildet und Tests
durchgef¨
uhrt werden.
158
Zu einem vorgegebenen Merkmalsvektor x - den xi in der
zur Sch¨atzung verwendeten Stichprobe, oder auch anderen
Merkmalskombinationen - ergibt sich die gesch¨atzte bedingte
Wahrscheinlichkeit Pr(Y = 1|X = x) =: π
ˆ (x) mit
ˆ =
π
ˆ (x) = F (x β)
ˆ im Logit-Modell
Λ(x β)
.
ˆ
Φ(x β) im Probit-Modell
Die dazugeh¨
origen Standardfehler werden durch lineare Approˆ bestimmt (Taylorreihe):
ximation der Funktion F (x β)
∂F (x β) ˆ
ˆ
ˆ
F (x β) ≈ F (x β)+
(β−β) = F (x β)+f (x β)x (β−β).
∂β
159
ˆ − F (x β) ≈ f (x β)x (β
ˆ − β) ergibt sich der
Mit F (x β)
Varianzsch¨atzer
ˆ β)x.
ˆ = f (x β)
ˆ 2 · x V(
ˆ
σ
ˆπ2ˆ (x) = Var(F (x β))
Den Standardfehler erhalten wir als die Wurzel σ
ˆπˆ und das
95%− Konfidenzintervall f¨
ur π(x) = Pr(Y = 1|X = x) mit
[ˆ
π (x) − 1.96ˆ
σπˆ , π
ˆ (x) + 1.96ˆ
σπˆ ].
Je nachdem ob mit dem Logit- oder Probit-Modell gearbeitet
wird, ist f¨
ur f die Dichtefunktion λ bzw. ϕ, f¨
ur F die Verˆ nat¨
teilungsfunktion Λ bzw. Φ, und f¨
ur β
urlich der Sch¨atzer
aus dem entsprechenden Modell und dessen Varianz-KovarianzMatrix zu verwenden.
Hier ein Beispiel zur Erwerbsbeteiligung verheirateter Frauen:
160
Die Daten sind in R mit data(Mroz87) im Paket sampleSelection verf¨
ugbar, vgl. auch Mroz (Econometrica, 1987).
Die 1975 in der ”Panel Study of Income Dynamics (PSID)”
erhobenen Daten umfassen f¨
ur 753 verheiratete Frauen u.a.
die bin¨are Variable lfp (labor force participation), sowie als
erkl¨arende Variablen kids5 (Anzahl der Kinder unter 5), age
(Alter der Frau), educ (Ausbildung der Frau in Jahren), hushrs
(Erwerbst¨atigkeit des Ehemanns 1975 in Stunden), huswage
(Lohnsatz des Ehemanns in 1975 USD), mtr (Grenzsteuersatz
der Ehefrau).
Eine Sch¨atzung des Logit-Modells mit diesen erkl¨arenden Variablen liefert den folgenden Output:
glm(formula = lfp ~ kids5 + age + educ + hushrs + huswage + mtr,
family = binomial(link = "logit"), data = Mroz87, x = T)
161
Coefficients:
Estimate Std. Error z value
(Intercept) 1.989e+01 2.392e+00
8.316
kids5
-1.362e+00 2.015e-01 -6.760
age
-7.238e-02 1.232e-02 -5.876
educ
1.974e-01 4.379e-02
4.508
hushrs
-1.408e-03 1.953e-04 -7.209
huswage
-3.910e-01 4.561e-02 -8.573
mtr
-1.833e+01 2.250e+00 -8.149
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05
Pr(>|z|)
< 2e-16
1.38e-11
4.21e-09
6.55e-06
5.62e-13
< 2e-16
3.68e-16
. 0.1
***
***
***
***
***
***
***
1
Null deviance: 1029.75 on 752 degrees of freedom
Residual deviance: 821.03 on 746 degrees of freedom
Number of Fisher Scoring iterations: 4
162
ˆ kann man f¨
Mit dem Sch¨atzer β
ur jeden Merkmalsvektor x
die bedingte Wahrscheinlichkeit f¨
ur eine Erwerbsbeteiligung
sch¨atzen mit:
π
ˆ (x) =
1
1 + exp(−(βˆ0 + βˆ1kids5 + . . . + βˆ6mtr))
.
F¨
ur die Berechnung eines Konfidenzintervalls f¨
ur π(x) =
Pr(Y = 1|X = x) muss man sich zun¨achst noch die gesch¨atzte
Varianz-Kovarianz-Matrix ausgeben lassen. Mit den Daten des
Beispiels wurden f¨
ur jeden der 753 Merkmalsvektoren aus der
Stichprobe π
ˆ (x) und das 95%−Konfidenzintervall bestimmt,
vgl. die folgende Grafik:
163
0.6
0.4
0.2
0.0
Konfidenzband
0.8
1.0
Logit-Modell-Konfidenzintervalle f¨
ur Pr(Y = 1|X = xi)
0
200
400
600
164
Merkmalsträger, geordnet nach der geschätzten Wahrscheinlichkeit
Um die Signifikanz der erkl¨arenden Variablen insgesamt zu
u
¨berpr¨
ufen, ist hier auch ein Likelihood-Ratio-Test der Nullhypothese β1 = 0, . . . , βK = 0 geeignet. Er kann mit den Angaben ”Residual deviance” und ”Null deviance” durchgef¨
uhrt
werden.
ˆ also das Maximum
Die residual deviance ist gleich −2lnL(β),
ˆ = −410.51.
von lnL ist im Beispiel lnL(β)
Der als null deviance bezeichnete Wert ist gleich −2lnL0, im
Beispiel also lnL0 = −514.87, wobei lnL0 das Maximum der
Log-Likelihoodfunktion unter H0 bezeichnet. Beachte, dass unter H0 die Wahrscheinlichkeit Pr(Yi = 1|X i) = F (β0) = p
konstant ist und pˆ = y = nn1 , mit n1 der Anzahl von yi = 1.
165
Damit ist
lnL0 = ln L(ˆ
p) = n1 ln(ˆ
p) + (n − n1) ln(1 − pˆ).
Die Teststatistik des Likelihood-Ratio-Tests ist
ˆ = Null deviance − Residual deviance.
LR = −2(lnL0 − lnL(β))
Unter H0 is LR bei großen Stichproben χ2(K)−verteilt, d.h.
H0 wird abgelehnt, wenn LR > χ2K,1−α.
Im Beispiel ist LR = 1029.75 − 821.03 = 208.72 und χ26,0.99 =
16.81, der Erkl¨arungsansatz ist also signifikant zum Niveau
α = 1%, der p−Wert Pr(χ2(6) > 208.72) = 0.
166
¨
Analog kann der LR−Test auch zur Uberpr¨
ufung von m Nullrestriktionen (m < K) angewandt werden. Dann wird lnL0 als
der maximale Wert der Log-Likelihoodfunktion mit den verbleibenden K − m Regressoren bestimmt und LR folgt unter H0
der χ2(m)−Verteilung.
F¨
ur Probit- und Logit-Modelle wurden eine Reihe von unterschiedlichen G¨
utemaßen als Ersatz f¨
ur das Bestimmtheitsmaß
vorgeschlagen (”Pseudo-R2-Maße”). Eines dieser Maße wurde
von McFadden, einem Pionier der Mikro¨
okonometrie, vorgeschlagen:
ˆ
lnL(
β)
2
RM
,
cF adden = 1−
ln L(ˆ
p)
2
(im Beispiel: RM
cF adden = 0.203).
167
Document
Kategorie
Gesundheitswesen
Seitenansichten
12
Dateigröße
289 KB
Tags
1/--Seiten
melden