close

Anmelden

Neues Passwort anfordern?

Anmeldung mit OpenID

Angewandte Ökonometrie WS05/06 ©Karin Soltermann - RealWWZ

EinbettenHerunterladen
Angewandte Ökonometrie
WS05/06
Inhaltsverzeichnis
Was ist Ökonometrie?
3
Mikroökonomie (Sheldon)
3
1. Grundzüge des klassischen linearen Regressionsmodells..................................................................................3
2. Binominale Modelle...........................................................................................................................................3
2.1 Schwellenwertmodelle .....................................................................................................................................3
2.2 Random-Utility-Modelle..................................................................................................................................3
3. Multinominale Modelle......................................................................................................................................3
3.1 Nominale Modelle............................................................................................................................................3
3.2 Ordinale Modelle..............................................................................................................................................3
4. Tobit-Modelle.....................................................................................................................................................4
4.1 Truncierte Modelle...........................................................................................................................................4
4.2 Zensierte Modelle.............................................................................................................................................4
5. Selektionsmodelle ..............................................................................................................................................4
5.1 Exogene Selektion............................................................................................................................................4
5.2 Endogene Selektion..........................................................................................................................................4
6. Ereignisanalyse...................................................................................................................................................5
6.1 Verweildauer ....................................................................................................................................................5
6.2 Poisson-Regressionsmodelle............................................................................................................................5
Zeitreihenanalyse (Kugler)
6
1. Heteroskedastizität und Autokorrelation............................................................................................................6
1.1 Konsequenzen für OLS und Alternativen ........................................................................................................6
1.2 Heteroskedastizität: Tests und konsistente Kovarianzmatrixschätzungen .......................................................6
1.3 Autokorrelation: Tests und konsistente Kovarianzmatrixschätzungen ............................................................6
2. Endogenität, Instrumentalvariable und GMM....................................................................................................6
2.1 Konsequenzen der Endogenität für OLS..........................................................................................................6
2.2 Instrumentalvariablenschätzungen ...................................................................................................................6
2.3 GMM................................................................................................................................................................6
3. Multivariate Zeitreihenmodelle..........................................................................................................................6
3.1 Nicht-Stationarität, Scheinregression und Kointegration.................................................................................6
3.2 Vektorautoregressive Modelle VAR ................................................................................................................6
3.3 Kointegration und Fehlerkorrektur in VAR-Modellen.....................................................................................6
Zusammenfassung
8
Zeichen...................................................................................................................................................................8
Nützlich zu wissen .................................................................................................................................................8
Die vier Aufgaben ökonometrischer Analyse ......................................................................................................10
Annahmen des klassischen linearen Regressionsmodells CLRM........................................................................11
Ordinary Least Squares Methode (OLS) → Lineares Regressionsmodell...........................................................11
Maximum Likelihood Methode (MLE) ...............................................................................................................14
Vergleich OLS und MLE im klassischen Regressionsmodell CLRM (a: assymptotisch N → ∞) ......................15
Mikroökonometrie
16
Welches Modell wird für was gebraucht?............................................................................................................16
1 Qualitative abhängige Variablen.......................................................................................................................16
1.1 Binominale Modelle.......................................................................................................................................16
1.1.1 Schwellenwert Modelle...............................................................................................................................17
1.1.2 Stochastische Nutzenmodelle (Random Utility) .........................................................................................17
1.1.3 Lineares Wahrscheinlichkeits-Modell.........................................................................................................18
1.2 Multinominale Modelle..................................................................................................................................19
1.2.1 Geordnete Schwellenwert Modelle .............................................................................................................20
1.2.2 Stochastische Nutzenmodelle (ungeordnete Modelle) ................................................................................20
2 Tobit Modelle....................................................................................................................................................22
2.1 Gestutzte Modelle (truncated regression model)............................................................................................22
2.2 Zensierte Modelle (censored regression model).............................................................................................24
2.3. Schätzverfahren.............................................................................................................................................24
2.3.1 Heckman-Verfahren bei Tobitmodellen......................................................................................................24
2.3.2 MLE bei Tobitmodellen ..............................................................................................................................25
©Karin Soltermann
Seite 1 von 43
Angewandte Ökonometrie
WS05/06
2.4 Test der Tobitspezifikation.............................................................................................................................25
3. Selektonsmodelle .............................................................................................................................................25
4. Verweildauermodelle .......................................................................................................................................27
5. Zähldatenmodelle .............................................................................................................................................27
Zeitreihenökonometrie
28
Welches Vorgehen wird wann gebraucht?...........................................................................................................28
1 Annahme: V(ε|X) = σ2Ψ, dh A3 u/o A4 verletzt, A1 i.o. ..................................................................................29
1.1 Lösungsansätze...............................................................................................................................................29
1.1.1 Missspezifikation aufheben, dh passendere funktionale Form auswählen..................................................29
1.1.2 Generalized Least Squares GLS (Variante der OLS-Methode) ..................................................................29
1.1.3 OLS beibehalten, aber Fehlerterme anpassen → siehe jeweilige Problemfelder........................................29
2 Heteroskedastizität ............................................................................................................................................30
2.1 Auswirkungen ................................................................................................................................................30
2.2 Lösungen ........................................................................................................................................................30
2.2.1 GLS-Transformation ...................................................................................................................................30
2.2.2 Heteroskedastizitätskonsistente (White-) Kovarianzmatrix (HC)...............................................................30
2.3 Tests auf Heteroskedastizität..........................................................................................................................31
2.3.1 Goldfeld-Quandt-Test .................................................................................................................................31
2.3.1 Breusch-Pagan.............................................................................................................................................31
3 Autokorrelation .................................................................................................................................................31
3.1 Auswirkungen ................................................................................................................................................31
3.2. Lösungen .......................................................................................................................................................31
3.2.1 GLS-Transformation ...................................................................................................................................31
3.2.3 Moving Average..........................................................................................................................................32
3.3 Test auf Autokorrelation ................................................................................................................................33
4 Heteroskedastizitäts- und Autokorrelationskonsistente Kovarianzmatrix(Newey/West, HAC).......................34
5 Annahme A2 cov(X’ε) = 0 verletzt ...................................................................................................................34
5.1. Zwei Arten.....................................................................................................................................................34
5.1.1 Eigenschaften der OLS Schätzung bei gleichzeitig unabhängigen x und ε.................................................34
5.1.2 Modelle mit gleichzeitig korreliertem x und ε ............................................................................................35
5.2 Lösungsansätze...............................................................................................................................................35
5.2.1 Generalisierte Momentenmethode GMM ...................................................................................................35
5.2.2 Generalisierte Instrumental Variablen Methode GIV .................................................................................36
5.2.3 Two-Stage Least Squares 2SLS ..................................................................................................................36
6 Multivariate Zeitreihenmodelle.........................................................................................................................36
6.1 Autoregressiv-verteilte Lags ..........................................................................................................................36
6.2 Vektorautoregressive Modelle .......................................................................................................................37
6.3 Nichtstationarität und Kointegration ..............................................................................................................38
6.3.1 Nichtstationarität .........................................................................................................................................38
6.3.2 Kointegration...............................................................................................................................................40
6.3.2 Das Fehlerkorrekturmodell..........................................................................................................................41
6.3.3 Multivariate Kointegrationsanalyse: Das Johanson Verfahren ...................................................................41
©Karin Soltermann
Seite 2 von 43
Angewandte Ökonometrie
WS05/06
Was ist Ökonometrie?
Die Ökonometrie analysiert anhand von beobachtbaren (idR metrischen) Daten (ökonomische Realität)
ökonomische Wirkungszusammenhänge (ökonomische Theorie). Dabei greift sie auf Methoden zurück, die in der
statistischen Theorie entwickelt wurden.
Mikroökonomie (Sheldon)
Analyse von Personen- und Firmendaten, idR Querschnittsoptik
1. Grundzüge des klassischen linearen Regressionsmodells
CLRM
Annahmen des klassischen linearen Regressionsmodells (CLRM)
Zahlenbeispiel zum OLS-Verfahren
Errechnen von OLS-Schätzungen mithilfe eines Tabellenkalkulationsprogramms
Errechnen von OLS-Schätzungen mithilfe von EViews
Vergleich von OLS und MLE im CLRM
Newton-Raphson-Algorithmus zur Bestimmung der Nullstellen…
Zahlenbeispiel
CLRM_1
CLRM_2
CLRM_3
CLRM_4
2. Binominale Modelle
Qualitative abhängige Variablen: Qualitative binominale Wahlhandlungsmodelle
2.1 Schwellenwertmodelle
2.2 Random-Utility-Modelle
Binominale Modelle
Schwellenwertmodell mit konstanter Schwelle
Schwellenwertmodell mit variabler, beobachtbarer Schwelle
Aufgabe
Stochastisches Nutzenmodell
Allgemeinere Formulierung des stochastischen Nutzenmodells
Weibull Verteilung
Bsp. von Outputs
BiMod_1
BiMod_2
BiMod_3
BiMod_4
BiMod_5
3. Multinominale Modelle
Qualitative abhängige Variablen: Qualitative multinominale Wahlhandlungsmodelle
3.1 Nominale Modelle
3.2 Ordinale Modelle
Multinominale Modelle
Ungeordnetes multinominales stochastisches Nutzenmodell
Unabhängigkeit irrelevanter Alternativen (IIA)
Elastizitäten
Personenbeschreibende Variablen
Bsp. von Outputs
Geordnete multinominale Modelle
Unbeobachtete Schwellen
Beobachtete, variable Schwellen
Zahlenbeispiel „Willigness to Pay for Natural Ressources“
Regressionsergebnisse
©Karin Soltermann
MM_1
MM_2
MM_3
MM_4
MM_5
MM_6
Seite 3 von 43
Angewandte Ökonometrie
WS05/06
4. Tobit-Modelle
4.1 Truncierte Modelle
4.2 Zensierte Modelle
Tobit-Modelle
1. Gestutzte Modelle
1.1 Linksstutzung
1.2 Rechtsstutzung
2. Zensierte Modelle
2.1 Linkszensierung
2.2 Rechtszensierung
Einige Graphen
Heckman-Verfahren bei Tobitmodellen
MLE bei Tobitmodellen
Beschreibung der Daten
Trunciertes Modell (OLS)
Trunciertes Modell (Heckman-Verfahren)
Trunciertes Modell (MLE)
Zensiertes Modell (OLS)
Zensiertes Modell (Heckman-Verfahren)
Zensiertes Modell (MLE)
Test der Tobit-Spezifikation
Tobit_1
Tobit_4
Tobit_5
Tobit_6
Tobit_7
Tobit_9
Tobit_10
Tobit_11-12
Tobit_13
5. Selektionsmodelle
5.1 Exogene Selektion
5.2 Endogene Selektion
Selektionsmodelle
Grundgleichungen / Selektionsgleichung / Stochastik / beschränkt beobachtbare Linkhandvariablen
1. Gestutzte Modelle
1.1 Linksstutzung
1.2 Rechtsstutzung
2. Zensierte Modelle
2.1 Linkszensierung
2.2 Rechtszensierung
MLE bei Selektionsmodellen
1. Zensierter Fall
2. Truncierter Fall
Bivariate Normalverteilung
Beschreibung der Daten
Trunciertes Modell (OLS)
Trunciertes Modell (Heckman-Verfahren)
Trunciertes Modell (MLE)
Zensiertes Modell (OLS)
Zensiertes Modell (Heckman-Verfahren)
Zensiertes Modell (MLE)
©Karin Soltermann
S_1
S_2
S_3
S_4
S_5
S_6
S_8
S_9
S_10
S_11
Seite 4 von 43
Angewandte Ökonometrie
WS05/06
6. Ereignisanalyse
6.1 Verweildauer
6.2 Poisson-Regressionsmodelle
Verweildauermodelle
Zentrale Funktionen
Nichtparam. Schätzung der Funktion in diskreter Zeit bzw mit gruppierten Dauern (“Sterbetafelmethode”)
Graphiken der Funktionen (Arbeitslose in CH)
Methoden der Modellschätzung mit Kovariaten
Semiparametrische Schätzung in diskreter bzw stetiger Zeit
Parametrische Modelle
Proportionales Hazardmodell
Akzeleriertes Modell
Zähldatenmodelle (Poisson-Modell)
Poisson-Verteilung
Poisson-Regressionsmodell
Schätzung des Modells mit Maximum-Likelihood
Masse der Anpassungsgüte („R2“)
Tests auf Überdispersion
Regressionsansatz / LM-Test gemäss Cameron/Trivedi (1990)
Modellalternativen bei Überdispersion
Negatives Binominalmodell (NegBin II)
ZIP (zero-inflated Poisson) – Modell
Anwendungsbeispiel
Outputs der verschiedenen Modelle
©Karin Soltermann
V_1
V_2
V_3-8
V_9
V-10
V_11
V_12
Z_1
Z_2
Z_3
Z_4
Z_5
Z_6
Z_7
Z_7-8
Seite 5 von 43
Angewandte Ökonometrie
WS05/06
Zeitreihenanalyse (Kugler)
Analyse von Bewegungen von Preisen und Wirtschaftsaggregaten im Zeitablauf (Makro).
1. Heteroskedastizität und Autokorrelation
Einführung
Beispiel: Kassa- und Terminwechselkurs
Probleme: Heteroskedastizität, Autokorrelation, Nichtstationarität (random walk)
Berücksichtigung der Heteroskedastizität, Autokorrelation durch HAC-Kovarianzmatrix
Random Walk
1.1 Konsequenzen für OLS und Alternativen
1.2 Heteroskedastizität: Tests und konsistente Kovarianzmatrixschätzungen
Heteroskedastizität und Autokorrelation
Eigenschaften der OLS Schätzung
Eine alternative Schätzmethode: GLS
Heteroskedastizität: Modell
Anwendung des Modells auf Kassa- und Terminkurs
Heteroskedastizitätskonsistente (White) Kovarianzmatrix
Heteroskedastizität: Tests (Breusch-Pagan, White)
1.3 Autokorrelation: Tests und konsistente Kovarianzmatrixschätzungen
Autokorrelation: Modelle
GLS
Moving Average
Test auf Autokorrelation und Schätzung von AR-Koeffizienten
Heteroskedastizitäts- und Autokorrelationskonsistente Kovarianzmatrix (Newey / West, HAC)
FS1_1-2
FS1_3
FS1_4
FS1_5
FS2_1
FS2_2
FS2_3
FS2_4
FS2_5
FS2_6
2. Endogenität, Instrumentalvariable und GMM
2.1 Konsequenzen der Endogenität für OLS
2.2 Instrumentalvariablenschätzungen
2.3 GMM
Eigenschaften der OLS Schätzung bei nur gleichzeitig unabhängigem x und ε
Modelle mit gleichzeitig korreliertem x und ε
Die Generalisierte Instrumental Variablen Methode
FS3_1
FS3_2
Übungsoutput: Erwartungshypothese der Zinsstruktur
Einige Fragen zu „Heteroskedastizität und Autokorrelation“ und „Endogenität, IV und GMM“
3. Multivariate Zeitreihenmodelle
3.1 Nicht-Stationarität, Scheinregression und Kointegration
3.2 Vektorautoregressive Modelle VAR
3.3 Kointegration und Fehlerkorrektur in VAR-Modellen
Autoregressive Distributed Lags
„Error Correction“ Modell
Partielle Anpassungsmodell
Vektorautoregressive Modelle
Choleski-Dekomposition
©Karin Soltermann
FS4_1-2
FS4_3
FS4_4
Seite 6 von 43
Angewandte Ökonometrie
Nichtstationarität und Kointegration
Stationarität
Beispiel für “spurious regression”
Regressionsergebnisse
Erläuterung der Ergebnisse
Definition der Stationarität
Nichtstationäre Prozesse
Random Walk ohne / mit drift
Definition des Integrationsgrades einer Zeitreihe
Beispiel ARMA(1,1) Prozess
Stationarität und Invertierbarkeit im ARMA(1,1) Fall
Der Dickey-Fuller Test
Probleme des Dickey-Fuller Testes
Beispiel Industrieproduktion und Auftragseingang
Bivariate und multivariate Kontegration im Eingleichungsmodell
Engle-Granger Test auf Kointegration (r = 1)
Beispiel: OLS Industrieproduktion auf Auftragseingang (logs)
ADF-Test für Residuen
Berechnung des kritischen Wertes nach MacKinnon (Tabelle im Anhang)
Das Error Correction-Modell
Beispiel: EC-Modell für Industrieproduktion auf Auftragseingang (logs)
Multivariate Kointegration: Ein Beispiel
Multivariate Kointegration: Johansen-Verfahren [VAR(1)]
Anmerkungen zum Johansen-Verfahren
Mögliche Fälle beim Johansen-Test
Beispiel. Verlauf der drei Dreimonatszinssätze
Ergebnisse Johansen-Test
Schätzung EC-Modell mit r = 1
©Karin Soltermann
WS05/06
FS5_1
FS5_2
FS5_3
FS5_4
FS5_5
FS5_6
FS5_7
FS5_8
FS5_9
Seite 7 von 43
Angewandte Ökonometrie
WS05/06
Zusammenfassung
Zeichen
Je nach Kontext wird Matrix- oder Skalar-Schreibweise benutzt:
Grossbuchstaben sind Matrizen, Kleinbuchstaben sind entweder Vektoren oder Skalare,
► Vektoren sind üblicherweise als Spaltenvektoren angegeben. Die Zeilenvektoren mit Zusatz’. Hier wird
teilweise auf diese’ verzichtet, dh selber überlegen, ob Spalten- oder Zeilenvektoren gemeint sind.
A‘ = AT
Transponierte der Matrix A
βˆ = b , dh griechischer Buchstabe mit ^ oder kleiner Buchstabe
Schätzung
echter idR unbekannte Parameter
Normalverteilung
Standardnormalverteilung
Logitverteilung
Standardlogitverteilung
Normal independent distribution
Identical independent distribution
KoVarianz-Matrix
Diagonalmatrix: alle Elemente sind Null,
ausser auf Hauptdiagonalen ht2
β, dh griechischer Buchstabe
NV bzw N(µ,σ2)
SNV bzw Φ bzw N(0,1)
LV
SLV bzw Λ
NID
IID
V
diag(ht2)
Nützlich zu wissen
Erwartungswert und KoVarianz, Korrelation
Erwartungs- (Mittel-) wert E ( x) = µ =
+∞
n
∑ pi xi
bzw
i =1
∫ xf ( x)dx
−∞
Diverse Regeln: E(x + y) = E(x) + E(y) / x, y unabhängig: E(xy) = E(x)E(y)
Varianz var( x) = σ =
2
x
+∞
n
∑ p [x
i
i =1
i
− E ( x)]
2
bzw
∫ [ x − E ( x)]
2
f ( x)dx = E{[x-E(x)]2} = E(x2) – [E(x)]2
−∞
Diverse Regeln: k ∈ R: var(kx) = k2var(x) / var(x + k) = var(x) / x, y unabhängig: var(x + y) = var(x) + var(y) /
Varianz eines Portfolios p mit N Titel mit Gewichtungen wi bzw. j: var( p ) =
N
N
Gewichtung en i ≠ j Ko var ianz
i = j :σ i2 Varianz
hier idR 1
∑∑
}
wi w j
}
σ ij
i =1 j = i
Standardabweichung stab(x) = σx = √var(x)
Kovarianz cov(x, y) = σx,y = E{(x-E[x])(y-E[y])} = E(xy) – E(x)E(y)
Korrelation (standardisierte cov) 0 ≤ corr (x, y ) = ρ x , y =
cov( x, y )
var( x ) var( y )
≤1
Wahrscheinlichkeitsfunktion / Dichte: f(x) = P(X = xi) = [F(xi) – F(xi-1)] bzw F’(x)
Verteilungsfunktion: F(x) = P(X ≤ xi) = ∑f(x) bzw ∫f(x)dx
Standardnormalverteilung
φ : Dichte der NV (f = F’) ; Φ: Verteilungsfunktion der NV (F = ∫f dh FLuK)
Standardisieren mit [x-E(x)]/Stab(x)
©Karin Soltermann
Seite 8 von 43
Angewandte Ökonometrie
Bedingte Wahrscheinlichkeit und bedingter Erwartungswert


>





<



Bedingte Wahrscheinlichkeit: f  [X =]x Y =  y 0  =
WS05/06
P (x I y 0 )
6
47
4
8
f ( x, y 0 )

 Verteilung, dh < bzw >
f ( y 0 ) fallsdiese
Funktion nehmen
123
P ( y0 ) 


>


>

 ∑ xi xi P X = xi | Y = y 0 
diskret
<
Bedingter Erwartungswert: E  X | Y = y 0  = 

 falls X
stetig
<
∞

 
xf
x
y
dx
(
|
)
0

∫−∞
Konsistenz
Der Schätzer b ist konsistent, wenn er bei genügend grossem Stichprobenumfang N bzw T den wahren Wert β mit
beliebig grosser Genauigkeit trifft: plim(b) = β. (plim Wahrscheinlichkeitsgrenzwert: Grenzwert von b bei T → ∞)
Je grösser N bzw T, umso unwahrscheinlicher wird es, dass b weit von β entfernt ist.
Erwartungstreue, Unverzerrtheit: E(b) = β
Effizient: Erwartungstreue Schätzer deren Varianz die kleinste ist unter den Varianzen der möglichen Schätzern.
Vektorlänge
u n ,1
 u1  "Länge "
 
Pythagoras
=  M  mit
Hilfe

→ u =
u 
 n
Es gilt : u
2
n
∑u
2
i
i =1
n
= u ' u = ∑ u i2 → euklidische Norm
i =1
Vektormultiplikation
Spezielles Beispiel bei klassischer Normalregression e’e ~ NV:
e’e ~ χ2 (ergibt Skalar), ee’~ NV (ergibt Matrix mit Elemente ~ NV)
Extrema von Funktionen zweier Variablen: geg. z = f(x,y)
Notwendige
Maximum
Minimum
Bedingungen
fx = fy = 0
fx = fy = 0
Hinreichende
fxx , fyy < 0
fxx , fyy > 0
Bedingungen
fxxfyy - fxy2 > 0
fxxfyy - fxy2 > 0
Sattelpunkt
fx = fy = 0
fxxfyy - fxy2 < 0
Polynomapproximation: Satz von Taylor
Fragestellung. Welches Polynom Pn(x) = ∑ni=0 ai(x –x0)i n-ten Grades approximiert y = f(x) in der Umgebung eines
Punktes x0 am besten?
i - te Ableitung
Lösung: Pn ( x ) =
n
∑
i =0
©Karin Soltermann
678
f i ( x0 )
(x − x0 )i
i!
Seite 9 von 43
Angewandte Ökonometrie
WS05/06
Lösbarkeit linearer Gleichungssysteme
Geg. Lineares Gleichungssystem: m Gleichungen mit n Unbekannten
Matrizenschreibweise: A x = b (x = Vektor mit den n Unbekannten, b: Lösungsvektor mit den m Lösungen)
m , n n ,1
m ,1
rg(A) ≤ min(n, m)
Lösungsmenge:
Gilt rg ({
A) = rg ( A; b ) ?
123
m,n
ja
Es gibt mindestens eine Lösung
rg(A) = n: genau ein Lösungsvektor
m , n +1
nein
Es gibt keine Lösung.
rg(A) < n: ∞-viele Lösungen: Lösungsstruktur
Quadratische Form in einem Vektor x
Q(x) = x’Asymmetrischx = ∑aijxixj
A bzw x’Ax heisst positiv definit, falls x' Ax > 0 ∀x ≠ 0 => A > 0
A bzw x’Ax heisst positiv semidefinit, falls x' Ax ≥ 0 ∀x und x’Ax = 0 für mind. ein x ≠ 0
A bzw x’Ax heisst nichtnegativ definit, falls sie positiv (semi-) definit ist. => A ≥ 0
Cholesky-Zerlegung
Jede symmetrische positiv definite Matrix A ∈ Rnхn kann eindeutig in der Form
A = GGT [= LDLT = LD1/2(DL1/2)T]zerlegt werden.
Regel von l’Hôtpital
lim
x → x0
∂f (x ) ∂x
f (x ) 0
f (x )
= ⇒ lim
= lim
x
→
x
x
→
x
0 g (x )
0 ∂g ( x ) ∂x
g (x ) 0
Die vier Aufgaben ökonometrischer Analyse
Ökonomisches Modell
Spezifikation
o Funktional y = f(x)
o Störgrösse ε
o Variablen X = (x)N,K
Ökonometrisches Modell
Schätzung
Geschätztes Modell (Quantifizierung)
Hypothesentest
©Karin Soltermann
Prognose
Seite 10 von 43
Angewandte Ökonometrie
WS05/06
Annahmen des klassischen linearen Regressionsmodells CLRM
Annahme
Bemerkung
Test auf
Verletzung
A01
Ansonsten ist (X’X) nicht
rg(X) = K
invertierbar: (X’X)-1 gibt’s nicht. Korrelationsmatrix
voller Rang
Wird gebraucht für Lösung von β.
A02
Korrekte
Spezifikation
A1
strong: E(ε) = 0
weak: E(ε|X) = 0
A2
cov(X’,ε) =
mit A1: E(X’ε) = 0
A3 & 4
strong: V(ε) =
mit A1: E(εε’) = σ2I
(= white noise)
weak: V(ε| X) = σ2I
A5
ε ~ N(0, σ2I) →
b ~ N[β, σ2(X’X)-1]
Folge der
Verletzung
OLS versagt,
grosse Standardabweichungen
Abhilfe
Mehr
Beobachtungen,
weniger
Regressoren
Neuspezifikation
Es fehlen keine relevanten
F- (Chow),
exogenen Variablen bzw keine der WALD-, LR-,
benutzten ist irrelevant.
CUSUM-, RESETy bzw b im Ø korrekt
weak: V(ε) abhängig von X
Verzerrte
Schätzungen
X deterministisch, nicht
stochastisch, unabhängig von e
HAUSMAN-
Verzerrte
Schätzungen
IV
A3 Homoskedastie:
var(εi) = σ2 (konstante Varianz)
A4 Keine Autokorrelation:
cov(εi,εj) = 0
WHITE-, LM-,
DW-,
BREUSCHGODFREY-
Verzerrte
Standardfehler
FGLS-,
WHITE bzw
NEWEY/WEST
Für Hypothesentests:
Normalverteilungsannahme
JARQUE-BERA-
Kleine
Stichprobeneigenschaften gelten
nicht
Asymptotische
Tests,
Transformation
der LHV
Verzerrter
Achsenabschnitt
Ordinary Least Squares Methode (OLS) → Lineares Regressionsmodell
(Kleinst Quadrate KQ)
→ Variablen x, y müssen mindestens Intervallniveau (metrisch) haben, ausser für x bei Dummy-Variablen!
Annahme: lineare Funktion (in den Parametern)
→ Transformation der x, um „lineare“ Parameter zu erhalten, erlaubt. Dies ändert jedoch Interpretation!
Siehe dazu Zeitreihenökonomie 1.1.1 Missspezifikation aufheben, …
X
N ,K
6447
448
x
xN
x
x
1
2
n
678
 } } }}


1 x12 L x1K 
 y1 


 
Modell: y = Xβ + ε =  M  =  M M x nk M 


y 
 N
 1 x N 2 L x NK 
1442443
y N ,1
β
K ,1
Konstante β1, Regressionskoeffizienten βn
67
8
Regressoren xi
 β1 
   e1 
 βk   
 M  +  M  => yn = β1 + xn2β2 +…+ xnKβK + en
   e N  Regressand y
stochastische Störvariable en
β 
n
 K
 x1 ' 


= M  ,dh N Objektvektoren
 x '
 N 
N = #Objekt(svektoren: Zeilen von X), Beobachtungen bzw. SP-Umfang >> K = #geschätzte Parameter β,
inkl. Konstante
K-1 = # Merkmal(svektoren: Spalten von X, ohne 1-er-Spalte), Konstante β1 (gehört zu Einsvektor)!
Ziel: minβ S(β) = ∑en2 = e’e = (y-Xβ)’(y-Xβ): quadrierte Vektorlänge, Minimierung der quadrierten Fehlerwerte
Normalengleichungen: I) X’y - X’Xβ = X’e = 0, II) X ' X =
©Karin Soltermann
∑
N
i =1
xi xi ' > 0 symmetrisch & nichtnegativ definit
Seite 11 von 43
Angewandte Ökonometrie
WS05/06
−1
OLS-Schätzer: βˆ = ( X ' X ) X ' y = β + (X’X)-1X’ε
2
OLS-Fehlervarianz: σˆ =
εˆεˆ '
N−K
(unter A1-A4)
b
 64447
4448

y


6
4
7
4
8

−1
−1
OLS-KoVarianz-Matrix: E{[x-E(x)]2} = E[(b - β)(b - β)’] = E ( X ' X ) X T ( Xβ + ε ) − β  ( X ' X ) X T ε
14444244443 


= β + ( X ' X )−1 X T ε − β



[


T 



]
V (ε )=σ 2 I
= „Sandwichformel“: E[(X’X) X’εε’X(X’X) ] → mit A2: ( X ' X )
-1
-1
−1
678
−1
X ' E (εε ') X ( X ' X )
2
2
→ mit A3 & 4 : Vˆ ( βˆ ) = σ b = σˆ ( X ' X )
−1
BLUE (Best Linear Unbiased Estimator; Gauss-Markov-Theorem)
Unter den Annahmen A1-A4 ist die OLS-Schätzfunktion des linearen Regressionsmodells der beste, lineare und
unverzerrte Schätzer für die Modellparameter.
BUE (Best Unbiased Estimator)
Wird die Normalverteilungsannahme A5 hinzugezogen, dann gilt weiter, dass die OLS-Schätzer effizient (die
besten) in der Klasse aller sämtlicher unverzerrter Schätzer (inkl nicht-linearer) sind.
Bestimmtheitsmass R2
als Gütemass für die Anpassung, zeigt welchen Anteil der Gesamtvariabilität durch das Modell erklärt wird. Es
steigt mit Hinzunahme von weiteren x ohne Rücksichtsnahme, ob das zusätzliche x überhaupt für das Modell
sinnvoll ist. R K2 − R R2 ≥ 0 , Anzahl Regressoren K aus vollem Modell > R aus Submodell
Das adj. R2 korrigiert diesen Missstand. Es steigt nur, wenn das hinzugenommene x auch etwas zur Verbesserung
des Modells beiträgt. Die Adjustierung erfolgt mit Bereinigung durch die jeweiligen Freiheitsgrade.
y' y
− y 2 , y ' y = ( Xβˆ + εˆ)' ( Xβˆ + εˆ ) = yˆ ' yˆ + εˆ ' εˆ
N
Var ( y ) = E ( y 2 ) − [ E ( y )] 2 =
2
2
y ' y − Ny
yˆ ' yˆ − Ny
εˆ 'εˆ 48
647
48 647
48 647
2
2
2
∑ ( y n − y ) = ∑ ( yˆ n − y ) + ∑ ( y n − yˆ )
=
SST
gesamte
=
+
SSR
erklärte
y
yˆ
y = Xβ
n
en
yn − y
n
y
yˆ n − y
SSE
nicht erklärte Abweichungen (jeweils im Quadrat)
SSE
 N − K0
SSR
SSE
(N − K )
2
0≤R =
= 1−
≤ 1 ≥ adj.R = 1 −
= 1 − 
SST
SST
SST
 N −K
(N − K 0 )
2

(1 − R 2 )

x
xn
K0 = Anzahl Konstanten „β1“, #Eins-Spaltenvektoren in X-Tabelle, idR 1.
Regel: R 2 = [corr ( y n , yˆ n )]
2
©Karin Soltermann
Seite 12 von 43
Angewandte Ökonometrie
WS05/06
ANOVA (Analysis of Variance) → Varianzanalyse, F- und t-Statistik
Benötigt Verteilungsannahme von ε, deshalb Annahme A5
globale Varianzanalyse: volles Modell (unrestricted) y = Xβ + ε wird verglichen mit
Restringiertes Modell
y = β1 + ε ohne echte Regressoren, nur Konstante
Gesamtsignifikanztest
K −1
Quadratsumme Freiheitsgrade Mittel der Quadrate
F-Test: H0: β i = 0
SS , SQ
df
MQ = SQ / df
∑
i =1
Regression SSR
= SSReg
Residuen SSE
= εˆ ' εˆ = RSS
= SSResid
Gesamt
SST
= SYY
= SScorr
K - K0
N-K
N - K0
a=
SSR / (K- K0)
s2 =
SSE / (N-K)
a / s2 =
c=
SST / (N- K0)
adj.R2 = 1 – s2/c (adj. mittels df)
R2 =SSR / SST
SSR
(K − K 0 )
~ FK − K 0 , N − K
SSE
(N − K )
F-Statistik prüft die gemeinsame Signifikanz J-ausgewählter βi’s (Konstante β1 wird nicht geprüft!)
U (unrestriktives Modell)
R (restriktives Modell)
H0: Alle J-ausgewählten βi (ausser Konstante β1) = 0
H1: mind. eines dieser ausgewählten βi ≠ 0 (ausser β1)
Regression ohne die J-ausgewählten βi (also nur K-J βi’s) Regression mit allen K-βi ≠ 0 (somit K > J)
Submodell mit K-J Regressoren (inkl Konstante)
Modell mit K-Regressoren β bzw x (inkl.Konstante),
R-Submodell ⊂ U-volles Modell ; RU2 ≥ RR2 ; SSEU ≤ SSER
(in ANOVA-Tabelle: Gesamtsignifikanztest: J = K - K0 → SSEU = SSE und SSER - SSEU = SST – SSE = SSR)
F-Change prüft die Signifikanz in der Veränderung von R2 durch Hinzunahme weiterer J Variablen x zum
kleineren (restringierten) Modell mit R = K-J Regressoren, grösseres (unrestringiertes) Modell hat K Regressoren.
(RU2 − RR2 )
(SSER − SSEU )
J =
J ~F
F − Change bzw F − Statistik =
J , N −K
(
SSEU
1 − RU2 )
(N − K)
(N − K)
Ist der F-Wert grösser als der Tabellenwert, wird H0 mit einer Fehlerw’k von α verworfen.
T-Statistik prüft die Signifikanz einzelner βi’s (Elemente in dem β-Vektor)
Ist Merkmal i zu βi überhaupt relevant dh ≠ 0; falls auf speziellen Wert b* getestet werden soll, diesen einsetzen
H0: βi = 0 (= b*), H1: βi ≠ 0, T − Statistik =
bi (−b*)
σb
~ t N −K
i
σbi : Varianz des i-ten Elementes des Parametervektors b, dh Eintrag σii in der Kovarianzmatrix V(b)
Signifikanz: H0 wird zugunsten von H1 mit einer Fehlerwahrscheinlichkeit α abgelehnt, wenn p-value < α.
Sind die F-Statistik bzw T-Statistik nicht signifikant (H0 kann nicht abgelehnt werden), ist das gesamte Modell (bei
F) bzw das βi alleine (bei T) nicht relevant.
Konfidenzintervall (Intervallvorhersage): In welchem Bereich wird βi zu 1-α W’k liegen?
KI = bi ± t1−α ; N − K σ bi  . Falls 0 nicht enthalten ist, ist βi signifikant.


2
©Karin Soltermann
Seite 13 von 43
Angewandte Ökonometrie
WS05/06
Andere Art als mit KQ um zu Schätzern zu kommen:
Maximum Likelihood Methode (MLE)
(Methode der maximalen Mutmasslichkeit) Bezeichnung für ein Prinzip zur Schätzung von Parametern einer
Wahrscheinlichkeitsverteilung anhand beobachteter Werte. ML sucht die unbekannten Parameter, die die
Wahrscheinlichkeit maximieren, die gegebenen Daten unter der unterstellten Verteilung vorzufinden.
Man schätzt die Varianz der Verteilung und den Parameter !!!
Allgemeines Vorgehen
Gegeben seien Beobachtungen zu yi, xi für i =1, 2,..., N und ein simples Modell yi = xiβ +εi.
Annahme: Die Verteilung von yi wird durch die bedingte Dichte f(yi| xi, θ) bestimmt, mit xi als exogene
Einflussgrösse und θ dem zu bestimmenden Parametervektor.
Ann.: Die einzelnen Beobachtungen sind statistisch unabhängig. Dann ist die gemeinsame Dichte aller
Beobachtungen: g ( y1 , y 2 ,K, y N | x1 , x2 ,K, x N ,θ ) =
N
∏ f (y
i
| xi ,θ ) und die Likelihoodfunktion wird geschrieben
i =1
als: L(θ ) =
N
∏ f (y
i
| xi ,θ ) . Wir suchen den Vektor θ, der L maximiert. Dieses θˆ ist
i =1
der Maximum Likelihood Schätzwert für den Parametervektor θ. Oft wird einfachheitshalber das logarithmierte L
[lnL(θ)] maximiert.
Beispiel
Wahrscheinlichkeitsverteilung der Stichprobe f(ε) ist bekannt
(hier gezeigt an einem Regressionsmodell mit A5: f(ε) ~ NV)
y1 = β1 + x12β2 +…+ x1KβK + ε1
P(y = y1) = P(ε = ε1) = f(ε1)dε
… … ……
…..... …
…
yN = β1 + xN2β2 +…+ xNKβK + ε N
P(y = yN) = P(ε = εN) = f(εN)dε
F(ε) = ∫f(ε)dε
f(ε)
f(εi)
εi dε
ε
Annahmen A1-A4 beibehalten. Wenn A4, dann ist SP-Likelihood ∏Nf(εi)dε.
Ziel (Umformung mit ln zur Vereinfachung): maxβ,σ^2 L(β, σ2) = ∑Nln[f(εi)] [+ Nln(dε)]
0
−
1
e
Mit A5: f (ε i ) =
σ 2π
[ε i − E (ε i ) ]2
2σ 2
; umformen mit ln und über i bis N aufsummieren:
ε 'ε
67
8
L(β, σ2) =
∑ ln f (ε i ) = −
ε
N
N
ln 2π − ln σ 2 − ∑ 2i → maxβ,σ^2
2
2
2σ
2
Allg. max L(β, σ2): Extremas von Funktionen zweier Variablen:
Notwendige Bedingungen: Likelihood-Gleichungen: Scorefunktion, Gradient ~ Normalengleichungen bei OLS
*∂L/∂β = 0: entspricht minβ der Fehlerquadratsummen, deshalb ist β-Schätzer b gleich wie OLS
Da L oft eine nichtlineare Funktion ist, muss ein Approximationsverfahren (zB Taylor) zum
bestimmen der Nullstellen angewendet werden.
*∂L/∂σ2 = −
N
ε 'ε
+
= 0 : ergibt Schätzer für die Fehlervarianz
2
2σ
2σ 4
Hinreichende Bedingungen:
A2
Hessematrix H = ∂2L/(∂2β) = –(X’X)/σ2 < 0
∂2L/(∂β∂σ2) = –(X’ε)/σ4 = 0
2
2
4
(Matrix mit Zweitableitungen) ∂ L/(∂σ ∂β) = –(ε’X)/σ = 0 ∂2L/(∂2σ2) = –N/(2σ2) < 0
+
–E(H) = Informationsmatrix I = 
0
©Karin Soltermann
0
 , wobei I −1
+ 
 σ 2 ( X ' X )−1

0
= 


(negativ definit)
 Kovarianz von β

2σ 
N 
{
=0

mit N →∞ 
0
4
Seite 14 von 43
Angewandte Ökonometrie
WS05/06
Da die ersten Ableitungen oft nicht linear sind, muss man andere Verfahren gebrauchen, um die Nullstellen
herauszufinden.
Newton-Raphson-Algorithmus zur Bestimmung der Nullstellen nichtlinearer Bedingungen 1.Ordnung
(Score-Funktion) bei MLE
Polynomapproximation (Satz von Taylor): y = ln[L’(β)] an Stelle βt mit n = 2
P2(βt+1) = ln[L’(βt+1)] = ln[L’(βt)]+ ln[L’’(βt)(βt+1 – βt)] = 0 → βt+1 = βt - ln[L’(βt)] / ln[L’’(βt)]
→ Solange mit dem βt „herumspielen“ bis βt+1 = βt bzw. ln[L’(βt)] = 0
V
ML-Modelle für Teststatistiken bzw Gütemasse
Unrestriktives Modell LU: Schätzung des K-dimensionalen Parametervektors (zB β)
Restriktives Modell LR:
bei Teststatistik: Schätzung des (K-J)-dimensionalen Parametervektors, dh J-Elemente
werden ausgelassen, nicht Konstante (diese, die man gemeinsam testen möchte)
bei Gütemasse: alle Parameter, ausser der Konstanten, sind 0, dh K-1 Parameter = 0
pˆ
67
8
 N y =1 
N
 + N y = 0 ln y = 0
dann irrelevante Verteilungsfunktion LR = N y =1 ln
 N 
 N



Likelihood ratio Test LR (pendant zur F-Statistik bei OLS)
„H0: J-Elemente des Parametervektors sind 0, Konstante ausgeschlossen“
LR-Teststatistik: LR = 2[ln(LU) - ln(LR)] ~ χJ2 (Wenn Differenz nahe 0, ist H0 höchstwahrscheinlich korrekt.)
Wenn LR > Tabellenwert, kann H0 abgelehnt werden.
LR Likelihood Ratio Test
W Waldtest
LM Lagrange Multiplier Test
→ alle drei sind χ2 verteilt und asymptotisch äquivalent
Gütemasse (pendant zu R2 bei OLS)
ln( LU )
≤ 1 ( auch Likelihood-ratio-index genannt)
ln( LR )
1
pseudoR 2 = 1 −
1 + 2(ln LU − ln LR ) N
0 ≤ McFaddens-R2 = 1 −
Vergleich OLS und MLE im klassischen Regressionsmodell CLRM (a: assymptotisch N → ∞)
MLE
OLS
Schätzer
Verteilungsannahme treffen
Keine Annahme über Verteilung
b
(X’X)-1X’y
konsistent,
idR nicht erwartungstreu
asymptotisch effizient, dh kleinste Varianz bei N → ∞
Verteilung
NV[β, σ 2 ( X ' X ) ]
−1
asymptotisch:
εˆ'εˆ
Fehlertermvarianz: σˆ 2
εˆ 'εˆ
N

2σ 
NV σ 2 ,
N 

4
Verteilung
©Karin Soltermann
asymptotisch:
BLUE
konsistent und erwartungstreu
N−K

2σ 4 
ZV σ 2 ,
N − K 

Seite 15 von 43
Angewandte Ökonometrie
WS05/06
Die Rao-Cramér-Schranke definiert eine untere Grenze (im Sinne der Definitheit von Differenzen von Matrizen)
()
für die Kovarianzmatrix erwartungstreuer Schätzungen. V βˆ ≥ σ 2 ( X ' X ) , wobei βˆ ein beliebiger Schätzer ist.
Damit ist der MLE-Schätzer b bester erwartungstreuer Schätzer im Modell der Normalregression.
−1
Mikroökonometrie
Welches Modell wird für was gebraucht?
Am besten betrachtet man zuerst Grafiken der Daten bzw überlegt sich „ökonomisch“, was das Problem bei den
vorgegebenen Daten sein könnte.
Die Modelle werden idR mit ML geschätzt.
Der Parameter β kann idR nicht als marginale Veränderung angesehen werden. Die Veränderung von y bei einer
Veränderung von x hängt vom aktuellen Niveau von x ab. Es kann „nur“ das Vorzeichen direkt interpretiert werden
und die Signifikanz.
Modell
Binominal
y
(x stets metrisch)
binominal
= 2 Ausprägungen
Multinominal
nominal
> 2 Ausprägungen
Tobit
metrisch
begrenzter Wertebereich
Selektions
metrisch
begrenzter Wertebereich
Verweildauer
stetig oder diskret (Zeit)
>0
Diskret, geordnet,
natürlich, > 0
Zähldaten
Untermodelle
Beschreibung
Random-Utility
Schwellenwert
Nutzen-Vergleich einer Person zweier Alternativen
Konstante oder variable Schwelle unterteilt
Regressionsmodell
Nominale
Nutzen-Vergleich einer Person mehrerer Alternativen
Ordinal
Mehrere konstante oder variable Schwellen, die geordnet
werden können, unterteilen Regressionsmodell
Unabhängige Variablen, die Trennung (Schwelle) bestimmen, sind die gleichen
wie im Regressionsmodell
Trunciert
Werte, die über- bzw unterhalb einer Schwelle liegen,
werden ignoriert.
Zensiert
Werte, die über- bzw unterhalb einer Schwelle liegen,
werden auf den Schwellenwert gesetzt.
Zuerst mit Selektionsgleichung (Schwellenwertmodell), die Daten in Werte, die
über- bzw unterhalb einer Schwelle liegen, teilen.
Danach Regression (Grundgleichung) der zensierten bzw truncierten Werte
(eigentliche Regression) die zensierten bzw truncierten Werte.
Die unabhängigen Variablen sind anders als beim Tobit-Modell unterschiedlich
in der Selektionsgleichung und dem Regressionsmodell.
Frage nach der Dauer eines Ereignisses
Frage nach der Anzahl von Ereignissen innerhalb einer bestimmten Zeitspanne
1 Qualitative abhängige Variablen
1.1 Binominale Modelle
Problemstellung: abhängige Variable y ist binominal, unabhängige Variablen x sind metrisch
©Karin Soltermann
Seite 16 von 43
Angewandte Ökonometrie
WS05/06
1.1.1 Schwellenwert Modelle
Überlegung: Die wahre abhängige Variable yi* stellt ein kontinuierliches, nicht beobachtbares Mass dar.
Beobachtbar ist jedoch nur die Variable yi, die zwei Werte annehmen kann.
Modell für y
yi* = xi’α + εi mit ε ~ ZV(0, σ2) ⇒ geschätzt: yi* = xi’b + εi
{
E(yi) =
>
i = variabel
≤ γ ( i ) }Schwelle ohne i= konstant
yi = 10 falls y *i
Binominales y
E(xi’α + εi) = xi’α E (-∞,+∞)
1P(yi = 1) + 0P(yi = 0) = P(yi = 1) E [0,1]
Widerspruch!!!
Fehlspezifikation: A02 wird verletzt
P(yi = 1) = P(yi* > γ(i))
aufgrund Symmetrie
= P(xi’α + εi > γ(i)) = P(εi > γ(i) - xi’α) der
Verteilung
  → P(εi < xi’α - γ(i)) = F(xi’α - γ(i))
or
 Zeilenvekt
γ
 in}X Kα,1 K(,i1)
E(yi) = P(yi = 1) = P(yi* > γ(i)) = pi = F  xi
−
σ
 1, K σ

Standardisierung
( xstand =
x−µ
σ
)


 = F(xiβ)


{→ yi = xiβ + εi mit E(yi) E [0,1]} , Vereinfachung: xi’ = Zeilenvektor xi)
Vereinfachung, Zusammenfassung
► β wird durch ML geschätzt, wobei F(xiβ) geeignet gewählt wird.
Schwelle
zu
Zeilen  βzu1 βzu2
β K vektoren 

}
}
}
}
β2
βK 
 678 }
}

'
1
x
L
x
=
x1 

12
1K
α K 
   α1 − γ α 2

; X = M
M O M
M 
, ,K,
β  =

K

σ
σ
σ
,
1

 
1 x N 2 L x NK = x N 










zu
zu
zu
zu Zeilen −
 β1.1 β1.2
β2
β K vektoren 
 } } }
}
}
β1.1 β1.2 β 2
βK


} } }
}
 1 γ 1 x12 L x1K = x1 
'


α
   α1 1 α 2
, , ,K, K  ; X =  M
M
M O M
M 
β  =
1 γ
σ 
 K ,1   σ σ σ
L
x
x
=
xN 
N
N2
NK









β1
γ konstant
γi variabel, beobachtbar
pro Beobachtung i
Betrachtung der Annahmen des linearen Regressionsmodells
bei yi =1, im Modell yi *i >γ geschieht mit W' k:
i
6474
8
(1 − xi ' β )
E(εi)
}
pi
ε
Var(εi)
→ Heteroskedastie
+ (− xi ' β )(1 − pi ) = 0 => A2 i.o.
ε
*
*
1 , yi > γ
y = 0 , yi ≤ γ
6y =7
8
6
78
(1 − xi ' β ) 2 pi + (− xi ' β ) 2 (1 − pi ) = (1 − pi ) pi
=> dh variable Varianz, da pi je nach Beobachtung sich ändert: A3&A4 wird verletzt
1.1.2 Stochastische Nutzenmodelle (Random Utility)
Person i ( i = 1,…, N) kann zwischen zwei Alternativen mit folgenden Nutzenfunktionen wählen:
u i*1 = α 01
u i*2 = α
02
{
verschiedene
Niveaus
+ α
+ α
{
z i1
zi2
{
gleiche personenspezifische
Gewichte Alternativ merkmale
+
+
γ1
γ{2
xi1
xi 2
{
+
+
unterschie dliche personenspezifische
Gewichte Alternativmerkmale
η1
η{2
si
s{i
unterschie dliche nur personenspezifisch,
Gewichte nicht alternativ abhängig
+
+
ε i1
ε{
i2
personen - und alternativspezifisch e
stochastis che Fehler
→ Es können mehrere αz, γx, ηs vorkommen!!!
>
1
1
yi =  fallsu *i1 u *i2 dh Wahlder Alternative
≤
2 bzwindifferent
0
©Karin Soltermann
Seite 17 von 43
Angewandte Ökonometrie
WS05/06
P(yi = 1) = P(ui1* > ui2*) nach Einsetzen obiger Formeln, Umformungen, Symmetrieannahme
= P[εi1 – εi2 < (α01 – α02) + α(zi1 – zi2) + γ1xi1 – γ2xi2 + si(η1 – η2)]
= F(εi1 – εi2)[(α01 – α02) + α(zi1 – zi2) + γ1xi1 – γ2xi2 + si(η1 – η2)] = F(Xβ) dh mit der Verteilung von (εi1 – εi2)
χ

6447
448 


(
α
α
−
X 444444
02 ) σ 
47
8  01

 644444
ασ

1 ( z11 − z12 ) x11 x12 s1 



Standardisiert: F  M
M
M
M
M 
γ1 σ



γ2 σ

1 ( z N 1 − z N 2 ) x N 1 x N 2 s N 
 (


 η1 − η 2 ) σ  



In Frage kommende (Verteilungs-) Funktionen (pro Person i)
Probit Modell
> Falls εi1 , εi2 ~ NV2(0 , 0, σ12, σ22 , ρ): Standardisierung von β zur SNV mit √( σ12 + σ22 -2ρσ1σ2)
Logit Modell
> Falls ε i1 , ε i 2






2
2
~ W
, σ , 0{  → Standardisierung von β mit [σ√(2*3)] / Π
{  0, 0, σ
1
2
3
Weibull
Unabhängig
gleiche Varianzen
Verteilung 
14442444
3 

Annahmen


1.1.3 Lineares Wahrscheinlichkeits-Modell
Die binäre Variable wird durch ein KQ-Modell geschätzt.
yt
67
8  0 falls xi β < 0
pi = P( yi = 1) = P( y > γ ) = P(ε i < xiα − γ i ) = F ( xi β ) =  xi β falls 0 ≤ xi β ≤ 1
 1 falls x β > 1
i

*
i
1 – pi = P(yi = 0) = 1 – F(xiβ)
Dies führt zu: E(yi) = F(xiβ)
Um eine korrekte Modellspezifikation zu erhalten, muss nach einer (Verteilungs-)Funktion
pi = F(xiβ) E [0, 1] gesucht werden.
Exkurs: ML-Schätzung des Parametervektors β
Mit binominalverteiltem y, dh Binominalverteilung anwenden
N
Likelihood Funktion (Binäre W’k):
L(β ) = ∏ P{y i = 1 | xi ; β } i P{yi = 0 | xi ; β }
1− yi
y
=
i =1
∏ F (− β ' x )∏ [1 − F (− β ' x )]
i
yi = 0
i
yi =1
Substituieren durch die Modell-Funktion, davon ln(.):
N
N
i =1
i =1
ln L(β ) = ∑ y i ln F (xi β ) + ∑ (1 − y i ) ln (1 − F ( xi β ))
1. Ableitung gleich 0 setzen und nach β auflösen, wobei F(xiβ) ausgewählte (Verteilungs-)Funktion ist:

y i − F (xi β )
∂ ln L(β ) N 
= ∑
f ( xi β )xi = 0
∂β
i =1  F ( x i β )(1 − F ( x i β ))
144444244444
3
generalisi ertes Residuum
©Karin Soltermann
Seite 18 von 43
Angewandte Ökonometrie
WS05/06
Interpretation der Parameter βk
Eine mögliche Methode:
∂E ( y ) ∂P ( y = 1) ∂F ( xi β )
=
=
= f ( xi β )β k
∂xk
∂xik
∂xik
Dh. Wie verändert sich die Wahrscheinlichkeit von yi, wenn xik um 1 erhöht wird.
→ Eine marginale Veränderung von xik auf P(yi = 1) hängt vom Niveau des Zeilenvektors xi ab!!!
Direkt interpretiert werden kann das Vorzeichen und die Signifikanz
In Frage kommende (Verteilungs-) Funktionen (pro Person i)
Probit Modell
Standardnormalverteilung z ~ (0, 1): Verteilung f(z) = φ (z) = F’(z) , Dichte F(z) = P(x ≤ z) = Φ(z) = ∫f(z)dz
pi = F ( x i β ) = [ x i β ] = Φ ( x i β ) =
xi ' β
 1 
exp − u i2 du i mit εi ~ SNV(0, 1)
2π
 2 
1
∫
−∞
> Falls εi ~ NV(0, σ2): Standardisierung von β zur SNV mit σ
ML-Schätzung des Parametervektors β:
max L =
N
∏ P( y
= 1) P ( yi = 0 )
1− yi
yi
i
i =1
yi
  β ' xi   
 β ' xi  
= ∏ Φ 
 1 − Φ

 σ 
i =1   σ   
N
1− yi
> Schätzungen in Formel einsetzen
∂Φ(xiβ)/∂xik = φ (xiβ)βk
Logit Modell (Standardlogistische Verteilung)
logistisch e
Regression sgleichung
1
pi = F ( x i β ) = [ x i β ] = Λ ( x i β ) =
=
1 + e − xi β
6
4Odds
74
8
 pi 

> Logit-Modell xi β = ln
 1 − pi 
678
e xi β
1 + e xi β
mit εi ~ SLV(0, Π2/3)
> Falls εi ~ LG(0, σ2): Standardisierung von β zur SLV mit (σ√3) / Π
exp( xi β ) 
∂ ln L(β ) N 
= ∑  yi −
x i = 0
∂β
1 + exp( xi β ) 
i =1 
→ nach β auflösen, einsetzen in Gleichung ergibt pˆ i = F(xiβ) = xiβ
ML-Schätzung von β:
> Schätzungen in Formel einsetzen
∂Λ ( xi β )
e xi β
=
∂xik
1 + e xi β
(
)
2
β k = F ( xi β )[1 − F ( xi β )]β k
1.2 Multinominale Modelle
Problemstellung: abhängige Variable y ist multinominal, unabhängige Variablen x sind metrisch
Likelihood-Funktion L =
©Karin Soltermann
N
J
i =1
j =1
∏∏ p
yij
ij
→ max Maximierung der W’keit aller Alternativen über alle Personen
β
Seite 19 von 43
Angewandte Ökonometrie
WS05/06
1.2.1 Geordnete Schwellenwert Modelle
Es existiert eine natürliche Ordnung der Alternativen j = 1,…, J
yi* = xi’α + εi mit ε i ~ ZV(0, σ2)
Modell
Unbeobachtbare Schwellen
B Beobachtbare variable Schwellen
(γ1 , γ2, … , γJ-1)
(Bi1, Bi2, … , BBi)
Schwellen
yi1 = 1 , wenn yi* ≤ γ1 , sonst 0
yi1 = 1 , wenn yi* ≤ B1i , sonst 0
yi2 = 1 , wenn γ1 ≤ yi* < γ2 , sonst 0
yi2 = 1 , wenn B1i ≤ yi* < B2i , sonst 0
…
…
yiJ = 1 , wenn γJ-1 < yi*, sonst 0
yib+1 = 1 , wenn Bbi < yi*, sonst 0
Umformen
Umformen
W’keiten
α
α
B
 γ1
Standardis ieren
Standardis ieren
P(yi1 = 1) =   → F  − xi 
P(yi1 = 1) =   → F  i1 − xi 
P(yij) = pij
σ
σ
σ
…
γ j
P(yij = 1) = F 
σ
− xi
γ
α
α
 − F  j −1 − xi 
σ
σ
 σ
…
 γ J −1
P(yiJ = 1) = 1 − F 
 σ
− xi
σ
…
P(yij = 1)
 Bij
= F 
σ
− xi
B
α
α
 − F  i , j −1 − xi 
σ
σ
 σ
…
α

σ
 Bi , B
P(yi,B+1 = 1) = 1 − F 
 σ
− xi
α

σ 
 α1 σ 


β = M 
α σ 
 K 
In Frage kommende (Verteilungs-) Funktionen (pro Person i)
Probit Modell
εi ~ NV(0 , σ2): standardisiert zur SNV mit σ ► F(·) = Φ(·)
Logit Modell
εi ~ LV(0 , σ2): standardisiert zur SLV mit σ√3 / Π ► F(·) = Λ(·)
1.2.2 Stochastische Nutzenmodelle (ungeordnete Modelle)
Es existiert keine natürliche Ordnung der Alternativen j = 1,…, J
Person i ( i = 1,…, N) kann zwischen J Alternativen wählen. Eine Alternative j folgende Nutzenfunktion:
vij
i und j personen - und alternativspezifisch
6444
47
4444
8

u = α ij + θz ij + γ j wij + η j s i + ε ij bei Variablen mit Index  i
nur personenspezifisch
 j
nur alternativspezifisch

*
ij
→ Es können mehrere θz, γw, ηs vorkommen!!!
Vergleich zwischen zwei beliebigen Alternativen:
j1
>
1
yij =  fallsu *ij1 u *ij2 dh Wahlder Alternative
j2 bzwindifferent
≤
0
Ges. Wahrscheinlichkeit, dass eine Alternative j1 gewählt wird im Vergleich mit einer anderen Alternative j2
(
)
(
)
(
)
Umformung und
(
)
(
der Verteilung
P y ij1 = 1 = P u ij*1 > u ij*2 = P vij1 + ε ij1 > vij2 + ε ij2 Symmetrie

 → P ε ij1 − ε ij2 < vij1 − vij2 = F vij1 − vij2
wobei gilt:
(
) (
)
(
)
)
vij1 − vij2 = α j1 − α j2 + θ z ij1 − z ij2 + γ j1 wij1 − γ j2 wij2 + η j1 − η j2 si → standardisieren zu Xβ
©Karin Soltermann
Seite 20 von 43
Angewandte Ökonometrie
WS05/06
Somit ist
χ

6447
448 

X
α
α
σ 
−

j2
8  j1

 64444447444444
θ σ
w1 j1 w1 j2 s1 

1 z1 j1 − z1 j2



γ j1 σ
F M
M
M
M
M 





1 z Nj1 − z Nj2 x Nj1 w Nj2 s N  γ j2 σ
 η − η σ 

j2
 j1




(
)
(
)
(
)
(
)
Summation der Wahrscheinlichkeiten aller möglichen Vergleichen zwischen einer Alternative j und den anderen:
Wahrscheinlichkeit, dass Person i Alternative j wählt:

p

647ij 4
8
P ( y ij = 1) = F  vij − vi1 , vij − vi 2 , K , vij − vij −1 , vij − vij +1 , K , vij − viJ
144
42444
3

Vergleich mit sich selbst

ist unnütz!!!



 → J-dimensionale Verteilung



► Problem: Unterschiedliche Werte können trotzdem gleiche Differenzen ergeben!!!
Vergleiche sind nicht zwischen Personen möglich: interpersonelle Nutzenvergleiche sind nicht möglich
In Frage kommende (Verteilungs-) Funktionen (pro Person i)
Benötigte Annahme, dass cov(εi, εk) = 0
Probit Modell
εi ~ NVJ(0 , Ω) und F(·) = NJ-1(0 , Ω)
Logit Modell
 J
 vij − vik
εi ~ WJ(0 , σ I) und F (⋅) =  ∑ exp −
 k =1
σ


2

 

exp(vij σ )
−1
=
J
∑ exp(v
ik
σ)
k =1
entspricht der WS, dass Person i die Alternative j wählt!
→ Standardisierung von β mit ( )Π / [σ√3]
> Verhältnis zwischen zwei Alternativen j, k einer Person i:
pij
p ik
=
exp(vij σ )
exp(vik
 pij 
 =
, dh ln
σ)
 pik 
vij − vik
σ
Independence of irrelevant Alternatives (IAA) – Annahme
Dh das Verhältnis zwischen zwei Alternativen bleibt sich gleich, egal wie viele neue Alternativen noch
dazukommen. So kann dieses Verhältnis aus jedem beliebigen Subset der Alternativen berechnet werden.
Geg. Nutzenfunktion einer Person vij = α ij + θz ij + γ j wij + η j si ∀ j = 1,..., J
Ges. Interpretation der Parameter
Elastizitäten
Alternativbeschreibende Variablen x = z bzw w (Betrachtung einer Person i)
Kreuz-: Wie verändert sich die %-tuale Wahrscheinlichkeit pij der Alternative j, wenn sich die Variablen xik der
anderen Alternative k %-tual ändert?
zik oder w ik
e
pij
xik
x ∂pij ∂pij ∂vik
= ik
=
∂xik pij
∂vik ∂xik
{
{
}
xik
pij
= oder c
− pik θz ik
− pik γ k wik
− pij pik θ oder γ k
©Karin Soltermann
Seite 21 von 43
Angewandte Ökonometrie
WS05/06
Eigen-: Wie verändert sich die %-tuale Wahrscheinlichkeit pij der Alternative j, wenn sich die eigenen
Variablen xij %-tual ändert?
zik oder w ik
e
pij
xij
=
xij ∂pij
∂xij pij
=
∂pij ∂vij
}
xij
∂vij ∂xij
{
{
pij
= oder c
(1 − p )θz
(1 − p )γ w
ij
ij
ij
j
ij
(
)
Personenbeschreibende Variablen s
Wie verändert sich die %-tuale Wahrscheinlichkeit pij der Alternative j, wenn sich die Person i %-tual ändert?
pij 1− pij θ oder γ j
p
esi ij =
J
J
s i ∂p ij

 s


= pij η j − ∑ p ikη k  i = s i η j − ∑ p ikη k 
∂si pij
p
k =1
k =1
4


14
42
444
3 ij
∂pij ∂si
2 Tobit Modelle
Werte von y sind stetig und gehören in einen beschränkten Bereich
Modell
yi* = xiβ + εi mit ε i ~ NID(0, σ2)
2.1 Gestutzte Modelle (truncated regression model)
Entfernen der Werte, die sich ausserhalb Schwelle befinden.
Linksstutzung
bzw
Rechtsstutzung

y *i
falls y *i > γ
yi = 
nicht beobachtet sonst
z i = xi

y *i
falls y *i < γ
yi = 
nicht beobachtet sonst
β γ
−
σ σ
Frage: Darf ich die „nicht beobachteten“ yi’s einfach ignorieren und direkt yi = xiβ + wi berechnen? Dh werden die
OLS-Annahmen von wi eingehalten?
©Karin Soltermann
Seite 22 von 43
Angewandte Ökonometrie
WS05/06
Hier am Beispiel der Linksstutzung
yi *


6
47
4
8
 εi εi γ β 

 
zu
σ
1) E(wi) = E ε i | xi β + ε i > γ Umformen

→
E
 | > − xi  mit Annahmen


σ σ σ σ 


Standardnormalverteilung (Symmetrie), bedingten Erwartungswertes (Verteilungsfunktion als Bedingung)
 β γ 
− 
σ σ

E(wi) = σ
=σ
λ{i
 β γ 
i
:
veränderl
ich
Φ xi − 
nach Beobachtun g
σ
σ


φ  xi
0
i.O.
 β γ  +∞
2
Wenn  xi −  →
, dann E(w i ) = +
∞ σ , sollte 0 sein, dh
{
nicht i.O.
 σ σ  −∞
Regel von
l' Hopital
 β γ  2
−  − λi 
 σ σ
var (ε )

yi *>γ

64748  Umformunge n,, Standardis ieren

 β γ
den Annahmen
Einschub: E(wi2) = E ε i2 | ε i > γ − xi β  unter


→ σ 2 1 − λi  xi −


 σ σ



i.O.
σ2
 β γ  +∞
2
Wenn  xi −  →
, dann var(w i ) = σ , sollte sein, dh
nicht i.O.
0
 σ σ  −∞

2
2) var(wi) = E(wi2) – [E(wi)]2 = σ
{ 1 − λi  xi
3)
∂E ( y i ) ∂ ( xi β + σλi )
 x β −γ

=
= β k 1 − i
λi − λi2  =
∂x k
∂x k
σ


var(wi )
≠ βk
var(ε )
1442443
βk



,
 β γ 
nur wenn var ( wi )= var (ε ), dh bei  xi − →∞
 σ σ
E(yi) = E(yi*|xi, yi* > bzw < γ) = E[xiβ + wi] = xiβ + σλi
zi
Rechts 

647
48
64Links
74
8
6
4
74
8


− φ (zi )
φ (zi )
 β γ  2
2
var(yi) = var(yi*|xi, yi* > bzw < γ) = σ
bzw
{ 1 − λi  xi −  − λi  mit λi =
Φ ( zi )
1 − Φ(zi )
 σ σ
var (ε )



©Karin Soltermann
Seite 23 von 43
Angewandte Ökonometrie
WS05/06
2.2 Zensierte Modelle (censored regression model)
Werte dem Schwellenwert gleichsetzen, die sich ausserhalb Schwelle befinden.
Linkszensierung
bzw
Rechtszensierung
 y * falls y *i > γ
yi =  i
sonst
γ
 y * falls y *i < γ
yi =  i
sonst
γ
E(yi | xi) = xiβ + σ[λiΦi – zi(1-Φi)] = xiβ + σ[φi – zi(1-Φi)]
= xiβ + σ[λi(1-Φi) – ziΦi] = xiβ - σ[φi – ziΦi]
var(yi | xi) =
Linka Rechts 6
78
64
74
8
Rechts Links Rechts
- 
6
78 
6
7
8
}}
Links


φ
(
z
)
−
φ
(
z


2
i
i)
bzw
σ{2  Φ i bzw (1 - Φ i ) 1 − zi λi − λi2 + (zi + λi ) (1 − Φ i ) bzw Φ i  mit λi =
Φ(zi )
1 − Φ(zi )
var (ε )




(
)
Aufgrund der Eigenschaften des Fehlerterms kann man die Tobitmodelle nicht einfach per OLS schätzen.
2.3. Schätzverfahren
Hier am Beispiel der Linkstruncierung bzw. -zensierung
yi* = xiβ + εi mit ε i ~ NID(0, σ2)
yi = yi* und di = 1, wenn yi* > yi und bei zensiertem Fall: yi = γ und di = 0 sonst
Abstand von β’xi zu γ in Standardabweichungseinheiten z i =
β ' xi − γ
= α ' xi
σ
(analog Schwellenwertmodelle mit konstanter Schwelle)
2.3.1 Heckman-Verfahren bei Tobitmodellen
1. Stufe: Probit-Schätzung der Wahrscheinlichkeit der Nicht-Truncierung bzw. –Zensierung
Li = [P ( yi * > γ )] i [P ( yi * ≤ γ )]1 − d Mit ML : Erhalte als Ergebnis
14
4244
3 14243 → αˆ
d
Φ ( zi )
1−Φ ( zi )
2. Stufe: OLS bzw. GLS-Schätzung der yi - Gleichung
αˆxi
}
φ (zi )
λi =
Φ (zi )


(
)
1442443 
Truncierter Fall: yi = β ' xi + σλˆi + η i , wobei η i ~ ZV  0, σ 2 1 − z i λi − λi2 



Heteroskedastie!
Zensierter Fall:


ˆ i + η i , wobei η i ~ ZV 0, σ 2 1 − z i λi − λi2 + ( z i + λi )2 (1 − Φ i ) Φ i 
yi = β ' xi + σ φˆi − zˆ i 1 − Φ
4244444443 
 1444444
Heteroskedastie!

[
©Karin Soltermann
(
)]
[(
)
]
Seite 24 von 43
Angewandte Ökonometrie
WS05/06
2.3.2 MLE bei Tobitmodellen
 P( yi ) 
Truncierter Fall: Li = 
 → Problem: da Bruch = unlinear, ist dieses Modell schwer zu berechnen!!!
 P( yi * > γ )
di
Zensierter Fall: Li = [P ( y i )]
di
[P( yi * ≤ γ )]1 − d
yi *

647
4
8
1  y − β ' xi 

wobei P ( y i ) = P y i = β ' xi + ε i  = P (ε i = y i − β ' x i ) = φ  i

σ 
σ





P ( y i * > γ ) = Φ ( z i ) , P( y i * ≤ γ ) = 1 − Φ ( z i )
2.4 Test der Tobitspezifikation
Hier am Beispiel der Linkstruncierung bzw. -zensierung
Gemäss Modell beträgt die Wahrscheinlichkeit, dass eine Beobachtung i nicht linkszensiert bzw. –trunciert ist:
γ 
β
P ( y i * > γ ) = Φ xi −  mit der Regressionsgleichung yi* = xiβ + εi mit ε i ~ NID(0, σ2)
σ
σ
Dh LZi = LTi LPi , wobei
Zensiertes Modell: LZi = [P( y i )]
[P( yi * ≤ γ )]1 − d
d
 P( yi ) 
Trunciertes Modell: LTi = 

 P( yi * > γ )
d
1− d
Probit Modell (1.Stufe Heckman) LPi = [P ( y i * > γ )] [P ( y i * ≤ γ )]
di
i
i
(Modell, indem bestimmt wird, ob y über- bzw unterhalb der Schwelle liegt)
→ Log Likelihoodfunktion der Modelle L? = ∏L?i
H0: „Tobit-Annahme trifft zu“
Lagrange-Test-Statistik:
λ = -2{ln(LZ) – [ln(LP) + ln(LT)]} ~ χ2(K) , dh Anzahl Freiheitsgraden wie Regressoren im Vektor x
⇒ Im Tobitmodell sind die Variablen, die die Zensierung bzw Truncierung bestimmen, dieselben die man im
zensierten bzw truncierten Modell als unabhängige Variablen gebraucht.
⇒ Bei den Selektionsmodellen bestimmen andere Variablen die Zensierung bzw Truncierung als diese für das
schlussendliche Modell.
3. Selektonsmodelle
Eine Selektionsgleichung trennt die Daten, ob sie über- bzw unter einem Schwellenwert liegen. Die
Grundgleichung bezieht sich dann nur noch auf die gestutzten bzw truncierten Daten. Anders als bei den
Tobitmodellen sind die unabhängigen Variablen der Selektionsgleichung nicht dieselben wie in der
Grundgleichung.
→ Zur Bestimmung der Eigenschaften der Fehlerterme der „Gesamt-Modelle“ gleiches Vorgehen wie bei
Tobitmodellen mit yi = xiβ + wi
©Karin Soltermann
Seite 25 von 43
Angewandte Ökonometrie
Trennwert
Selektionsgleichung
WS05/06
γ0
Ii* = α’vi + ε0i
Links- und Rechts- beziehen sich auf ε0i, die nur trunciert ist. Denn diese Gleichung trennt die
Daten in über-bzw unter der (Trenn-)Schwelle.
Abstand vom Vergleichswert in Standardeinheiten: z 0 i =
α ' vi − γ 0
σ0
y1i* = β1’x1i + ε1i
-Zensierung und –Truncierung bezieht sich auf ε1i
ε0i , ε1i ~ N(0, 0, σ02, σ12, ρ01)
→ Annahme der Normalverteilung
Grundgleichung
Stochastik
Damit gilt
(für MLE)
P (I i * > γ 0 ) = Φ ( z i 0 ) , P( y1i ) =
P (I i * > γ
0
1  y1i − β 1 ' x1i
φ
σ1
σ 1 

 ,

σ 01

( y 1i − β 1 ' x1i ) − γ
 α 'vi +
σ 12

| y 1i ) = Φ

σ 0 1 − ρ 012


0






Gestutzung (truncierte) Modelle bezogen auf y1i* bzw ε1i
Linkstruncierung von ε0i
Rechtstruncierung von ε0i
y1i = y1i* und di = 1, wenn Ii* > γ0
y1i = y1i* und di = 0, wenn Ii* < γ0
λ0i =
φ ( z 0i )
λ0i =
Φ( z 0i )
(y1k* | x1i, Ii* > γ0)
c=
− φ ( z 0i )
1 − Φ( z 0i )
(y1k* | x1i, Ii* < γ0)
E ( vi ) =
E (ε1i |I i *> bzw <γ 0 )
6
474
8
E [c ] = β1 ' x1i + ρ 01σ 1λ0i
[
Var [c ] = σ 1 − ρ
2
1
2
01
(z
0i
λ0i + λ
2
0i
)]
=Var ( vi )
6444
4
74444
8
= Var (ε 1i | I i * > bzw < γ 0 )
MLE
 P  I i * > γ 0 | y1i  P  y1i  
 6447448

P(I i * > γ 0 , y1i ) 



P (I i * > γ 0 )




Li =
di
 P I i * < γ 0 | y1i  P y1i  
8 
 644744
(
γ
P
I
*
<
,
y


i
0
1i )


P(I i * < γ 0 )




1− d i
Zensierte (gestauchte) Modelle bezogen auf y1i* bzw ε1i
Linkstruncierung von ε0i
Rechtstruncierung von ε0i
y1i = y1i* und di = 1, wenn Ii* > γ0
y1i = y1i* und di = 0, wenn Ii* < γ0
y1i = γ1 und di = 0 sonst
y1i = γ1 und di = 1 sonst
a = Φ0i, b = φ0i , c = 1 – Φ0i
a = 1 – Φ0i , b = φ0i , c = Φ0i
Erstgleichung
E [ y1i | x1i ] = β1 ' x1i (a ) + ρ 01σ 1 (b ) + γ 1 (c )
MLE
Li =



1− d i 
[P(I i * ≤ γ 0 )]  1
P(I i * > γ 0 , y1i ) 
442443
 
 

P
I
*
  i > γ 0 | y1i  P  y1i  
di




P (I i * < γ 0 , y1i ) 
 1
442443
 
 

P
I
*
  i < γ 0 | y1i  P  y1i  
1− d i
[P(I i * ≥ γ 0 )]di
⇒ Bei Tobit ist α (von I*) = β (von y*) , v = x und w ε0i = ε1i (dh ρ01 = 1)
©Karin Soltermann
Seite 26 von 43
Angewandte Ökonometrie
WS05/06
4. Verweildauermodelle
betrachten die Dauer eines Ereignisses oder die Zeitdauer zwischen Ereignissen (zB Arbeitslosigkeit, Armut,
Streiks, Firmenexistenz).
Zentrale Funktionen
-funktion
VerteilungsWahrscheinlichkeits-
Berechnung
F(t) = P(T<t)
f (t ) = lim
dt →0
Verbleib- (Survivor-)
Hazard(Übergangsrate)
Integrierte Hazard(Risikofunktion)
P (t ≤ T < t + dt ) ∂F (t )
=
dt
∂t
S(t) = P(T ≥ t) = 1- F(t) = exp[-Λ(t)]
P (t ≤ T < t + dt | T ≥ t )
dt →0
dt
f (t ) ∂ ln S (t )
=
=
S (t )
∂t
h(t ) = lim
t
t
0
0
Λ (t ) = ∫ h(s )ds = ∫ −
Schätzverfahren
Schätzverfahren
Nicht-parametrische
∂ ln S (s )
= − ln S (t )
∂s
Wahrscheinlichkeit, dass
die Dauer T kürzer ist als t ist.
die Dauer T genau t ist.
die Dauer T grösser oder gleich t ist
die Dauer T genau t ist und bekannt ist, dass
die bereits verlaufene Zeit gleich oder grösser
t ist. Dh, WS dass nach bereits verlaufener
Dauer t das Ereignis beendet wird (T = t).
die bis zu t angesammelte Wahrscheinlichkeit
(Risiko), dass innerhalb der verlaufenen Zeit
das Ereignis beendet ist .
Definition
Verteilungstyp unbekannt, wird
geschätzt
Semi-parametrische
Parameterschätzung ohne
Verteilannahme
Verteilannahme unbekannt, wird
angenommen
Gestalt der Hazard-, Survivorfunktion
festlegen
Parametrische
Gebrauch:
Schätzung in diskreter Zeit bzw
mit gruppierten Dauern
(„Sterbetafelmethode“)
Schätzung in diskreter bzw
stetiger Zeit
Proportionales Modell
Akzeleriertes Modell
5. Zähldatenmodelle
betrachten die Anzahl der Ereignisse (zB Patentanmeldungen, Berufsunfälle, Reisen, Insolvenzen) in einem
gegebenen Zeitraum.
Poisson-Verteilung gibt die Wahscheinlichkeit an, dass ein Ereignis genau yi-mal innerhalb eines bestimmten
Zeitraumes eintritt.
P( y = yi ) =
λy
i
yi !
exp(− λ ) , yi stetig, ≥ 0, Intensitätsrate λ = E(y) = Var(y)
Poisson-Regressionsmodell
}
 Anzahl
Spezifikation λi = E  y i |

} 
xi  = exp(β ' xi )

Zeitraum
→ Die Parameterschätzung erfolgt mit der ML-Methode
Parameterinterpretation
©Karin Soltermann
∂E [ yi | xi ]
∂ ln E [ yi | xi ]
= exp(β ' xi )β bzw β =
∂xi
∂xi
Seite 27 von 43
Angewandte Ökonometrie
WS05/06
Zeitreihenökonometrie
⇒ Bei Zeitreihendaten werden die nötigen Annahmen zur OLS-Methode oft nicht erfüllt!!!!
Vor allem:
• Annahme A1 E(ε|X), E(ε) = 0 verletzt: Nichtstationarität
random walk: Eine Variable ist abhängig von ihren vergangenen Werten, dh yt = f(yt+k), k ∈ (0, +∞]
• Annahme A3 V(ε), V(ε|X) mit A1: E(εε’) = σ2 verletzt: Heteroskedastizität (anstatt Homo-)
• Annahme A4 cov(εiεj) mit A1: E(εiεj) = 0 verletzt: Autokorrelation
6
474
8tie
 Homoskedas
2
 σ t = σ 2
E (ε t ' ε t ° )
∀ t = 1,..., T ⇒ A3&4: V(ε|X) = V(ε) = σ2I
2
t ,t ° = 0
 σ
1
4
24
3
keine Autokorrelation
Geeignete graphische Darstellung geben meist (nicht immer!) erste Hinweise auf die möglichen Verletzungen der
OLS-Annahmen.
zB y-Achse: e und x-Achse: t
Heteroskedastie
Autokorrelation
Welches Vorgehen wird wann gebraucht?
Vorgehen/Problem
Heteroskedastizität
Beschreibung
Varianz der Fehlerterme
ist nicht konstant
Autokorrelation
Fehlerterme sind
korreliert
Endogenität
Exogene Variable x ist
stochastich (dh keine
Zufallsvariable). Sie
kann wie in einem
Experiment kontrolliert
werden
Zuordnung in exogene x
bzw endogene y
Variablen unklar
Der Erwartungswert und
die Varianz verändert
sich über die Zeit
Variablen ändern sich
gleich über die Zeit. Sie
können als
Linearkombination
aufgeschrieben werden
Vektorautoregressive
Modelle
Nicht-Stationarität
Kointegration
©Karin Soltermann
Tests, ob Problem vorliegt
Goldfeld-Quant, BreuschPagan,
White
Durbin-Watson, Lagrange
Multiplier, Box-Pierce,
(Breusch Godfrey)
(GMM),
GIV, 2SLS
Lösung
GLS, HC(White)Matrix
Ökonomische Gedanken
Informationskriterien zur Auswahl
der optimalen Lag-Anzahl
(Augmented) Dickey Fuller
ARMA
Engle-Granger (ob
Kointegration
überhauptvorliegt)
Johanson (wie viele
Variablen kointegriert sind)
Fehlerkorrekturmodell
HAC-Matrix
GLS
Seite 28 von 43
Angewandte Ökonometrie
WS05/06
1 Annahme: V(ε|X) = σ2Ψ, dh A3 u/o A4 verletzt, A1 i.o.
→ OLS-Schätzung ist erwartungstreu, aber ineffizient (nicht minimale Varianz)
1.1 Lösungsansätze
1.1.1 Missspezifikation aufheben, dh passendere funktionale Form auswählen
Art
Modell
Steigung Elastizität Grafiken
Linear
Reziprok
Log-log
yt=β1+β2xt+et
β2
β2(xt/yt)
yt=β1+β2(1/xt)+et
β2(1/xt2)
β2(1/xtyt)
β2(yt/xt)
ln(yt)=β1+β2ln(xt)+et
ln(y) = β1 + β2ln(x)
ln(y) = β1 + β2ln(x)
8
8
β2 > 1
β2
0
ln(yt)=β1+β2xt+et
β2yt
β 2 xt
Linear-log
yt= β1+β2ln(xt)+et
β2(1/xt)
β2(1/yt)
Log-Invers
ln(yt)= β1-β2(1/xt)+et
β2(yt/xt2)
β2(1/xt)
β2 > 0
-1<β2<0
β2 > 0
Log-linear
Y = β1 + β2·(1/x)
14
β2>-1
20
Log-log
0
β2= -1
2 0
ln(y) = β1 + β2x
β2 < 0
- 10
1 Log-log
y = β1 + β2ln(x)
Reciprocal
ln(y) = β1 + β2(1/x)
16
4
β2>0
β2 > 0
1
0
β2 < 0
0
β2 > 0
β2<0
2
Log - linear
5.5 0
log - inverse
linear - log
5.5
1.1.2 Generalized Least Squares GLS (Variante der OLS-Methode)
Kovarianzmatrix der Fehlerterme
= V(ε | X) = σ2Ψ
Spezifische Probleme:
Heteroskedastie Autokorrelation
Unterteile Ψ-1 = P’P (da Ψ somit auch Ψ-1 positiv definit; P quadratisch, nichtsingular)
Somit ist Ψ = P-1(P’)-1 und PΨP’ = I
y*
ε*
X*
}
}
}
Transformiertes Modell: Py = PX β + Pε
σt2
≠0
≠0
σT2
A1: E(Pε | X) = PE(ε | X) = 0 und damit V(Pε | X) = E(Pεε’P’|X) = σ2PΨP’ = σ2I
dh A3 & A4 erfüllen die transformierten Daten
(
)
[
] (PX ) Py = (X Ψ X ) X Ψ y
6447448
) (y * − X * βˆ ) = (y − Xβˆ ) Ψ (y − Xβˆ )
−1
T
GLS
= X *T X * X *T y* = (PX ) PX
GLS-Schätzer: βˆ
GLS-Fehlervarianz: σˆ
( GLS ) 2
(y * − X * βˆ
=
−1
T
−1
−1
T
−1
T
ε*
GLS T
GLS T
GLS
N−K
−1
GLS
N−K
GLS-KoVarianzmatrix: „Sandwichformel“: V(b|X) = E[(X’X)-1X’εε’X(X’X)-1]
→ mit V(ε|X) = σ2Ψ: OLS-Kovarianzmatrix V(b|X) = σ2(X’X)-1X’ΨX(X’X)-1
(
)
(
)
−1
| X ) = σ b = σˆ X * X * = σˆ X Ψ X
→ mit A3 & 4 der transformierten Daten: V ( βˆ
Der GLS-Schätzer hat eine kleinere Varianz als der OLS-Schätzer (vgl GLS- mit OLS-Kovarianzmatrix)
GLS
2
2
T
2
T
−1
Gauss-Markov-Aitken-Theorem (GM)
Die KQ-Schätzung von GLS b mit der Varianz-Kovarianzmatrix V(b) sind BLUE, dh die beste (homogene) lineare
erwartungstreue Schätzung von β (unter der Bedingung, dass Ψ bekannt ist).
Durch Transformation werden alle Parameter betroffen: Bei Interpretation beachten / R2 nicht interpretierbar
Problem: Falls Ψ nicht bekannt somit geschätzt werden muss bzw. falsch angenommen wurde, bleibt b
erwartungstreu, aber die geschätzte Varianz σ2 mittels GLS wird verzerrt.
→ GLS
 bekannt
Ψ (positiv - definit ) = 
unbekannt → 1)Ψ schätzen 2) FGLS oder EGLS
1.1.3 OLS beibehalten, aber Fehlerterme anpassen → siehe jeweilige Problemfelder
©Karin Soltermann
Seite 29 von 43
Angewandte Ökonometrie
WS05/06
2 Heteroskedastizität
Annahme A3: V(ε), V(ε|X) mit A1: E(εε’) = σ2 verletzt
dh nicht autokorrelierte Störvariablen mit unterschiedlichen Varianzen: V (ε | X ) = σ 2 Ψ = diag σ t2
2.1 Auswirkungen
Immer noch erwartungstreue Punktschätzer β, aber zu grosse Varianz (ineffiziente Schätzer). Somit sind
Konfidenzintervalle und t-, F-Tests falsch.
( )
2.2 Lösungen
2.2.1 GLS-Transformation
Ψ
6447
44
8
2
Ψ
6
47
4
8 Skalierung
}  h1 L 0 
2
2
V (ε | X ) = σ diag ht = σ 2  M O M  , somit ist Ψ-1 = diag(ht-2), P = diag(ht-1)
 0 L h2 
N 

( )
yi* = Py
}
T
 xt  GLS ε t
yt
Transformiertes Modell:
=   β
+
ht
ht
 ht 
( )
 εt
 ht
Durch Transformation von Hetero- auf Homoskedastie gebracht: Var ε t* = Var 
diag (ht )
−1

} 
 T

 N −2
 N −2
T
−1
−1
=  X Ψ X  X Ψ y =  ∑ ht xt xt '  ∑ ht xt y t
 t =1
 t =1




−2
Gewichteter GLS-Schätzer: βˆ GLS
N
∑h
GLS-Fehlervarianz: σˆ 2 =
−2
t
 Var (ε t )
 =
=σ2
2
h

t
(y
t
− xt ' βˆ
−1
)
2
t =1
N −K
 N

GLS-KoVarianzmatrix: V ( βˆ GLS | X ) = σ b2 = σˆ 2  ∑ ht− 2 xt xt ' 
 t =1

−1
→ h-Werte müssen bekannt sein, oft wird für ht2 = xt2 genommen, ansonsten kann GLS nicht verwendet werden
2.2.2 Heteroskedastizitätskonsistente (White-) Kovarianzmatrix (HC)
V(ε|X) = σ2Ψ = diag(σt2) ist nicht in deren Komponenten aufteilbar
OLS-Schätzer b „normal“ berechnen
}
et2 xi xi '
aus OLS
T
∑
( )
X ' diag σ t2 X
≡
=
T
T
∑ σ x i xi '
t =1
2
t
geschätzt
ersetze
σ t2 durch et2
 → S ≡
∑
t =1
T
T
diag (σ t2 )
−1
−1
644744
8
 T

 T

−1
−1
2
ˆ
Dh V (b | X ) = ( X ' X ) X ' diag
et
X ( X ' X ) =  ∑ xt xt '  TS  ∑ xt xt ' 
{
 t

 t

quadrierte
( )
OLS − Re suduen
©Karin Soltermann
Seite 30 von 43
Angewandte Ökonometrie
WS05/06
2.3 Tests auf Heteroskedastizität
Allg. Wenn H0: „Homoskedastie, keine Heteroskedastie“ verworfen wird, kann OLS nicht ohne Anpassung
angewendet werden.
2.3.1 Goldfeld-Quandt-Test
Stichprobe etwa gleichmässig aufteilen in Subsample mit potentiell grösserer [ σˆ12 ] und kleinerer [ σˆ 22 ] Varianz.
Also, H1: σˆ 12 > σˆ 22 und H0: σˆ 12 ≤ σˆ 22
Wenn Teststatistik: GQ = σˆ12 σˆ 22 > FT1 − K ,T2 − K , kann H0 verworfen werden.
2.3.1 Breusch-Pagan
Sei σt2 = σ2h(zt’α)
h ist eine unbekannte, von i unabhängige, stetig differenzierbare Funktion mit h(⋅) > 0 und h(0) = 1
zt ist ein beobachtbarer J-dimensionaler Vektor (J = Anzahl Parameter ohne Konstante bei 2)Regression).
H0 : α = 0, dh σt2 = σ2 (keine Heteroskedastizität)
1) Berechne via OLS: et = yt– xtb ; 2) Regressiere danach et2 auf zt und eine Konstante
3) Berechne aus der vorherigen Regression 2) TR2 = #Beobachtungen*Bestimmtheitsmass
Wenn Teststatistik: 4) TR2 > χ2J kann H0 abgelehnt werden.
Verallgemeinerung des Breusch-Pagan-Tests: White
Der White-Test verwendet alle x-Variablen sowie deren Quadrate und Kreuzprodukte als z-Variablen im BreuschPagan-Test.
3 Autokorrelation
Annahme A4: cov(εi,εj) = 0 mit A1: E(εiεj) = 0 verletzt
dh autokorrelierte Störvariablen mit konstanten Varianzen (keine Heteroskedastizität):
σ 2 = σ 2 für t = t °
E (ε t ε t ° ') =  t
 σ t ,t ° ≠ 0 für t ≠ t °
Die Reihenfolge der Beobachtungen ist relevant!
Ursache ua durch Auslassen von wichtigen Variablen oder Messfehler in X.
3.1 Auswirkungen
Immer noch erwartungstreue Punktschätzer β, aber zu grosse Varianz (ineffiziente Schätzer). Somit sind
Konfidenzintervalle und t-, F-Tests falsch.
Falls die Regression endogene verzögerte Variablen hat, ist β verzerrt.
3.2. Lösungen
3.2.1 GLS-Transformation
AR (1)
}
Autokorrelation 1.Ordnung : ε t = ρ ε t −1 + vt mit vt ~ IID(0, σv2)
( )
Stationarität: V (ε t ) = σ 2 mit A1 : E ε t2 = ρ 2σ 2 + σ v2 =
σ v2
1− ρ 2
mit ρ < 1
Autokorrelation zwischen zwei um Zeitspanne s verschobenen Fehlerterme:
AC (s ) = Cov(ε t , ε t − s ) = E (ε t , ε t − s ) = ρ s
σ v2
1− ρ 2
→ allg. Transformation: vt = εt* = εt - ρεt-1 , da vt die Annahmen des OLS-Modells erfüllt.
©Karin Soltermann
Seite 31 von 43
Angewandte Ökonometrie
WS05/06
Vorgehen
1)
Bilde „normale“ OLS-Regression
2)
ˆ
Erhalte den unbekannten AR-Koeffizient ρ aus
T
∑ εˆ εˆ
t
AR(1) OLS-Residuen: ρˆ =
t =2
T
∑ εˆ
t −1
oder
2
t −1
t =2
mittels Regression (ohne Konstante) der OLS-Residuen: εˆt = ρεˆt −1 + vˆt
3)
Transformiertes Modell:
Für t > 1: y t* = y t − ρy t −1 , xt* = xt − ρxt −1 (Erkenntnis aus vˆt = εˆt − ρεˆt −1 )
Für t = 1: y1* = y1 1 − ρ 2 , x1* = x1 1 − ρ 2
Allg. Vorgehen für Autokorrelation p.Ordnung AC(s)
p
ε t = ρε t − p + vt = ∑ ρ i ε t −i + vt , dh AC ( j ) = E (ε t , ε t − j ) ∀j = 1,..., p
i =1
nach Schritt 1:
2)
Erhalte die unbekannten AR-Koeffizienten ρˆ p
mittels Regression (ohne Konstante) der OLS-Residuen: ε t =
p
∑ρ ε
i
t −i
+ vt
i =1
3)
Für t > p: yt * = y t −
p
p
i =1
i =1
∑ ρ i yt −i , analog für xt (Erkenntnis aus vt = ε t − ∑ ρ i ε t −i )
Dabei gehen die Beobachtungen für t ≤ p verloren, aber bei genug grossem Sample ist dies ignorierbar.
−ρ
 1

L ρ T −1 
2

− ρ 1+ ρ
T −2
L ρ 
, Ψ −1 =  0


O
M 
 M
ρ
1 

L
 0
0
0 
1
0

O

− ρ 1 
 1
ρ

1
1  ρ
Ψ=
2 
1− ρ  M
M
 ρ T −1 L

 1+ ρ 2

 −ρ
P=



0
L
−ρ
0
0
−ρ
0 

M 
0 ;

− ρ

1 
R2 nicht interpretierbar
3.2.3 Moving Average
Wenn die Störvariablen nur vereinzelnd autokorrelieren (zB mit t-3 und t-6, zu anderen Zeitpunkten nicht).
Moving average p.Ordnung MA(p): ε t =
p
∑α v
i t −i
+ vt
i =1
Moving average 1.Ordnung (MA1): ε t = αvt −1 + vt mit vt ~ IID(0, σv2)
V(εt) = E(εt2) = σv2(1 + α2) , AC(1) = E(εtεt-1) = ασv2 , AC(s) = 0 mit s ≠ 1
©Karin Soltermann
Seite 32 von 43
Angewandte Ökonometrie

 1

 α
 1−α 2
Ψ = 1+α 2 
 ↑


 0

(
)(
α
(1 − α 2 )
1
)
α
(1 − α 2 )
→
←
0
α
(1 − α 2 )
↓
O
α
(1 − α 2 )
α
(1 − α 2 )
1
WS05/06











→ Die Struktur von Ψ-1 ist nicht so einfach. Das Modell wird nicht nach Variablentransformation mit OLS,
sondern mit ML oder der nichtlinearen KQ-Methode direkt geschätzt.
3.3 Test auf Autokorrelation
3.3.1 Box-Pierce Statistik (Assymptotischer Test)
Annahme: Autokorrelation p.ter Ordnung AR(p)
Autokorrelation zwischen zwei Fehlertermen: AC (s ) = E (ε t , ε t − s ) ∀s = 1,..., p
T
∑ εˆ εˆ
t
Schätze die Korrelationskoeffizienten von AR(p) aus OLS-Residuen: ρˆ s =
t = s +1
T
∑ εˆ
t−s
∀s = 1,..., p
2
t −s
t = s +1
Unter H0: ρ = 0 ist z = {
ρˆ {
T → N (0,1)
→ 0 →∞
p
Teststatistik: Q = T
Quadrierte Corr
Schätzung siehe 3.1.1
bei höherer Ordnung
}
ρˆ s2
∑
~ χ p2
s =1
3.3.2 Durbin-Watson-Test (DW)
Bedingungen: 1.Ordnung (AR1), Konstante vorhanden; corr(yt, yt-1) = 0, xt determiniert
T
∑ (εˆ
Teststatistik: dw =
t
− εˆt −1 )
≈ 2(1 − ρˆ )
t =2
T
∑ εˆ
2
2
t
t =1
H0: ρ = 0
H0 nicht ablehnen, wenn du ≤ dw ≤ 4-du
H0 ablehnen, wenn dw ≤ dl oder dw ≥ 4-dl
H0: ρ ≤ 0: Test auf positive Autokorrelation
H0 ρ ≤ 0
ρ=0
ρ≥0
H0 nicht ablehnen, wenn dw ≥ du
H1 ρ > 0
ρ≠0
ρ<0
H0 ablehnen, wenn dw ≤ dl
H0: ρ ≥ 0: Test auf negative Autokorrelation
0
dl du 2
4- du 4- dl
4 dw
H0 nicht ablehnen, wenn dw ≤ 4-du
H0 ablehnen, wenn dw ≥ 4-dl
keine Entscheidung bei allen anderen Fällen
grobe Schätzgrenzen: vernachlässigbare bzw. keine Autokorrelation, falls 1.5< dw < 2.5
©Karin Soltermann
Seite 33 von 43
Angewandte Ökonometrie
WS05/06
3.3.2 Lagrange Multiplikator-Test (LM)
Regression : y t = β 1 + β 2 xt + ρet −1 + vt → H 0 : ρ = 0 mit
t−
F−
Test
mit et −1 = y t −1 − b1 − b2 xt −1 ; e0 = 0, wobei b1 , b 2 aus OLS mit nicht - transformierten Daten stammt
Vergleich der beiden Tests
DW
LM
T bzw N eher klein
Exakt
Approximativ
yt = f(yt-s,), dh corr(yt, yt-1) ≠ 0 Ungültig
ok
AR(i ≥ 2)
ok
4 Heteroskedastizitäts- und Autokorrelationskonsistente Kovarianzmatrix(Newey/West, HAC)
Fehlerterm-Kovarianzmatrix mit lag H, dh AR(H) und Heteroskedastizität
 ε 12

 ε 1ε 2
 M
E (εε ') = 
 ε 1ε H

 ↑
 0

ε 1ε 2
L
O
ε tε 2
ε tε 2
O
O
ε H2
εTε H
O
L
O
→
ε 1ε H
←
O
O
O
O
ε T ε T −1



ε T ε H 
M 

ε T ε T −1 
ε T2 
0
↓
V (ε )=σ 2 I
678
−1
−1
In der „Sandwichformel“: Vˆ * (b | X ) = ( X ' X ) X ' E (εε ') X ( X ' X ) wird die Kovarianzmatrix von ε (e aus
14243
TS *
OLS) durch die entsprechenden Kreuzprodukte der Residuen bis zum lag H ersetzt.
Gewichtung


wj
6
474
8


H −1
1T 2
j  T


S * = ∑ et xi xi ' + ∑ 1 −  ∑ e s es − j (x s x' s − j + x s − j x s ') (Verallgemeinerung der White-Matrix)
T t =1
H  s = j +1
j =1 






5 Annahme A2 cov(X’ε) = 0 verletzt
dh bzw cov(xt’εt) ≠ 0 für beliebige oder alle t
5.1. Zwei Arten
5.1.1 Eigenschaften der OLS Schätzung bei gleichzeitig unabhängigen x und ε
(1) xt und εt unabhängig verteilt für jedes t und (2) εt ~ IID(0, σ2) impliziert:
(
T (b − β ) → N 0.σ 2 ∑ xx
a

−1


xt xt ' 
∑
 t =1

Somit ist b ~ N  β , σ 2 

) , wobei ∑
T
−1
xx
= p lim
T →∞
1 T
∑ xt xt '
T t =1



→ (1) erlaubt, dass εt abhängig von xs ist, solange t ≠ s.
Bei Heteroskedastizität oder Autokorrelation: Formel für konsistente Kovarianzmatrixschätzungen von White (HC)
bzw Newey-West (HAC), solange wenigstens die gleichzeitige Unkorreliertheit, dh E(X’ε) = 0 erfüllt ist.
©Karin Soltermann
Seite 34 von 43
Angewandte Ökonometrie
WS05/06
5.1.2 Modelle mit gleichzeitig korreliertem x und ε
AR (1)
}
Modell mit verzögerten endogenen Variablen: yt = f(yt-s, xt) und Autokorrelation: ε t = ρ ε t −1 + vt
damit ist cov(yt-s, εt) ≠ 0 (wobei yt-s ≡ xt-s: A2)
DW-Test gilt nicht mehr, aber LM-Test
Lösungsansätze mit ML oder IV
Messfehler bewirken inkonsistente OLS-Schätzer
5.2 Lösungsansätze
5.2.1 Generalisierte Momentenmethode GMM
Berücksichtigt Autokorrelation und Heteroskedastizität
Ein Modell wird charakterisiert mit R-Momentenbedingungen:
E[f(wt, zt, θ)] = 0, wobei f: Vektor-Funktion mit R Elementen,
wt: Vektor von beobachtbaren endo- bzw exogenen Variablen, zt: Instrumentenvektor,
θ: K-dimensionaler Vektor aller K unbekannten Parameter
Um θ zu schätzen, betrachtet man das „sample equivalent“ (Stichprobenäquivalent): g T (θ ) ≡
1 T
∑ f (wt , zt ,θ )
T t =1
=
1(einzige)
Wenn R < K , dann
keine
Lösung θ .
>
∞( Lösungsstruktur )
Lösung der Struktur im dritten Fall, dadurch dass die quadratische Form von gT(θ) → 0 geht, dh
Gewichtung s matrix
min QT (θ ) = min g T (θ )'
θ
θ
}
WT g T (θ ) , mit plim WT = W
1
424
3
R,R
positiv definit
⇒ Resultat obiger Gleichung ergibt die GMM-Schätzung θˆ .
Die optimale Gewichtungsmatrix WT, die zu der kleinsten KoVarianzmatrix des GMM-Schätzers führt, ist die
Inverse der KoVarianzmatrix der Stichprobenmomente:
W opt = {E [ f (wt , zt , θ ) f (wt , zt , θ )']} (ohne Autokorrelation), aber dazu sind die θ benötigt!
Lösung: 1) GMM-Schätzung θˆ berechnen mit einem suboptimalen WT
−1
1
opt
T
2) Schätze W
(
)(
)
T 
1 T
=  ∑ f wt , z t , θˆ1 f wt , z t ,θˆ1 
 T t =1

−1
3) Schätze mit WTopt wiederum die GMM-Schätzung θˆGMM , dh min QT
dabei ist
(
T θˆGMM
V
48 
 647
−1
 ∂f (wt , z t , θ ) 
opt

− θ → N 0, DW D' , wobei D = E 

K
,
R


∂θ '




)
(
)
Die Elemente in D messen, wie sensitiv ein bestimmter Moment ggü marginalen Änderungen in θ ist.
Vorteile der GMM-Methode:
• braucht keine Verteilungsannahmen
• erlaubt unbekannte Formen von Heteroskedastizität
• schätzt Parameter, auch wenn das Modell nicht analytisch mit „first order conditions„ gelöst werden kann.
©Karin Soltermann
Seite 35 von 43
Angewandte Ökonometrie
WS05/06
5.2.2 Generalisierte Instrumental Variablen Methode GIV
→ Anwendung der GMM-Methode auf Regressionsproblem: A2 cov(X’ε) = 0 verletzt
Definition einer IV-Matrix Z mit R ≥ K aus R Instrumentvariablen, die Bedingungen erfüllen: E(zt’εt) = 0
T ,R
für mind. ein t, aber E(zt’xt) ≠ 0 ∀ t. Die Matrix Z kann teilweise Variablen von x enthalten.
OLS-Methode als Momentbedingung: X ' ε = X ' ( y − Xb ) = 0 ⇒ b = ( X ' X ) X ' y
−1
(
)
−1
Wenn R = K: Z ' ε = Z ' y − Xβˆ IV = 0 ⇒ βˆ IV = (Z ' X ') Z ' y
−1
−1
 T
 T
  T
 
ˆ 2  ∑ xt z t '  ∑ z t z t '   ∑ z t xt '  
Vˆ βˆ IV = σ{
aus 
 t =1
  t =1
 
 t =1
e IV
( )
Wenn R > K: β soll so gewählt werden, dass die R-Momente
1

T
Gewichtung s matrix
}
1 T
∑ ( yt − xt ' β )zt → 0
T t =1
1

WT  Z T ( y − Xβ ) , wobei
dh min : QT (β ) =  Z T ( y − Xβ )
1
4
24
3 T
β
T



R,R
positiv definit
meist nimmt man
p lim WT = W
=
[E (Z ' Z )]
βˆ IV = ( X ' ZWT Z ' X )−1 X ' ZW N Z ' y = X ' Z (Z ' Z )−1 Z ' X
−1
( )
(
(
−1
−1
Vˆ βˆ IV = [(Z ' X )W (Z ' X )] = σˆ 2 X ' Z (Z ' Z ) Z ' X
)
)
−1
X ' Z (Z ' Z ) Z ' y
−1
−1
5.2.3 Two-Stage Least Squares 2SLS
β
647
48
−1
Z
Z
ˆ
1) Regression von x auf z: x = Zβ + ε ⇒ X = Z (Z ' Z ) Z ' X
Z
(
)
−1
2) βˆ IV = Xˆ ' Xˆ Xˆ ' y
→ ergibt das gleiche Resultat wie GIV mit W = [E(Z’Z)]-1
Hier wird im Gegensatz zur GMM
6 Multivariate Zeitreihenmodelle
6.1 Autoregressiv-verteilte Lags
Mit OLS schätzbares Modell:
Yt = δ + θYt-1 + φ0Xt + φ1Xt-1 + εt =
δ
1−θ
∞
∞
i =0
i =0
+ ∑ wi X t −i + ∑θ i ε t mit w0 = φ0, wi = (θφ0 + φ1)θi-1, i = 1, 2, …
Annahme von stationären Variablen, dh E(Yt) = E(Y) = konstant, unabhängig von der Zeit (gleiches gilt für X)
β
67
8
φ0 + φ1
δ
E[Yt] = E (Yt ) =
E(X )
+
1−θ
1−θ
α
}
Fehlerkorrektur Modell (Error Correction Modell)
∆Yt = φ0∆Xt – (1-θ)[Yt-1 - α - βXt-1] + εt
Gemäss diesem Modell passt sich Y an die Langfristbeziehung mit X partiell an.
Spezialfall mit φ0 = 0 : partielles Anpassungsmodell
©Karin Soltermann
Seite 36 von 43
Angewandte Ökonometrie
WS05/06
6.2 Vektorautoregressive Modelle
Dieses Schätzverfahren nimmt keine Unterscheidung zwischen endogenen, vorherbestimmten und exogenen
Variablen vor. Alle interessierten Variablen werden gleich behandelt. Sie nimmt auch keinen Bezug auf eine
abgesicherte Theorie, sondern erklärt eine Variable nur aus ihrem eigenen zeitlichen Verlauf sowie der zeitlichen
Entwicklung anderer endogener Variablen heraus.
Bsp. mit 2 Variablen
r
r
Y
Yt
εt
Θ
t −1
δ
678 }
8 678
64748 67
 Yt   δ 1   θ11 θ12  Yt −1   ε 1t 
  =   + 
 +  

 X t   δ 2  θ 21 θ 22  X t −1   ε 2t 
Bei exogenen „white noise“ Störvariablen mit gleichzeitiger Kovarianzmatrix ∑ kann das Modell konsistent und
asymptotisch effizient mit der OLS-Methode geschätzt werden.
Impulse Response – Darstellung (erhalten durch Rückwärtsiteration)
∞
r
r
−1
Yt = (I − Θ ) δ + ∑ Θ i ε t −i
i =0
Zur Vereinfachung: Θi = Ai , wobei A0 = I, A1 = Θ1, A2 = Θ2, etc.
Erweiterung des Konzepts auf k Variablen (anstatt 2) und p Verzögerungen (anstatt ∞).
p
r
r
r
Yt = δ + ∑ Θ j Yt − j + ε t
k ,1
j =1 k , k
r
r
Mit Einsetzung des Lag Operators: L j Yt ≡ Yt − j
∞
∑ Ai Li
i =0
4
74
8
∞
r 6
r
r
−1
−1
Yt = [Θ(L )] (δ + ε t ) = [Θ(1)] δ + ∑ Aiε t − i
k ,1
i =0 k , k
Regel bei symmetrisc hen Matrizen
6
44474448
rr
Choleski-Dekomposition (Zerlegung) der KoVarianzmatrix ∑ der Störterme ∑ = E (ε t ε t ') = B0 B0 ' , definiere
r
rr
r
E (vt vt ') = I : Transformation der Störterme in unkorrelierte Variablen: ε t = B0 vt
 b110

 b210
B0 =  M


b
 K 10
0
b220
M
L
L
0 

0 O
M 
K
 , Bi = AiB0 mit b = a b
O O
∑
mni
mji jn 0

j =n
O
0 
L bKK 0 
Bi
∞ bzw lag p
∞
∞ }
r
r
r
r
Sei δ = 0. Damit wird Yt = ∑ Ai ε t −i = ∑ Ai B0 vt −i = ∑ Bi vt −i
k ,1
i =0 k ,k
i =0
i =0
Varianzdekomposition: Damit lässt sich die Prognosefehlervarianz für t = 1 bis h Perioden in die einzelnen
Störvariablen aufteilen..
h −1
h −1 K
Var (i, h ) = ∑∑ bij2τ , Varianzanteil von der j-ten endogenen Variable:
τ = 0 j =1
©Karin Soltermann
bτ
∑
τ
=0
2
ij
Var (i, h )
∀ j = 1,2, K , K
Seite 37 von 43
Angewandte Ökonometrie
WS05/06
Die Laglänge p wird idR mit statistischen Tests (LR) oder Informationskriterien (Akaike, Schwarz) anhand der
Kovarianzmatrix der OLS-Residuen geschätzt
Informationskriterien zur Auswahl eines Modells
Bestes Modell, bei dem der Wert
am
Maximum Likelihood (ML)
Dichte, W'k von ε
abhängig von q
}
L(q )
ε i iid verteilt
6
474
8
= ∏ f ε i (ε i ; q ) → max
N
q
i =1
Likelihood Ratio Test (LR)
rr
rr
LR = 2[ln(ε ε ')R − ln(ε ε ')U ] ~ χ K2 2
Minimale Varianz der Residuen (LS)
64748
S (q ) = ∑ ε i (q )ε i (q )' → min
N
Fehlerquad ratsumme
q
i =1
Akaike (AIC)
Schwarz, Bayesschen (SC)
1
2N
ε i2 +
∑
N i =1
K
N
1
K
SC = ln ∑ ε i2 + ln N
N i =1
N
AIC = ln
höchsten
N
tiefsten
Bsp Für die Auswirkungen der Variablen untereinander
Wie wirkt sich eine Konsumveränderung um eine
Einheit auf das BIP und den Konsum selbst in den
folgenden 2 Perioden aus?
6.3 Nichtstationarität und Kointegration
6.3.1 Nichtstationarität
Definition der Stationarität
• Strenge Stationarität liegt genau dann vor, wenn die gemeinsame Verteilung der Zufallsvariablen yt = y1, y2,
…, yT) invariat in der Zeit ist.
• Schwache Stationarität liegt dann vor, wenn Erwartungswert, Varianz und die Autokovarianzen der
Zufallsvariablen für alle Zeitpunkte konstant sind. Die Autokovarianzen hängen nur von der Laglänge j ab,
nicht aber von der Zeit t.
Man unterscheidet zwischen:
o Stationär im Erwartungswert
o Stationär in den Ko-Varianzen
Nur wenn beide erfüllt sind, spricht man von schwacher Stationarität
Bei NV ist schwache = strenge Stationarität
Grafische Interpretation: Teilt man eine Zeitreihe in gleich lange Intervalle auf, dann müssen alle einzelne
Intervalle den gleichen Mittelwert, Varianz und Autokovarianzen besitzen. Trends zerstören diese Eigenschaften.
Spurious Regressions / Scheinzusammenhänge
Durch den Einsatz von trendbehafteten Zeitreihen bei Regressionsanalysen besteht die Gefahr, auf signifikante
Zusammenhänge zu schliessen (hohe t-Werte und grosses R2), obwohl eigentlich kein Zusammenhang besteht (→
Simulation mit unabhängigen Random Walks von Variablen und einer Regression daraus)
©Karin Soltermann
Seite 38 von 43
Angewandte Ökonometrie
WS05/06
1. Arten von Trends in Zeitreihen
1.1 Deterministische Trends / trendstationärer Prozess:
Die Zeitreihe nimmt kontinuierlich jeweils von einem Zeitpunkt zum anderen um einen konstanten Betrag zu oder
ab. y t = β 0 + β 1t + ε t
Beseitigung von linearen Zeittrends
a) Nur yt hat einen linearen Trend. Man nimmt den Zeitindex t als weitere erklärende Variable ins Modell hinein:
y t = β 0 + β1 xt + β 2 t + ε t
b) yt und xt weisen einen linearen Zeitrend auf. Man schätzt in einem ersten Schritt beide Regressionsmodelle mit
nur t als erklärende Variable. Die dabei erhaltenen geschätzten Residuen weisen keinen Zeittrend mehr auf und
können in einem zweiten Schritt aufeinander regressiert werden.
c) Bildung erster Differenzen: ∆yt = β1 + β2∆xt + ∆εt. Doch nun liegen die Störterme als Differenz vor. Die Varianz
(ohne Homoskedastizität und Autokorrelation) wird doppelt wo gross wie vor der Differenzenbildung. Zudem führt
das zu autokorrelierten (Differenzen-)Residuen.
► FAZIT: Differenzenbildung eignet sich nicht zur Eliminierung eines deterministischen Trends.
1.2 Stochastische Trends
t −1
y t = β 1 y t −1 + ε t = β 1t y 0 + ∑ β i ε t −i
i=0
Dabei sind aber die Erwartungswerte für zwei Zeitpunkte nicht gleich (Mittelwertstationarität
verletzt). E ( y t ) = β t y 0 ≠ β t + s y 0 = E ( y t + s )
Aber mit |β| < 1 und t → ∞ ergibt sich schwache Stationarität.
Mit β = 1 (Random walk): Es wird zwar Mittelwertstationarität erfüllt, aber die Varianz ist nicht konstant und
abhängig von t.
Lösung durch Differenzenbildung
Nichtstationäre Zeitreihen, die sich durch d-malige Differenzenbildung in (schwach-)stationäre Prozesse
überführen lassen, bzw wenn die d-te Differenz ein stabiler und invertierbarer ARMA-Prozess ist, heissen integriert
vom Grade d oder I(d). Die I(0) Eigenschaft impliziert Stationarität. Zumeist betrachtet man den Fall, dass eine
Zeitreihe yt integriert der Ordnung 1 ist, also I(1).
•
•
ARMA-Prozesse (AutoRegressive-Moving Average)
In das Modell fließen Rauschterme und gewichtete frühere Werte der Zeitreihe linear ein. ARMA-Modelle sind
eines der Hauptwerkzeuge zur Vorhersage von beobachteten, stochastischen Signalen. Sind die zu modellierenden
Signale nicht stationär, dann muss man sie gegebenenfalls vor der Modellierung differenzieren, um den Trend zu
beseitigen.
MA-Modell yt =
m
∑α ε
j
t− j
+ εt
j =1
Das Signal setzt sich aus einem durch gleitendes Mittel (=moving average) der Länge m geglätteten Signal einer
(nicht direkt messbaren) anderen Zeitreihe und einem Rauschterm (εt) zusammen.
AR-Modell yt =
n
∑θ y
i
t −i
+ εt
i =1
Das Signal setzt sich aus einem geglätteten Signal seiner n vorhergehenden Werte und einem Rauschterm
zusammen.
ARMA(n, m)-Modell yt =
n
∑θ y
i
i =1
m
t −i
+ ∑α j ε t− j + ε t
j =1
Dieses Modell wird auch als ARMA(n, m)-Modell bezeichnet, wobei n und m die Ordnung des Prozesses heißen.
Mit Hilfe des so genannten Verschiebungsoperators L (von lag = Zeitverschiebung): Ldxt = xt − d
schreibt man kürzer auch: [1 + φ(L)]yt = [1 + η(L)]εt
n
wobei φ und η beides endliche Polynome (der Grade n und m) darstellen:
©Karin Soltermann
φ ( x ) = ∑ φi x i
i =1
Seite 39 von 43
Angewandte Ökonometrie
WS05/06
Dickey-Fuller t-test (DF-Test)
Ist ein Hypothesentest, mit dem der Integrationsgrad einer Zeitreihe überprüft werden kann.
= 1 → Random walk
bzw
< 1 → Stationarität
Ausgangsgleichung [AR(1), analog stochastische Trends]: y t = θy t −1 + ε t , falls θ 
= 0 → Random walk
mit
< 0 → Stationarität
Testgleichung: ∆y t = θ * y t −1 + ε t , fallsθ * = θ − 1 
H0: θ* = 0 [yt nicht-stationär, I(1)-Prozess] und H1: θ* < 0 [yt stationär, I(0)-Prozess]
Ist der ermittelte t-Wert des Regressionskoeffizienten kleiner als der kritische Wert, kann H0 verworfen werden.
Ist dem nicht so, wird nochmals eine einmalige Differenzenbildung vorgenommen und das Regressionsmodell
daraus geschätzt. Ist nach d Differenzenbildungen der t-Wert schliesslich kleiner als der vorgegebene kritische
wert, kann das Verfahren abgebrochen werden. In diesem Fall ist davon auszugehen, dass die Zeitreihe integriert
von Grad d, oder I(d) ist.
Achtung:
⇒ Dies ist keine t-Verteilung!!! Die kritischen Werte werden mit Berechnungen aus der Tabelle von MacKinnon
hergeleitet. Zudem sind diese abhängig von der konkreten Regressionsspezifikation.
⇒ Dieser Test berücksichtigt keine autokorrelierten Störterme.
Augmented Dickey-Fuller t-test (ADF-Test)
Ein Verstoss gegen die Annahme der Homoskedastizität ist unproblematisch bei der Durchführung des DF-Tests.
Um das Problem autokorrelierter Residuen zu berücksichtigen, kann der ADF-Test durchgeführt werden.
Die endogene Variable y wird bis m Zeiteinheiten verzögert ins Modell aufgenommen. Aber wie gross muss m
sein? Da das eigentliche Ziel der ADF-Spezifikation in der Beseitigung der Autokorrelation in den Residuen
besteht, muss die Zahl der Differenzenterme empirisch derart ermittelt werden, dass die Störvariable White-Noise
Eigenschaften aufweist (Q-Statistik, Informationskriterien,…; DW-Test zur Überprüfung).
Die kritischen Werte sind abhängig von der konkreten Regressionsspezifikation. Welche Form des
Regressionsmodells verwendet werden sollte, hängt vom tatsächlichen Datengenerierungsprozess ab (graphische
Analyse und ökonomische Überlegungen).
m
∆y t = β 0 + δy t −1 + β 2 t + ∑ γ j ∆y t − j + ε , für DF ist γj = 0 ∀ j
j =1
Mögliche Kombinationen
Konstante β0 Trend β2
−
−
+
−
+
+
6.3.2 Kointegration
Definition der Kointegration
Gegeben sind m I(n) Variablen yt = [y1t., y2t, …, ymt]. Die Variablen sind kointegriert, wenn r (wobei r < K)
Linearkombinationen integriert vom Grade k < n sind.
Häufigster Fall: k = 0, n = 1 = r: Es existiert dann eine stationäre I(0) Linearkombination von m I(1) Variablen:
 y1t 
γ'
Kointegrat ionsvektor 
6
447448  y 
z t = (1,−γ 2 , K ,−γ m ) 2t  = γ ' y t
M


y 
 mt 
©Karin Soltermann
Seite 40 von 43
Angewandte Ökonometrie
WS05/06
Engle-Granger Test auf Kointegration
Bei unbekanntem Kointegrationsvektor γ muss in einem ersten Schritt die Kointegrationsbeziehung geschätzt
werden. OLS: y1t = γ1 + γ1y2t + … + γmymt + εt → εt = y1t - yˆ 1t = zˆ t
In einem zweiten Schritt kann der DF t-Test für das OLS-Residuum zˆ angewendet werden. Bei einer Verwerfung
der Nullhypothese der Nichtstationarität kann auf die Existenz einer Kointagrationsbeziehung geschlossen werden.
6.3.2 Das Fehlerkorrekturmodell
Untersuchung des dynamischen Zusammenhangs zwischen kointegrierten Variablen
VAR-Modell in den Differenzen ergänzt durch den verzögerten Fehlerkorrekturterm γiZt-1.
Das Granger-Repräsentationstheroem besagt, dass kointegrierte Variablen immer eine FehlerkorrekturDarstellung besitzen und auch das umgekehrte gilt. Im allgemeinen Fall mit h Variablen und m
Kointegrationsbeziehungen können bis zu m Fehlerkorrektur-Terme in den h Gleichungen vorkommen.
Vektorschreibweise: ∆Yt = δ + Θ∆Yt −i + γZ t −1
6.3.3 Multivariate Kointegrationsanalyse: Das Johanson Verfahren
(multivariate Version des ADF-Tests)
Das Problem beim Verfahren von Engle und Granger ist, dass sich, die Frage der Normierung des
Kointegratonsvektors stellt. Es ist also a priori festzulegen, welche Variable als abhängig und welche als
unabhängig anzusehen ist.
In einem multivariaten Modell (mit mehr als zwei Variablen) besteht die Möglichkeit der Existenz mehrerer
Kointegrationsvariablen. Mit dem Enlge-Granger Verfahren kann aber nur eine einzige Kointegrationsbeziehung
ermittelt werden. Einen Ausweg bietet das Maximum-Likelihood Verfahren nach Johanson. Dieses Verfahren
basiert auf der Auswertung der Eigenwerte einer Matrix. Während das Engle-Granger Verfahren auf einer OLS
Schätzung basiert und die Kointegrationsbeziehung mit der minimalen Varianz ausmacht, ermittelt das Johanson
Verfahren die „stationärste“ Kointegrationsbeziehung.
Mögliche Fälle beim Johanson-Test
VAR
Drift
Trend






+

+

+
+
©Karin Soltermann
Kointegrationsbeziehung
Drift
Trend


+

+
+
+

+
+
+
+
Seite 41 von 43
Angewandte Ökonometrie
WS05/06
Vorgehen
Eigenwert…
1.Zeile H0: keine Kointegration vs H1: mind eine Kointegrationsbeziehung
2.Zeile H0: eine Kointegration vs H1: mehr als eine Kointegrationsbeziehung
3.Zeile H0: zwei Kointegration vs H1: mehr als zwei Kointegrationsbeziehung
Wenn der Likelihood Ratio (oder Trace) Wert grösser als der Kritische Wert ist,
kann H0 abgelehnt werden.
Zeile bei Zeile von oben beginnend betrachten
Wenn H0 abgelehnt wird, die nächste Zeile betrachten.
Sobald dass bei einer Zeile H0 nicht mehr abgelehnt werden kann, wird die
Anzahl der hier in H0 getesteten Kointegrationsbeziehungen angenommen.
Hier wird eine Kointegrationsbeziehung angenommen.
Zwischen welchen Variablen?
Hier das entsprechende Fehlerkorrekturmodell
Die langfristige Anpassung an den gemeinsamen stochastischen
Trend wird vor allem durch die Reaktion des US-Aktienmarktes
herbeigeführt. Der entsprechende Fehlerkorrektur-Term ist mit 0.068 hochsignifikant, dh eine positive Abweichung des USAktienmarkts vom gemeinsamen Trend führt zu fallenden
Kursen in USA. Der Koeffizient für den D-Preisindex hat das
richtige (entgegen gesetzte) positive Vorzeichen und ist
signifikant am 10% Niveau. Auch betragsmässig ist der Wert mit
0.033 relativ gross. Erwartungsgemäss wird der japanische
Preisindex von den beiden anderen nicht beeinflusst. Der
entsprechende Fehlerkorrektur-Koeffizient ist mit -0.022
der kleinste der Werte im λ-Vektor und nicht signifikant.
Betrachte den normalisierten Kointegrationsvektor mit einer
Kointegrationsbeziehung.
Japan hat einen Wert nahe bei Null. Deutschland und USA nicht nahe bei Null.
Somit sind diese zwei Variablen kointegriert.
©Karin Soltermann
Seite 42 von 43
Angewandte Ökonometrie
©Karin Soltermann
WS05/06
Seite 43 von 43
Document
Kategorie
Gesundheitswesen
Seitenansichten
12
Dateigröße
662 KB
Tags
1/--Seiten
melden