close

Anmelden

Neues Passwort anfordern?

Anmeldung mit OpenID

18. Poisson, Negativ-Binomial, ZiNB, Hurdle Poisson (PDF, 198 KB)

EinbettenHerunterladen
Institute of Sociology
Z¨
ahldaten:
Poisson, Quasi-Poisson,
Negativ-Binomial, ZiNB und
Hurdle
Franz Neuberger
12.10.2014
Page 1
Institute of Sociology
Z¨
ahldaten: historisch
• Die Poissonverteilung wurde 1838 von Sim´eon-Denis Poisson (Frz.
Mathematiker) ver¨
offentlicht.
• Das wohl ber¨
uhmteste Beispiel: 1889 zeigte Ladislaus von Bortkiewicz
in seinem Buch Das Gesetz der kleinen Zahlen, dass die Anzahl
Soldaten in der Preussischen Armee, die j¨
ahrlich von Eseltritten get¨
otet
wurden, einer Poissonverteilung entspricht.
12.10.2014
Franz Neuberger: Generalisierte Regressionsanalyse in R
Page 2
Institute of Sociology
Z¨
ahldaten
Z¨
ahldaten entsprechen nicht den Annahmen der linearen Regression:
• Z¨
ahldaten k¨
onnen nur positiv sein
• sind diskret, d.h. ganzzahlig
• sind i.d.R. schief (linkssteil/rechtsschief) verteilt f¨
ur kleine Mittelwerte,
sprich: viele haben 2,3 o.¨
a und nur sehr wenige 5, 6 etc.
• Siehe Zeileis et al., und die pscl library f¨
ur eine umfassende R
Dokumentation
Beispiele:
• Anzahl Kinder
• Anzahl Jobs
• Anzahl Arztbesuche pro Jahr
12.10.2014
Franz Neuberger: Generalisierte Regressionsanalyse in R
Page 3
Institute of Sociology
Z¨
ahldaten
Je nach Entstehungsprozess ist hierbei streng genommen ein anderes
Modell ad¨
aquat (Poisson-Modell oder Binomial-Modell, vgl.
Gelman and Hill, 2007: S.16, 116)
• Wenn jeder Datenpunkt als die Anzahl Erfolge von n Versuchen
interpretiert werden kann → Binomialmodell
(Bsp.: Ziehen mit Zur¨
ucklegen aus einer Urne)
• Wenn die Daten kein nat¨
urliches Limit (wie die Anzahl Versuche)
haben → Poissonmodell
(Bsp.: Anzahl F¨
uchse auf Lichtung pro Woche)
• sind i.d.R. schief (linkssteil/rechtsschief) verteilt f¨
ur kleine Mittelwerte,
sprich: viele haben 2,3 o.¨
a und nur sehr wenige 5, 6 etc.
• Siehe Zeileis et al., f¨
ur eine R Dokumentation
12.10.2014
Franz Neuberger: Generalisierte Regressionsanalyse in R
Page 4
Binomial & Poisson Verteilung
400
300
Frequency
0
100
200
300
200
100
0
Frequency
400
500
Poisson Distribution
500
Binomial Distribution
0
1
2
3
4
5
6
7
dist.binom <− rbinom(1000, 6, 0.3)
0
1
2
3
4
5
6
7
dist.pois <− rpois(1000, mean(dist.binom))
Institute of Sociology
Z¨
ahldaten: Warum kein OLS?
• Der Zusammenhang zwischen X und Y ist nicht linear
• Z¨
ahldaten sind heteroskedastisch, d.h. Residuenvarianz steigt mit X
• Negative Werte machen irgendwie wenig Sinn
12.10.2014
Franz Neuberger: Generalisierte Regressionsanalyse in R
Page 6
Institute of Sociology
Poisson-Modell
• Eine Referenzverteilung zur Modellierung von Z¨
ahldaten ist die
Poisson-Verteilung, die sich aus einem sog. Poissonprozess ergibt:
→ Wahrscheinlichkeitsverteilung der Anzahl Ereignisse in einem
bestimmten Zeitraum, wenn die Ereignisrate konstant ist und die
Ereignisse zuf¨
allig auftreten.
• Die Poisson-Verteilung ist f¨
ur λ > 0 definiert als
Pr (y |λ) =
e −λ (λ)y
y!
• wobei y die Anzahl der Ereignisse ist (0, 1, 2, ...) und λ die
Ereignisrate (durchschnittlich zu erwartende Anzahl Ereignisse in
Zeiteinheit). y! ist Fakult¨
at y, z.B. 3! = 3 · 2 · 1.
12.10.2014
Franz Neuberger: Generalisierte Regressionsanalyse in R
Page 7
Institute of Sociology
Log-Link
• Der Link ist hierbei wieder der log-Link, sprich unsere β geben additve
Einfl¨
usse auf die logarithmiert Anzahl des Erwartungswerts der
Ereignisse an.
• e β gibt dementsprechend den multiplikativen Einfluss
λi = exp(ηi ) = exp(β0 ) ∗ exp(β1 xi1 ) ∗ ... ∗ exp(βk xik )
log (λi ) = ηi = β0 + β1 xi1 + ... + βk xik
12.10.2014
Franz Neuberger: Generalisierte Regressionsanalyse in R
Page 8
Beispiele f¨
ur Poissonverteilungen mit verschiedenen
Mittelwerten (0.5, 2, 10, 15)
0.4
0.2
0.0
dpois(0:20, 0.5)
0.6
par(mfrow = c(1, 1))
plot(dpois(0:20, 0.5), col = 1, type = "l")
lines(dpois(0:20, 2), col = 2, type = "l")
lines(dpois(0:20, 10), col = 3, type = "l")
lines(dpois(0:20, 15), col = 4, type = "l")
5
10
Index
15
20
Institute of Sociology
Poisson-Modell – Ein Beispiel
Data <- read.dta("/Users/Franz/Dropbox/R_Kurs_2013/Sessions/9_poisson/kinder.d
names(Data)
## [1] "kinder"
## [4] "geschlecht"
## [7] "deutsch"
"bildungsjahre" "alter"
"arbeitslos"
"ostwest"
"attraktivitaet" "ledig"
fit_poisson <- glm(kinder ~ bildungsjahre + alter + ledig, data = Data,
family = poisson)
12.10.2014
Franz Neuberger: Generalisierte Regressionsanalyse in R
Page 10
Poisson-Modell – Ein Beispiel
summary(fit_poisson)
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
Call:
glm(formula = kinder ~ bildungsjahre + alter + ledig, family = poisson,
data = Data)
Deviance Residuals:
Min
1Q Median
-2.112 -0.709 -0.046
3Q
0.260
Max
4.459
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept)
0.599921
0.120983
4.96 7.1e-07 ***
bildungsjahre -0.023562
0.009432
-2.50
0.012 *
alter
0.004338
0.000966
4.49 7.1e-06 ***
ledig
-1.855099
0.075327 -24.63 < 2e-16 ***
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for poisson family taken to be 1)
Null deviance: 4456.8 on 3377 degrees of freedom
Residual deviance: 3022.8 on 3374 degrees of freedom
(91 observations deleted due to missingness)
AIC: 9165
Number of Fisher Scoring iterations: 6
Poisson-Modell – Ein Beispiel
Per default handelt es sich um einen log-Link. e β liefert daher den
multiplikativen Einfluss auf den Erwartungswert der Anzahl der Ereignisse
pro Zeiteinheit.
exp(coef(fit_poisson))
##
##
(Intercept) bildungsjahre
1.8220
0.9767
alter
1.0043
ledig
0.1564
• Eine hypothetische, verheiratete Person mit 0 Bildungsjahren, einem
Alter von 0 hat einen Erwartungswert von 1.82 Kindern.
• Ist die Person ledig, ver¨
andert sich der Erwartungswert um den Faktor
0.16: 1.82 · 0.16 = 0.29 Kinder.
• Pro Bildungsjahr verringert sich der Erwartungswert um 2.3%.
• Eine Art R 2 erhalten wir durch R 2 = 1 −
1 - fit_poisson$deviance/fit_poisson$null.deviance
## [1] 0.3218
Mod.Deviance
Null.Deviance
Institute of Sociology
Eigenschaften der Poisson-Verteilung
• Mit steigendem λ n¨
ahert sich die Poisson-Verteilung einer
Normalverteilung an.
• Die Varianz von y ist gleich dem Erwartungswert, d.h.
¨
V (y ) = E (y ) = λ (sog. Aquidispersionsannahme)
• Overdisperion: Var > E und Underdispersion Var < E
¨
• Aquidispersionsannahme
meist verletzt, i.d.R. durch Overdispersion.
• L¨
osung: zus¨
atzlichen Parameter, um die Varianz zu sch¨
atzen:
Var (yi |xi ) = φ ∗ λi
• Zero-Inflation: Man hat eigentlich eine Poissonverteilung, aber
wahnsinnig viele Nuller. Kommt z.B. bei sehr seltenen Ereignissen vor,
die Z¨
ahldaten darstellen: ZiNB (Zero inflated poisson Model) oder
Hurdlepoisson Model
12.10.2014
Franz Neuberger: Generalisierte Regressionsanalyse in R
Page 13
Quasi-Poisson Modell
• Var (yi |xi ) = φ ∗ λi , und φ > 1
• F¨
ur den Fall dass die Varianz von Y schneller steigt als der Mean (also
wenn φ > 1 gibt es keine bekannte Verteilungsfamilie und damit keinen
maximum likelihood Sch¨
atzer.
→ Quasi maximum likelihood Sch¨
atzung: Liefert gleiche β, aber andere
Standardfehler (Poisson-Std.Err*φˆ1/2 )
• Diagnostik: Overdispersion liegt vor, wenn die Residual Deviance
wesentlich gr¨
osser ist als die Residual Degrees of Freedom.
• Warum? Das Verh¨
altnis aus Residual Deviance zu Residual Degrees of
Freedom ist ein (zwar schlechter, aber ...vgl.
Fox and Weisenberg, 2008: p.391) Sch¨
atzer f¨
ur den
Dispersionsparamter φ, und der sollte ja im normalen Poisson Modell 1
sein, da E (Y ) = Var (Y ) = λ
• Was macht das Qausi-Poisson Model? Im Overdispersionsfall φˆ > 1
erh¨
ohen wir k¨
unstlich die Varianz der β-Sch¨
atzer, haben also gr¨
ossere
p-values und dementsprechend konservativere Signifikanz-Tests.
→ Entspricht in etwa den robusten Standardfehlern im linearen Modell.
Quasipoisson-Modell – Ein Beispiel
fit_quasipoisson <- glm(kinder ~ bildungsjahre + alter + ledig,
data = Data, family = quasipoisson)
summary(fit_quasipoisson)
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
Call:
glm(formula = kinder ~ bildungsjahre + alter + ledig, family = quasipoisson,
data = Data)
Deviance Residuals:
Min
1Q Median
-2.112 -0.709 -0.046
3Q
0.260
Max
4.459
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
0.599921
0.117415
5.11 3.4e-07 ***
bildungsjahre -0.023562
0.009153
-2.57
0.01 *
alter
0.004338
0.000938
4.63 3.9e-06 ***
ledig
-1.855099
0.073105 -25.38 < 2e-16 ***
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for quasipoisson family taken to be 0.9419)
Null deviance: 4456.8 on 3377 degrees of freedom
Residual deviance: 3022.8 on 3374 degrees of freedom
(91 observations deleted due to missingness)
AIC: NA
Number of Fisher Scoring iterations: 6
summary(fit_poisson)$coefficients[, 2] * sqrt(summary(fit_quasipoisson)$dispersion)
##
##
(Intercept) bildungsjahre
0.1174147
0.0091535
alter
0.0009378
ledig
0.0731049
Negativ-Binomial Modell
• Alternative zum Quasi-Poissonmodell
• Wir l¨
osen wieder die Annahme Var(y) = E(y)
• Wir gehen davon aus, dass E(y) eine unbeobachtete Gamma
(Γ)-verteilte Variable ist mit mean µi und einem Skalierungsparameter
Omega (ω).
• Das beobachtete yi folgt dann einer Negativ-Binomialverteilung
p(yi ) =
µyi i ω ω
Γ(yi + ω)
∗
y !Γ(ω)
(µi + ω)µi +ω
• E (yi ) = µi
• V (yi ) = µi + µ2i /ω
→ Sonst sehr ¨
ahnlich zum Quasi-Poisson Modell
• http://www.ats.ucla.edu/stat/r/dae/nbreg.htm
Zero Inflation
• Neben der Over- und Underdispersionsproblematik gibt es bei
Z¨
ahldaten h¨
aufig das Problem, dass zuviele 0er auftauchen, sprich
unser beobachtetes Ereignis recht selten auftritt.
• Hierzu gibt es 2 L¨
osungen: ZinB und Hurdle.
• Beide beruhen auf der Idee, ein zus¨
atzliches Modell mit aufzunehmen,
dass die 0er extra erkl¨
aren kann.
• Hurdle Modell: Wir modellieren zun¨
achst 0 vs. 1 und dann eine
beschnittene Z¨
ahldatenverteilung ohne 0, also 1, 2, 3, 4+
• ZiNB: Wir modellieren 0,1,2,3,4 und ber¨
ucksichtigen eine extra WSK
π f¨
ur 0, also p = 0 und 1 − p =Z¨
ahldaten incl 0.
• Der Unterschied ist also eher theoretischer Natur: Gibt es eine
Schwelle, die u
¨bertreten werden muss (King, 1989), oder ist es einfach
nur ein seltenes Ereignis das unter bestimmten Bedingungen auftreten
kann, aber nicht muss (Lampert, 1992; perfect state and imperfect
state)
• B¨
ose Zungen behaupten auch es g¨
abe praktisch keinen Unterschied, da
beide Modelle nur Spezialf¨
alle eines generellen Modells f¨
ur Z¨
ahldaten
sind (Vgl. Zorn, 1998)
H¨
urden-Modell
• Problem: Wir haben zuviele 0er f¨
ur eine Poissonverteilung
• L¨
osung: Wir unterstellen 2 Komponenten:
fhurdle(y |x,z,β,γ) =
fzero (0; z, γ)
1 − fzero (0; z, γ) ∗ fcount (y |x, β)/1 − fcount (0|xi , β),
if y = 0.
if y > 0.
log (µi ) = xiT β + log (1 − fzero (0|zi , γ)) − log (1 − fcount (0|i , β))
• Die Modellparameter β, γ und ggf. noch zus¨
atzliche
Dispersionsparameter (Im Fall von Neg-Bin Modellen) k¨
onnen mit ML
gesch¨
atzt werden
• Interessant ist hierbei, dass β, γ unterschiedliche Variablen abbilden
k¨
onnen.
• µi gibt uns den Erwartungswert
• hurdletest(model) testet im Fall gleicher Parameter, ob die H¨
urde
notwendig ist fcount = fzero
H¨
urden-Modell – 1. Beispiel
hurdle <- hurdle(kinder ~ bildungsjahre + alter + ledig + attraktivitaet,
data = Data)
summary(hurdle)
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
Call:
hurdle(formula = kinder ~ bildungsjahre + alter + ledig +
attraktivitaet, data = Data)
Pearson residuals:
Min
1Q Median
-1.6541 -0.5771 -0.0498
3Q
0.2858
Max
7.6342
Count model coefficients (truncated poisson with log link):
Estimate Std. Error z value Pr(>|z|)
(Intercept)
0.64723
0.17122
3.78 0.00016 ***
bildungsjahre -0.01567
0.01239
-1.27 0.20587
alter
0.00368
0.00132
2.79 0.00528 **
ledig
-0.62674
0.12049
-5.20
2e-07 ***
attraktivitaet -0.02185
0.00971
-2.25 0.02436 *
Zero hurdle model coefficients (binomial with logit link):
Estimate Std. Error z value Pr(>|z|)
(Intercept)
1.4022
0.4534
3.09
0.0020 **
bildungsjahre
-0.1024
0.0321
-3.19
0.0014 **
alter
0.0167
0.0036
4.65 3.3e-06 ***
ledig
-3.1953
0.1276 -25.04 < 2e-16 ***
attraktivitaet
0.0960
0.0276
3.48
0.0005 ***
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Number of iterations in BFGS optimization: 12
Log-likelihood: -4.5e+03 on 10 Df
H¨
urden-Modell – 2. Beispiel
hurdle2 <- hurdle(kinder ~ bildungsjahre + arbeitslos + attraktivitaet |
alter + ledig, data = Data)
summary(hurdle2)
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
Call:
hurdle(formula = kinder ~ bildungsjahre + arbeitslos +
attraktivitaet | alter + ledig, data = Data)
Pearson residuals:
Min
1Q Median
-1.685 -0.539 -0.266
3Q
0.352
Max
4.444
Count model coefficients (truncated poisson with log link):
Estimate Std. Error z value Pr(>|z|)
(Intercept)
0.71882
0.20212
3.56 0.00038 ***
bildungsjahre -0.00203
0.01752
-0.12 0.90791
arbeitslos
0.18582
0.07409
2.51 0.01214 *
attraktivitaet -0.03914
0.01447
-2.70 0.00685 **
Zero hurdle model coefficients (binomial with logit link):
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.64038
0.31247
-2.05
0.04 *
alter
0.05692
0.00691
8.24
<2e-16 ***
ledig
-2.86646
0.15221 -18.83
<2e-16 ***
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Number of iterations in BFGS optimization: 10
Log-likelihood: -2.3e+03 on 7 Df
H¨
urden-Modell – 3. Beispiel: NegBin
hurdle3 <- hurdle(kinder ~ bildungsjahre + alter + ledig + attraktivitaet,
data = Data, dist = "negbin", zero = "negbin")
summary(hurdle3)
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
Call:
hurdle(formula = kinder ~ bildungsjahre + alter + ledig +
attraktivitaet, data = Data, dist = "negbin", zero.dist = "negbin")
Pearson residuals:
Min
1Q Median
-1.5695 -0.6023 -0.0232
3Q
0.2698
Max
7.3184
Count model coefficients (truncated negbin with log link):
Estimate Std. Error z value Pr(>|z|)
(Intercept)
0.64722
0.17122
3.78 0.00016 ***
bildungsjahre -0.01567
0.01239
-1.26 0.20603
alter
0.00368
0.00132
2.79 0.00529 **
ledig
-0.62800
0.12057
-5.21 1.9e-07 ***
attraktivitaet -0.02185
0.00971
-2.25 0.02438 *
Log(theta)
11.05697
14.65172
0.75 0.45046
Zero hurdle model coefficients (censored negbin with log link):
Estimate Std. Error z value Pr(>|z|)
(Intercept)
129.812
134.879
0.96
0.34
bildungsjahre
-2.931
2.907
-1.01
0.31
alter
0.765
0.807
0.95
0.34
ledig
-127.329
129.889
-0.98
0.33
attraktivitaet
1.844
1.855
0.99
0.32
Log(theta)
-4.337
1.022
-4.24 2.2e-05 ***
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Theta: count = 63384.299, zero = 0.013
Number of iterations in BFGS optimization: 523
Log-likelihood: -4.49e+03 on 12 Df
Hurdletest
Erfordert gleiche Variablen und gleiche Verteilung in beiden Modellen, in
unserem Fall ist sowohl das H¨
urdenmodell (0/1) als auch das
Z¨
ahldatenmodell (1,2,3...) negativ-binomialverteilt mit entsprechenden
Einrsch¨
ankungen (sie Bsp 3.)
hurdletest(hurdle3)
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
Wald test for hurdle models
Restrictions:
count_((Intercept) - zero_(Intercept) = 0
count_bildungsjahre - zero_bildungsjahre = 0
count_alter - zero_alter = 0
count_ledig - zero_ledig = 0
count_attraktivitaet - zero_attraktivitaet = 0
Model 1: restricted model
Model 2: kinder ~ bildungsjahre + alter + ledig + attraktivitaet
Res.Df Df Chisq Pr(>Chisq)
1
3371
2
3366 5
9.4
0.094 .
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
ZiNB-Modell
• Zero-Inflated Negativ-Binomial-Modell
• Unsere 0-inflatete Dichte ist eine Mischung aus 2 Verteilungen: Ein
Haufen 0er I0 (y ) und eine Z¨
ahldatenverteilung fcount (y |x, β)
• Unsere WSK, eine 0 zu beobachten, ist um die WSK π = fzero (0|z, γ)
erh¨
oht.
fzeroinfl (y |x, z, β, γ) = fzero (0|z, γ) ∗ I0 (y ) + (1 − fzero (0|z, γ)) ∗ fcount (y |x, β)
µi = πi ∗ 0 + (1−i ) ∗ exp(xiT β)
• I0 (y ) wird dabei von einem binomialen
GLM π = g −1 (z T γ) esch¨
atzt (i.d.R. Logit Modell)
• Auch hier k¨
onnen wieder beide Funktionen unterschiedliche Parameter
enthalten, allerdings entf¨
allt die strikte Trennung des Hurdle Modells
→ Eine 0 kann sowohl aus dem binomialen wie aus dem Z¨
ahldatenmodell
stammen.
ZiNB-Modell – Ein Beispiel
zinb <- zeroinfl(kinder ~ bildungsjahre + alter + ledig + attraktivitaet,
data = Data)
summary(zinb)
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
Call:
zeroinfl(formula = kinder ~ bildungsjahre + alter +
ledig + attraktivitaet, data = Data)
Pearson residuals:
Min
1Q Median
-1.422 -0.627 0.033
3Q
0.189
Max
6.736
Count model coefficients (poisson with log link):
Estimate Std. Error z value Pr(>|z|)
(Intercept)
0.66083
0.13317
4.96
7e-07 ***
bildungsjahre -0.01382
0.00971
-1.42
0.15
alter
0.00183
0.00105
1.75
0.08 .
ledig
-1.36868
0.08262 -16.57
<2e-16 ***
attraktivitaet -0.00118
0.00768
-0.15
0.88
Zero-inflation model coefficients (binomial with logit link):
Estimate Std. Error z value Pr(>|z|)
(Intercept)
2.2218
1.9673
1.13
0.2587
bildungsjahre
0.8481
0.1699
4.99 6.0e-07 ***
alter
-0.4327
0.0716
-6.05 1.5e-09 ***
ledig
1.3371
0.5048
2.65
0.0081 **
attraktivitaet -0.1336
0.1367
-0.98
0.3282
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Number of iterations in BFGS optimization: 37
Log-likelihood: -4.5e+03 on 10 Df
ZiNB-Modell vs. Hurdle
coef(zinb)
##
count_(Intercept)
##
0.660828
##
count_alter
##
0.001831
## count_attraktivitaet
##
-0.001179
##
zero_bildungsjahre
##
0.848095
##
zero_ledig
##
1.337064
count_bildungsjahre
-0.013817
count_ledig
-1.368683
zero_(Intercept)
2.221825
zero_alter
-0.432729
zero_attraktivitaet
-0.133626
coef(hurdle)
##
count_(Intercept)
##
0.647227
##
count_alter
##
0.003677
## count_attraktivitaet
##
-0.021854
##
zero_bildungsjahre
##
-0.102411
##
zero_ledig
##
-3.195344
count_bildungsjahre
-0.015672
count_ledig
-0.626743
zero_(Intercept)
1.402185
zero_alter
0.016742
zero_attraktivitaet
0.095976
ZiNB-Modell vs. Hurdle 2
head(predict(hurdle))
##
1
2
3
4
5
6
## 1.7745 0.2310 1.9799 0.2603 1.9371 2.0778
head(predict(zinb))
##
1
2
3
4
5
6
## 1.7988 0.1177 1.9195 0.4612 1.9045 1.9762
mean(predict(hurdle) - predict(zinb))
## [1] 0.0007641
Institute of Sociology
Fox, J. and Weisenberg, S. (2008). Applied Regression Analysis and
Generalized Linear Models. SAGE PUBL INC, California and USA, 12
edition.
Gelman, A. and Hill, J. (2007). Data Analysis Using Regression and
Multilevel/Hierarchical Models. Cambridge University Press, Cambridge.
King, G. (1989). Event count models for international relations:
Generalizations and applications. International Studies Quarterly,
33(2):123–147.
Lampert, D. (1992). Zero-inflated poisson regression, with an
application to defects in manufacturing. Technometrics, 34(1):1–14.
Zeileis, A., Kleiber, C., and Jackman, S. Regression models for count
data in r.
Zorn, C. J. W. (1998). An analytic and empirical examination of
zero-inflated and hurdle poisson specifications. Sociological Methods &
Research, 26(3):368–400.
12.10.2014
Franz Neuberger: Generalisierte Regressionsanalyse in R
Page 26
Document
Kategorie
Internet
Seitenansichten
7
Dateigröße
198 KB
Tags
1/--Seiten
melden