close

Anmelden

Neues Passwort anfordern?

Anmeldung mit OpenID

20. Einführung in bayesianische Statistik

EinbettenHerunterladen
Institut für Soziologie
Bayes ... Bayes, wer, was, wie?
- und warum?
Eine Einführung in bayesianische Statistik
Franz Neuberger
01.10.2013
Seite 1
Institut für Soziologie
Ähhm... Bayes?
• Thomas Bayes (1701 -1761) war ein presbyterianischer Pfarrer und
Mathematiker
• Erfinder des Bayes-Theorems in der Wahrscheinlichkeitsrechnung:
→ p(A|B) =
p(A∩B)
p(B)
=
p(A∩B)
∗p(A)
p(B)
p(B)
=
p(B|A)∗p(A)
p(B)
• Unter Annahme:
p(A ∩ B) = p(B|A) ∗ p(A) = p(A|B) ∗ p(B)
• Oder p(A|B) =
01.10.2013
p(A∩B)
p(B)
bzw. p(B|A) =
p(A∩B)
p(A)
Seite 2
Institut für Soziologie
Wozu Bayes? oder Frequentism vs. Bayesianism
• Normalerweise lernt man in den Sozialwissenschaften nur
Häufigkeitsstatistik (Frequentism)
• Warum? Mathematisch einfacher und eher zu berechnen, auch von
Hand möglich.
• Grundlegende Unterschiede im Verständnis von
•
•
•
•
01.10.2013
Wahrscheinlichkeit
Parameter
Inferenz (Schliessen)
Wissenschaft
Seite 3
Institut für Soziologie
Wahrscheinlichkeitsverständnis
• Frequentism
• Wahrscheinlichkeit ist relative Häufigkeit eines Ereignisses
• Sie ist nur bei oft widerholbaren Ereignisse sinnvoll!
• Wenn man etwas ganz oft wiederholt, dann ist die WSK die relative
Häufigkeit eines bestimmten Ereignisses im Verhältnis zu der
Gesamtanzahl der Wiederholungen
• Bayesianism
• Wahrscheinlichkeit ist die Messung von Unsicherheit
• Sie gibt eher eine persönliche Einschätzung wieder
• Auch einzelne Ereignisse haben eine Eintrittswahrscheinlichkeit
01.10.2013
Seite 4
Institut für Soziologie
Parameter
• Frequentism
• Parameter haben einen festen, wahren Wert
• Unsicherheiten haben wir nur in den Schätzern für diese Parameter,
ˆ
nicht aber im eigentlichen Parameter (β = β)
• Bayesianism
• Parameter sind Zufallsvariablen.
• Wir haben kein perfektes Wissen über sie
01.10.2013
Seite 5
Institut für Soziologie
Inferenz
• Frequentism
• Alles was wir wissen können, wissen wir aus den Daten
• Mögliche Fehlerquellen sind die Stichprobenziehung und Messfehler
• Bayesianism
• Wir haben ein Vorwissen und bestimmte Erwartungen
• Diese Information ist nützlich
• Schon die Annahme, es gäbe einen Parameter, ist unsicher
01.10.2013
Seite 6
Institut für Soziologie
Wissenschaft
• Frequentism
• Da wir unser Vorwissen nicht modellieren können, startet die
Wissenschaft bei jedem neuen Datensatz bei 0.
• Man startet sozusagen immer wieder in der Steinzeit
• Bayesianism
• Lernen als kumulativer Prozess
• Unsere heutigen posteriori-Annahmen können wir morgen als
priori-Annahmen verwenden
• Spiegelt den „tatsächlichen“ Fortschritt eher wieder
01.10.2013
Seite 7
Institut für Soziologie
Signifikanz und Konfidenzintervalle
• Frequentism: Wir haben eine H0 Hypothese und überlegen uns, wie
plausibel die Daten im angesicht unserer Hypothese sind - zu einem
bestimmten Konfidenzinterval (95%).
• Falsche Interpretation: Es gibt eine 95% WSK, dass der wahre
Populationsparameter in dem Intervall ist.
• Frequentism baut auf die wiederholte Samplebarkeit von Daten!
• Richtige Interpretation: Wenn ich die Stichprobe beliebig oft ziehen
könnte, dann dürfte in 95% aller Fälle der „wahre“ Parameter in
diesem Intervall liegen.
01.10.2013
Seite 8
Institut für Soziologie
Idee der bayesianischen Inferenz:
Prior, Daten, Posterior
• Prior: Schätzung ohne empirische Überprüfung, aber mit Vorwissen
• Daten: Unsere Beobachtungen
→ Posterior: Unsere korrigierte Schätzung, nachdem wir uns die Daten
angeschaut haben
• Prior → Daten → Posterior
• p(θ)→ y → p(θ|y )
01.10.2013
Seite 9
Institut für Soziologie
Vor und Nachteile von Bayes
• Nachteile
• Wir machen zusätzliche Annahmen
• Es besteht die Gefahr, dass wir unseren Annahmen zuviel Gewicht
beimessen
• Insbesondere problematisch bei sehr kleinen Stichproben
• Vorteile
• Transparenz: Vorannahmen gehen explizit ins Modell mit ein
• Verbesserte Schätzung in kleinen Samples, selbst wenn die Priors nicht
viel Information enthalten
• Verbesserte Schätzung in Populationen: Wenn meine Daten alle Objekte
des Interesses beinhalten, wozu dann eigentlich der Standardfehler?
• Ländervergleiche: Beliebig wiederholbare Stichprobe aus einem
Sample?
01.10.2013
Seite 10
Institut für Soziologie
Schön, und gut, dieser Bayes ... wie ist das jetzt
praktisch?
• Annahme: A = θ (gesuchter Parameter) und B = D (unsere Daten)
• p(θ|D) =
p(D|θ)∗p(θ)
p(D)
• Hier wäre dann:
• p(θ) Prior-Annahme für den Paramter, bevor man die Daten gesehen
hat.
• p(D|θ) WSK, die Daten zu beobachten, angenommen θ wäre richtig
• p(θ|D) unsere aposteriori Einschätzung für den Parameter θ, also
unsere Einschätzung des Parameters, nachdem wir die Daten gesehen
haben
01.10.2013
Seite 11
Institut für Soziologie
Priors und Posteriors: Toy Sample
• θ = 1 wenn ein Patient HIV hat, θ = 0 wenn nicht.
• Der Arzt hat Vorwissen über den Patienten, kennt seine Akte, sieht
ihn an, usw.
→ Er kann aufgrund seines Vorwissens schliessen dass
P(θ = 1) = 0.3, sprich: Er glaubt der Patient habe eher kein HIV,
auch wenn dieser Gegenteiliges behauptet, will es aber nicht
ausschliessen
→ Prior = 0.3 für θ = 1
• Der Arzt testet und stellt fest: Test positiv!
• Der Test hat folgende (fiktive) Eigenschaften:
• Trefferquote: p(D|θ = 1) = 0.9
• Falsch-Positiv Rate: p(D|θ = 0) = 0.2
01.10.2013
Seite 12
Institut für Soziologie
Priors und Posteriors: In Formeln
p(D|θ = 1) ∗ p(θ = 1)
p(D)
p(D|θ = 1) ∗ p(θ = 1)
=
p(D|θ = 1) ∗ p(θ = 1) + p(D|θ = 0) ∗ p(θ = 0)
p(θ = 1|D) =
01.10.2013
(1)
(2)
Seite 13
Institut für Soziologie
Priors und Posteriors: In Zahlen
p(θ = 1|D) =
0.9 ∗ 0.3
0.9 ∗ 0.3 + (1 − 0.3) ∗ 0.2
= 0.659
p(θ = 1|D) =
0.9 ∗ .659
0.9 ∗ 0.659 + (1 − 0.659) ∗ 0.2
= 0.896
01.10.2013
(3)
(4)
(5)
(6)
Seite 14
Institut für Soziologie
Priors und Posteriors: Grafisch
1.0
Prior−Posterior−Update
●
●
●
●
●
●
0.6
●
0.4
Prior/Posterior
0.8
●
Prior=0.8
●
0.2
Prior=0.3
0.0
Prior=0.1
1
2
3
4
5
6
7
8
Anzahl Iterationen
01.10.2013
Seite 15
Institut für Soziologie
Schön und gut, aber...
• Bisher haben wir einen einzelnen diskreten Wert gesucht
• Meist suchen wir aber viele kontinuierliche Werte
• Darum brauchen wir für unsere Priors, Posteriors und Likelihoods
Wahrscheinlichkeitsdichte-Funktionen (=PDF) über
Parametervektoren
01.10.2013
Seite 16
Institut für Soziologie
Notation
• θ ist ein Parametervektor des Parameter Raums Θ
• Daten D
• p(θ) ist die prior-Dichte
• π(θ|D) ist die posterior-Dichte
• L(D|θ) ist die Likelihood Funktion
• f (D) ist die Datenverteilung
→
π(θ|D) =
01.10.2013
p(θ) ∗ L(D|θ)
f (D)
(7)
Seite 17
Institut für Soziologie
Simplifizierung
• f (D) = θ π(θ|D)dθ enthält keine Informationen über den
Parametervektor
• Es ist eine normalisierende Konstante, die schwierig zu schätzen ist
• Darum wird f (D) meist nicht in die posterior-Schriebweise
aufgenommen
→
π(θ|D) ≈ p(θ) ∗ L(D|θ)
01.10.2013
(8)
Seite 18
Institut für Soziologie
Beispiel: Normalverteilung mit bekannter Varianz
• Y ∼ N (µ, σ02 ), dabei ist σ02 bekannt und µ unbekannt
• PDF der Normalverteilung:
f (y ) = (2πσ02 )−.5 exp −
01.10.2013
1
(y − µ)2
2σ02
(9)
Seite 19
Institut für Soziologie
Normalverteilungs-Likelihood
• Ein Sample von n unangängigen Ziehungen aus einer
normalverteilten PDF ergibt die Likelihood Funktion:
L(D|µ) = (2πσ02 )−.5n exp −
1
2σ02
(y − µ)2
(10)
i
• Was ist eine Likelihood Funktion?
Eine Funktion, die verwendet wird, um bestimmte Parameter einer
Dichte/WSK Funktion zu schätzen. Sie sagt uns, wie wahrscheinlich
unsere Parameter angesichts bestimmter beobachteter Daten sind.
01.10.2013
Seite 20
Institut für Soziologie
Prior
• Prior: µ ∼ N (m, s2 )
• m für unsere Vermutung über µ;
s2 für unsere Vermutung über die Varianz von µ,
• je kleiner s2 , desto sicherer sind wir in unseren Vorannahmen
p(µ) = (2πs2 )−.5 exp −
01.10.2013
1
2s2
(y − m)2
(11)
i
Seite 21
Institut für Soziologie
Posteriror=Prior x Likelihood
• π(θ|D) =
p(θ)∗L(D|θ)
f (D)
• π(θ|D) ≈ p(θ) ∗ L(D|θ)
• π(µ|D) = (2πs2 )−.5 (2πσ02 )−.5n ∗
in Konstante f (D)
exp
− 2s12
i (y
− m)2 exp − 2σ1 2
• π(µ|D) ∼ exp −.5
01.10.2013
0
1
σ02
i (yi
i (y
− µ)2 +
− µ)2
1
(µ
s2
− m)2
Seite 22
Institut für Soziologie
Kompakter
π(µ|D) = N
σ02
ns2 +σ02
m+
ns2
n s 2 +σ 2
0
y¯ ,
1
s2
+
n
σ02
−1
• Die Posterior-Verteilung setzt sich zusammen aus einer Mischung
aus Prior-Verteilung und Likelihood
• Sie ist dabei abhängig von der sog. „precision“
01.10.2013
Seite 23
Institut für Soziologie
Precision und Shrinkage
• Precision ist die inverse Varianz: Sie bezeichnet die Sicherheit der
Schätzung. Je kleiner die Varianz, desto sicherer...
• Prior und Data Precision betimmten die relative Gewichtung von m
und y¯ für den mean der posterior
• Prior Precision:
Data Precision:
• E(µ|D) =
01.10.2013
σ02
ns2 +σ02
1
s2
1
σ02
m+
=
=
1
Var [m]
1
Var [y¯ ]
ns2 ¯
y
ns2 +σ02
Seite 24
Institut für Soziologie
Precision und Shrinkage II
• lim
s2 →0
σ02
ns2 +σ02
m+
ns2 ¯
y
ns2 +σ02
=m
s2 → 0 Wenn die Varianz unserer Prior-Schätzung gegen 0 geht,
dann geht unsere posterior gegen m (den mean unserer prior)
• lim
σ02 →0
σ02
ns2 +σ02
m+
ns2 ¯
y
ns2 +σ02
= y¯
σ02 → 0 Wenn die Varianz unserer Sample-mean-Schätzung gegen 0
geht, dann geht unsere posterior gegen y¯ (den mean unserer Daten)
01.10.2013
Seite 25
Institut für Soziologie
Precision und Shrinkage III
• Zentraler Grenzwert Satz (Bayesianisch):
• lim
n→∞
σ02
ns2 +σ02
m+
ns2 ¯
y
ns2 +σ02
= y¯
• Wenn n → ∞, kommt man auf den y¯ Schätzer, den man auch beim
„Frequentist-Schätzen“ bekommen hätte.
• Warum? Weil man der Prior immer weniger gewicht zumisst, bis man
sie schliesslich ignorieren kann.
01.10.2013
Seite 26
Institut für Soziologie
Priors: Informativ, Nichtinformativ, Conjugate
• Informative Priors beeinhalten bereits eine konkrete Vorstellung vom
Ergebnis, sprich wenig Varianz: Dementsprechend stärker ist ihr
Einfluss auf das zu schätzende Ergebnis.
• Nichtinformative Priors haben eine sehr hohe Varianz und in der
Regel mean=0. Üblicherweise nimmt man in den
Sozialwissenschaften nichtinformative Priors, es sei denn man hat
eine wirklich gute Begründung.
• „Conjugate Priors“: Wenn Prior und Posterior aus der selben
Verteilungsfamilie sind, (z.B. Normalverteilt), macht das die
Schätzung einfacher.
01.10.2013
Seite 27
Institut für Soziologie
Schätzung I: Problem
• Posterior: π(θ|D) =
p(θ)∗L(D|θ)
f (D)
• Wir brauchen die volle Posterior, um means, medians und HPD‘s zu
berechnen
• f (D) ist aber oft sehr schwer zu berechnen, da es sich dabei
möglichweise um ein mehrdimensionales Integral handelt
• Bei Multi-Parameter Problemen wollen wir die Posterior jedes
Parameters -> viele mehrdimensionale Integrale
• Sehr unangenehm und eigentlich kaum algebraisch zu lösen.
01.10.2013
Seite 28
Institut für Soziologie
Schätzung II: Lösung
• 2 Möglichkeiten:
• Numerische Integration (z.b. Adabtive Quadratur)) / ML
• Simulation der Posterior -> MCMC (Markov Chain Monte Carlo
Methoden)
• Monte Carlo Simulation:
• Wiederholte zufällige Auswahl (Ziehen mit Zurücklegen)
• Markov Chain:
• Zufallsprozess, bei dem schon die begrenzte Kenntnis der
Vorgeschichte gute Prognosen ermöglicht.
• Tendiert gegen Gleichgewicht
• „Jumping-Fly“, um ggf. aus lokalen Maxima wieder herauszukommen.
01.10.2013
Seite 29
Institut für Soziologie
Schätzung III: MCMC Sampling
(Metropolis-Hastings Algorithmus)
• Wir definieren Vorschlagsdichte p(θ∗ |θ)
mit θ∗ als neuen Zustand
und θ als alten Zustand
∗
∗
∗
|D)p(θ ) p(θ|θ )
• Akzeptanzwahrscheinlichkeit α(θ, θ∗ ) = min{ L(θ
, 1}
L(θ|D)p(θ) p(θ ∗ |θ)
• Startwert θ0 und Länge n der Markov-Kette
• Für T = 1, ..., n :
• Wir ziehen eine Zufallszahl θ∗ aus der Vorschlagsdichte p(θ∗ |θt−1 )
• Akzeptieren oder Ablehnen von θ∗ als neuen Zustand
• Nach einer Burnin-Phase können Realisationen von θt als Zufallszahlen
aus der Posteriori-Verteilung aufgefasst werden
01.10.2013
Seite 30
Institut für Soziologie
Schätzung IV: MCMC Sampling – in Worten
• Random-Walk durch eine Wahrscheinlichkeitsdichte
• Das gesuchte Markov-Gleichgewicht entspricht dabei den
Parametern der Verteilung
• Man zieht eine Stichprobe aus einer Wahrscheinlichkeitsverteilung
mithilfe von Markov-Ketten, die so spezifiziert sind, dass deren
Gleichgewichtszustand/stationäre Verteilung der gesuchten
Verteilung entspricht.
01.10.2013
Seite 31
Institut für Soziologie
Schätzung V: Ergebnisse – Punkt und
Intervallschätzer
• Eigentlich geht es darum, die volle Posterior-Verteilung zu schätzen.
• Wir erhalten also für jeden „Parameter“ nicht einen Wert, sondern
eine Verteilung.
• Publizieren kann man aber idr. nur eine Zusammenfassung:
• Punktschätzer (mean, median, mode)
• Intervallschätzer (HPD: highest posterior density intervals)
• Am besten natürlich eine Kombination aus Beiden
01.10.2013
Seite 32
Institut für Soziologie
Spezifizierung und Implementierung in R
• Die Spezifizierung des Modells ist generell recht aufwändig, da der
Sampler nicht in R direkt implementiert ist, sondern eigens ein
Programm installiert werden muss
• BUGS (Bayesian Analysis using Gibbs Sampling) oder JAGS (Just
Another Gibbs Sampler)
• Gibbs-Sampling ist ein Spezialfall des
Metropolis-Hastings-Algorithmus (gemeinsame Verteilung
unbekannt, aber jeweils bedingte Verteilung bekannt)
• Das Modell muss eigens geschrieben werden
• Dabei müssen sowohl Startwerte, zu beobachtende Parameter und
auch Priors definiert werden.
01.10.2013
Seite 33
Institut für Soziologie
Es gibt mittlerweile auch diverse andere
Implementierungen
• Package: languageR, pvals.fnc( ); Baut HPD Intervalle für einfache
lmer modelle, Paket nur sehr eingeschränkt kompatibel
• Package: lme4, mcmcsamp( )
• Benützen m.w. beide die Spezifikationen aus einem lmer-Modell, um
eine Bayes-Postestimation der Parameter durchzuführen, aber m.W.
keine Spezifizierung von Priors möglich
• Es geht eher um die Berechnung von p-Werten, die lmer ja nicht
automatisch ausgibt.
01.10.2013
Seite 34
Institut für Soziologie
Ein Beispiel
• Ein Beispiel aus dem SHARE: Mehrebenenmodell
• Wie schätzen ein Mehrebenenmodell mit der abhängen Variable
Lebensqualität und den unabhängigen Variablen Alter Gender Health
Trouble und Hilfe leisten an Eltern in 14 Ländern
• Dabei wird Hilfe an Eltern als Random Effekt spezifiziert.
• Zu schätzen sind dabei eine ganze Reihe von Parametern
• Je 14 Werte für den Random Intercept B[1,1-14,1] und 14 Random
Slopes für geleistete Hilfe B[1,2-14,2] und jeweils ein µ und ein σ für
deren Verteilung
• Je 4 Werte für Alter, Gender, Health, Trouble (b.0[1-4]
• Eine Covarianzmatrix (rho.B) für die beiden Randomeffects
• Wir benutzen 1000 Iterationen und 3 Chains.
01.10.2013
Seite 35
Institut für Soziologie
Mehrebenenmodell mit Random Slopes und
Intercepts
model{ for (i in 1:n){
y[i]
dnorm(y.hat[i], tau.y)
y.hat[i]<-inprod(b.0[], X.0[i,])+inprod(B[countrynum[i],],X[i,])
}
tau.y <- pow(sigma.y, -2)
sigma.y
dunif(0, 100)
for(j in 1:J){
for (k in 1:K){
B[j,k] <- xi[k]*B.raw[j,k]
}
B.raw[j, 1:K]
dmnorm(mu.raw[], Tau.B.raw[,])
}
for (k in 1:K){
mu[k] <- xi[k]*mu.raw[k]
mu.raw[k] dnorm(0, .0001)
xi[k]
dunif (0, 100)
}
Tau.B.raw[1:K, 1:K]
dwish (W[,], df)
df<-K+1
Sigma.B.raw[1:K, 1:K] <- inverse(Tau.B.raw[,])
for (k in 1:K){
for(k.prime in 1:K){
rho.B[k,k.prime] <- Sigma.B.raw[k,k.prime]/
sqrt(Sigma.B.raw[k,k]*Sigma.B.raw[k.prime,k.prime])
}
sigma.B[k] <- abs(xi[k])*sqrt(Sigma.B.raw[k,k])
}
for (k in 1:K.0){
b.0[k] dnorm(modelmean[k], modelvar[k])
01.10.2013
}
Seite 36
Institut für Soziologie
Ergebnisse I: Tabellarisch
Bugs model at "JAGS_general_model_prior.bug", fit using jags, 3 chains, each with 1000 iterations (first 2000 discarded)
80% interval for each chain
−20000 −10000
0
10000
B[1,1]
[2,1]
[3,1]
[4,1]
[5,1]
[6,1]
[7,1]
[8,1]
[9,1]
[10,1]
[11,1]
[12,1]
[13,1]
[14,1]
[1,2]
[2,2]
[3,2]
[4,2]
[5,2]
[6,2]
[7,2]
[8,2]
[9,2]
[10,2]
[11,2]
[12,2]
[13,2]
[14,2]
b.0[1]
[2]
[3]
[4]
deviance
mu[1]
[2]
rho.B[1,1]
[2,1]
[1,2]
[2,2]
sigma.B[1]
[2]
−20000 −10000
0
10000
R−hat
1.5
1
medians and 80% intervals
2+
0.1
●
●
●
●
●
●
●
●
●
●
●
0.05
●
●
●
●
●
●
●
B
●
●
●
●
●
●
●
0
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
2
3
4
5
6
7
8
●
●
●
●
●
●
●
●
●
●
●
●
●
●
−0.05
●
●
1
1
2
3
4
5
6
7
8
9 10
12
14 1
2
9 10
12
14
●
●
●
0.05
●
●
●
●
●
b.0
●
0
●
●
●
●
●
●
−0.05
●
1
2
3
4
●
●
●
−17580
●
●
●
−17600
●
deviance
●
●
●
●
−17620
●
●
−17640
●
●
●
●
0.1
●
●
●
mu
●
0.05
●
0
●
●
●
●
1
1.5
2+
−0.05
1
1
rho.B 0
−1
2
●
1
1
●
●
●
●
●
●
●
2
1
2
2
0.04
sigma.B
0.02
0
●
●
●
●
●
●
1
2
0.118
0.117
sigma.y
●
0.116
0.115
01.10.2013
Seite 37
Institut für Soziologie
.....
• Linke Seite: Vertrauensintervall für jede Parameterverteilung und
jede Kette (die 3 Farben)
• R-hat: Je näher an 1, desto besser ist die Markovkette konvergiert
(Wir haben Konvergenzprobleme für ein paar Random Slopes)
• Rechte Seite: Unsere eigentlichen Schätzer, B für die Random
Intercepts and Slopes, b.0 für die Parameter
• rho.B. sind die Schätzer für die Korrelation der Random Effekts (die
fliegen uns hier um die Ohren)
• Auf nächster Seite nochmal deutlicher: Unterschiedliche Kurven für
unterschiedliche Traces sind nicht gut.
• Wie gut konvergiert es? Traceplots (in etwa: die Sprünge, die die
Markov-Kette nach dem Burnin noch macht, sollte möglichst
flach/horizontal sein)
01.10.2013
Seite 38
Institut für Soziologie
Ergebnisse II: Grafisch
sigma.y
0.01.0
−1.5
−0.5
0.02
0 40
0.03
0.04
0.09
0200
0.00
0.02
0.00
0.02
050 150
B[2,2]
0.00 0.01
0.04
−0.03
0.06
B[7,1]
B[3,1]
0 40
0.07
0.00 0.01
B[6,2]
−0.02
0.06
0.08
0.10
−0.01
0.01
B[12,1]
0.03 0.04 0.05 0.06
0.00 0.02 0.04 0.06
B[2,1]
0.05
0.034
0 100
0.02
0.06
0.030
B[10,2]
−0.02
0.02
0 40
B[1,1]
0.03 0.04 0.05 0.06
0.00 0.01
0.00
B[11,1]
0 20 50
0 40
0 40
0.02
−0.02
0.05
B[6,1]
0.09
−0.02
B[1,2]
050 150
0 40
0.01
B[5,1]
−0.02
0.04
B[10,1]
0.030.040.050.060.07
0.07
−0.02
0 100
0.00
0.026
0.000 0.010
B[5,2]
0.02
1.5
B[14,2]
0 100
0.00 0.01
0.00
B[14,1]
0 40 80
0.06
B[9,1]
0.05
−0.015
0 4080
0.04
−0.039
B[9,2]
0 100
050
0 4080
B[13,1]
−0.02
0.05
1.0
b.0[4]
0 300
0.01
B[4,2]
0.02
0.5
B[13,2]
050 150
050 150
−0.02
B[3,2]
0.02
−0.042
B[8,2]
050 150
0.01
−0.01
0.03
rho.B[1,1]
0.000 0.010
b.0[3]
B[12,2]
−0.03
sigma.B[1]
0.01
0.01.0
−0.015
−0.010−0.005 0.000
0.01
B[7,2]
050 150
Density
0.06
0 150
0 2000
050 150
B[11,2]
−0.02 −0.01 0.00
0 4080
0.04
b.0[2]
6e−04
1.5
mu[2]
0 40
0.02
b.0[1]
−2e−04 2e−04
−0.02 0.00
1.0
mu[1]
−17600
−0.03 −0.01
0.5
0 100
deviance
0.51.01.5
050 150
0.51.01.5
0 100
0.000 0.030
−0.5
−17660
01.10.2013
rho.B[2,2]
0.0 0.8
rho.B[1,2]
0.0 0.8
rho.B[2,1]
−1.5
040 120
0.114 0.116 0.118
0 40 80
0.020
B[8,1]
0 4080
0.010
0.020.030.040.050.06
B[4,1]
0 40 80
0400
0 300
sigma.B[2]
0.000
0.05
0.07
0.09
Seite 39
Institut für Soziologie
Güte der Ergebnisse: Traceplot für Gender
b.0[2]
−0.008
−0.006
−0.004
−0.002
0.000
0.002
b.0[2]
100
200
300
400
500
600
700
800
900
1000
iteration
01.10.2013
Seite 40
Institut für Soziologie
Güte der Ergebnisse: Traceplot für die Covarianz der Randomeffects
0.0
−1.0
−0.5
rho.B[1,2]
0.5
1.0
rho.B[1,2]
100
200
300
400
500
600
700
800
900
1000
iteration
01.10.2013
Seite 41
Institut für Soziologie
Zu guter Letzt:
• Es gibt eine Welt jenseits der Signifikanztests!
• Bayesianisten und Frequentisten unterscheiden sich im
Wahrscheinlichkeitsverständnis!
• Wie kritisiere ich Bayesianer in den Sozialwissenschaften?
• Da wir in der Soziologie zum Glück nur wenig gesicherte Erkenntnisse
produzieren, sind die Priors immer angreifbar!
• Viele verwenden sog. „Baby-Bayes“ mit nicht informativen Priors.
• Aber: Ohne Priors macht Bayes wenig Sinn!
01.10.2013
Seite 42
Institut für Soziologie
Vielen Dank für Eure Aufmerksamkeit!
& Weiterhin Schöne Ferien!
01.10.2013
Seite 43
Document
Kategorie
Gesundheitswesen
Seitenansichten
10
Dateigröße
955 KB
Tags
1/--Seiten
melden