close

Anmelden

Neues Passwort anfordern?

Anmeldung mit OpenID

4 Transformationen von Statistiken Viele Statistiken wie z.B. der

EinbettenHerunterladen
4
4.1
Transformationen von Statistiken
Motivation
¯ n entViele Statistiken wie z.B. der empirische Variationskoeffizient Sn /X
stehen als Transformation Tn = g(Y n) eines Vektors Y n elementarer Stichprobenstatistiken. Dieses Kapitel behandelt Techniken, um aus asymptotischen Aussagen u¨ber Y n Aussagen u¨ber g(Y n) herzuleiten. Satz 2.3.1 trifft
Aussagen diesbezu¨glich fu¨r stochastische, fast sichere und Verteilungskonvergenz. Hier erg¨anzen wir Aussagen u¨ber asymptotische Normalit¨at.
Bemerkung 4.1.1:
Falls ein Sch¨atzer Tn ∼ AN (θ, σn2 (θ)) mit σn2 (θ) → 0 ∀θ erfu¨llt, gilt zwar
p
Tn −→ θ, d.h. (Tn : n ∈ N) ist schwach konsistent fu¨r θ, aber Konfidenzbereiche und Tests sind unter Umst¨anden schwer zu konstruieren, da σn2 (θ)
unbekannt ist. Dieses Problem verschwindet, falls wir eine Transformation
g finden, so dass g(Tn ) ∼ AN (g(θ), νn ) mit νn unabh¨angig von θ.
Falls σn2 (θ) = h2(θ)νn mit νn → 0 und unabh¨angig von θ, zeigt Anwendung
von Satz 4.2.1, dass wir g bestimmen k¨onnen als L¨osung der Differentialgleichung
dg(θ)
1
=
.
dθ
h(θ)
Beispiel 4.1.2:
Falls X1, X2, . . . unabha¨ngig identisch Poisson-verteilte ZVn mit Parameter
¯ n ∼ AN (θ, θ/n). Laut Bemerθ sind, gilt fu¨r das arithmetische Mittel X
dg(θ)
kung 4.1.1 suchen wir eine Transformation g mit
= √1 , so dass
dθ
θ
√
g(x) = 2 x fu¨hrt zu
√
¯ n ∼ AN (2 θ, 1/n) .
2 X
√
Multiplikation mit n/2 ergibt dann die hìaufig benutzte Approximation,
√
dass im Falle Z ∼ P ois(λ) mit λ groß, Z approximativ N ( λ, 1/4)verteilt ist.
40
Anwendung 4.1.3: (Tukey’s hanging rootogram)
¨
Histogramme und andere Dichtesch¨atzer werden oft zum Uberpr
u¨fen von
Verteilungsannahmen eingesetzt, indem man die Sch¨atzung fn (x) plottet
und sie mit der hypothetischen Dichte f0 (x) vergleicht. Hierbei gilt meist
fn(x) ∼ AN (f (x), σn2 (f (x))),
z.B. mit σn2 (f (x)) = f (x)/(2nbn) fu¨r fn(x) aus 1.5.12. Dann gilt fu¨r die
Abweichungen
fn(x) − f0(x) ∼ AN (f (x) − f0(x), f (x)/(2nbn)) :
Die Abweichungen haben unter H0 : f = f0 zwar asymptotisch den
konstanten Erwartungswert 0, aber mit f0(x) variierende Varianzen, und
sind somit nicht leicht interpretierbar. Insbesondere kann die gleiche absolute Abweichung zu sehr verschiedenen Signifikanzniveaus geh¨oren, in
Abha¨ngigkeit von f0(x).
L¨osungsvorschlag (Tukey):
√
Verwende g(x) = x zur Varianz-stabilisierung, d.h. betrachte
fn (x) ∼ AN (
f (x), 1/(8nbn)) .
Statt fn(x) gegen f0(x) zu plotten, werden zum besserem Vergleich die
Abweichungen fn (x) − f0 (x) geplottet, die unter H0 um 0 schwanken
mit Standardabweichung approximativ (8nbn)−1/2.
Abbildung 1: Kerndichtesch¨
atzung fu
¨r 1000 Beobachtungen von N (0.2, 1) und Stan-
dardnormalverteilungsdichte sowie Rootogram mit 3-Standardabweichungen-Linie.
−0.05
0.00
difference
0.2
0.1
0.0
Density
0.3
0.05
0.4
density.default(x = x)
−4
−2
0
2
4
−4
N = 1000 Bandwidth = 0.2291
−2
0
x
41
2
4
4.2
Delta-Methode
Theorem 4.2.1:
Falls Yn ∼ AN (µ, σn2 ) gilt mit σn → 0 und g : R → R eine bei µ
differenzierbare Funktion mit g ′ (µ) = 0 ist, dann gilt
g(Yn ) ∼ AN (g(µ), [g ′(µ)]2σn2 ).
Bemerkung 4.2.2:
Falls g in Satz 4.2.1 in einer Umgebung von µ stetig differenzierbar ist,
dann k¨onnen wir g ′ (µ) durch die Sch¨atzung g ′ (Yn) ersetzen und erhalten
g(Yn) − g(µ) d
−→ N (0, 1) .
g ′ (Yn)σn
Falls zus¨atzlich σn2 = σ 2(µ)/n mit σ stetige Fkt. von µ, dann k¨onnen wir
√
σn durch σ(Yn)/ n sch¨atzen und erhalten
√
n[g(Yn) − g(µ)] d
−→ N (0, 1) .
g ′ (Yn)σ(Yn)
Beispiel 4.2.3:
Aus 2.1.4 wissen wir
Sn2 ∼ AN (σ 2, [µ4 − σ 4]/n) .
Aus Satz 4.2.1 folgt nun im Falle σ > 0
Sn ∼ AN (σ, [µ4 − σ 4]/[4σ 2n]) .
Theorem 4.2.4:
Falls Yn ∼ AN (µ, σn2 ) gilt mit σn → 0 und g : R → R eine bei µ mmal differenzierbare Funktion ist mit g (j)(µ) = 0, j = 1, . . . , m − 1, und
g (m) (µ) = 0, dann gilt im Falle σ > 0
m![g(Yn) − g(µ)] d
m
−→
[N
(0,
1)]
.
g (m) (µ) σnm
42
Beispiel 4.2.5:
Im Falle von Yn ∼ AN (0, σn2 ) mit σn → 0 und g(x) = log2(1 + x) gilt
log2(1 + Yn) d
−→ χ21 .
2
σn
Beispiel 4.2.6:
p
Fu¨r Yn ∼ AN (µ, σn2 ) mit σn → 0 gilt Yn −→ µ und mit Satz 2.3.1
p
Yn2 −→ µ2. Fu¨r µ = 0 zeigt Satz 4.2.1, dass Yn2 ∼ AN (µ2, 4µ2σn2 ).
Falls hingegen µ = 0, dann zeigt Satz 4.2.4 (oder auch Satz 2.3.1), dass
d
Yn2/σn2 −→ χ21.
Theorem 4.2.7:
Gelte Y n = (Yn1, . . . , Ynk )′ ∼ AN (µ, νn Σ) mit νn → 0 und Σ symmetrisch positiv-definit. Sei g = (g1, . . . , gl ) : Rk → Rl eine Funktion,
deren Komponenten gi , i = 1, . . . , l bei µ alle differenzierbar seien mit
∂gi(y)
∂gi (y)
=
0,
dann
gilt
mit
D
=
, dass
∂y y =µ
∂yj y =µ
l×k
′
g(Y n ) ∼ AN (g(µ), νn DΣD ).
Korollar 4.2.8:
Gelte Y n = (Yn1, . . . , Ynk )′ ∼ AN (µ, n−1 Σ) mit Σ symmetrisch positivdefinit. Sei g : Rk → R eine bei µ differenzierbare Funktion mit Gradient
∂g(y)
d=
= 0, dann gilt
∂y y =µ
g(Y n ) ∼ AN (g(µ), n−1dΣd′).
Bemerkung 4.2.9:
Falls in Kor. 4.2.8 der Gradient in y = µ gleich 0 ist, aber die Matrix der 2.
∂ 2g
Ableitungen A = 0.5
= 0, dann gilt mit Z ∼ N (0, Σ):
∂yi ∂yj y =µ
k×k
d
n[g(Y n) − g(µ)] −→ ZAZ ′
43
4.3
Anwendungen
Beispiel 4.3.1: (Korrelationskoeffizient)
Der empirische Korrelationskoeffizient
n
n−1
i=1
ρˆn =
¯ n)(Yi − Y¯n)
(Xi − X
n
n−1
i=1
n
¯ n )2
(Xi − X
n−1
i=1
(Yi − Y¯n)2
ist eine Funktion g(Y n ) mit
n
¯ n, Y¯n, n−1
Y n = (X
n
n
Xi2, n−1
i=1
Yi2, n−1
i=1
und
g(y1 , y2, y3 , y4, y5) =
Xi Yi )
i=1
z5 − z1z2
z3 −
z12
z4 −
.
z22
Nach Satz 2.1.2 gilt Y n ∼ AN (µ = E(Y n ), n−1Σ), so dass nach Kor.
4.2.8 gilt
ρˆn ∼ AN (ρ, n−1 dΣd′),
wobei wegen
gilt
∂g
y1(y5 − y1y2)
y2
=
−
∂y1 (y3 − y12 )3/2(y4 − y22)1/2 (y3 − y12 )1/2(y4 − y22)1/2
d1 =
∂g(y)
ρµx
µy
=
−
,
∂y1 y =E(Y n)
σx σy
σx2
und insgesamt
d=
1
ρµx
µy ρµy
µx
2
2
−
,
−
,
−ρ/2σ
,
−ρ/2σ
,
x
y
σxσy σy2
σx σy
σx σy
σx2
44
Anwendung 4.3.2: (Optimale Linearkombinationen)
Sei θˆ n = (θˆn1 , . . . , θˆnk )′ ∼ AN ((θ, . . . , θ)′ , n−1Σ) ein Vektor asymptotisch
erwartungstreuer und gemeinsam normalverteilter Sch¨atzer fu¨r einen unbekannten Parameter θ. Wir suchen eine Linearkombination θ˜n = ki=1 wi θˆi
mit w1 + . . . + wk = 1, so dass
θ˜n ∼ AN (θ, n−1 wΣw′)
mit w = (w1, . . . , wk ), wobei die asymptotische Varianz wΣw′ minimiert
werden soll. Die L¨osung hiervon lautet

−1
k
inf
k
i=1 wi =1
wΣw ′ = 
und wird mit Σ⋆ = Σ−1 = (σij⋆ ) fu¨r
 k



w=


k
i=1 j=1
σij⋆ 
k
⋆
σkj


j=1

,..., k k


⋆
⋆
σij
σij
⋆
σ1j
j=1
k
k
i=1 j=1

i=1 j=1
angenommen (Rao, 1973, Linear Statistical Inference and its Applications,
2nd edition, Wiley, New York).
Fu¨r k = 2 ergibt sich die optimale Gewichtung als
w=
σ22 − σ12
σ11 − σ12
,
σ11 + σ22 − 2σ12 σ11 + σ22 − 2σ12
und fu¨hrt mit ρ = σ12/(σ1σ2) und κ = σ22/σ12 zu
′
wΣw =
σ12κ
1 − ρ2
√ .
1 + κ − 2ρ κ
Falls o.B.d.A. σ12 ≤ σ22 ergibt sich der Gewinn durch Benutzung der optimalen Linearkombination anstatt des asymptotisch besseren Ausgangssch¨atzers
zu
√ 2
′
wΣw
(1 − ρ κ)
√ ,
=
1
−
2
1 + κ − 2ρ κ
σ1
d.h., die optimale Linearkombination ist besser als beide Ausgangssch¨atzer
√
g.d.w. 1 = ρ κ = σ12/σ12, d.h. falls σ12 = σ12.
45
4.4
Double Arrays von ZVn
Wir betrachten in diesem Unterabschnitt Felder von ZVn der Form (Xnj :
j = 1, . . . , kn , n ∈ N) mit kn → ∞. Fu¨r kn = n sprechen wir von einem
Dreiecksschema. Fu¨r j = 1, . . . , kn sei Fnj die VF von Xnj , µnj = E(Xnj ),
kn
kn
kn
2
γn = E
j=1 Xnj =
j=1 µnj und τn = V ar
j=1 Xnj .
Theorem 4.4.1:
Sei {Xnj : 1 ≤ j ≤ kn; n = 1, 2, . . .} ein Schema von ZVn mit unabh¨angigen ZVn innerhalb der Zeilen. Dann gelten die gleichm¨aßige asymptotische
Vernachla¨ssigbarkeit (uniform asymptotic neglibility)
n→∞
max P (|Xnj − µnj | > ǫτn) −→ 0 ∀ǫ > 0
1≤j≤kn
und die asymptotische Normalit¨at
kn
i=1
Xni ∼ AN γn, τn2
gemeinsam genau dann, wenn die Lindeberg-Bedingung erfu¨llt ist, dass
kn
i=1
|t−µni |>ǫτn
(t − µni)2dFni (t)
τn2
Beweis: Chung (1974, Abschnitt 7.2).
n→∞
−→ 0 ∀ǫ > 0 .
(L)
Korollar 4.4.2:
Fu¨r ein Schema (Xnj : j = 1, . . . , kn, n ∈ N) mit unabh¨angigen ZVn
innerhalb der Zeilen gilt
kn
∃ν > 2 :
i=1
kn
E|Xni − µni|ν = o(τnν )
⇒
i=1
Xni ∼ AN γn, τn2
Theorem 4.4.3: (Multivariater ZGWS fu¨r Dreiecksschemata)
Sei Y n ein arithmetisches Mittel von n u.i.v. ZVn X ni = (Xni1, . . . , Xnik )′
mit Erwartungswerten 0 und Kovarianzmatrix Σn , deren Komponenten
alle E|Xnij |ν < K fu¨r ein ν > 2 und K < ∞ erfu¨llen. Weiter gelte
Σn → Σ fu¨r eine Kovarianzmatrix Σ. Dann gilt
Y n ∼ AN 0, n−1 Σ .
46
4.5
Quadratische Formen asymptotisch normalverteilter ZVn
Abstandsmaße werden oft als quadratische Formen asymptotisch normalverteilter ZVn konstruiert, Tn = Y ′n CY n mit Y n ∼ AN (µ, Σ). In diesem
d
¨
Falle gilt Tn −→ Y ′CY mit Y ∼ N (µ, Σ), vgl. Satz 2.3.1. Ahnliche
Situationen ergeben sich mit Bemerkung 4.2.9. Wir besch¨aftigen uns mit der
Frage, unter welchen Umsta¨nden Y ′ CY ∼ χ2l (∆) gilt.
Lemma 4.5.1:
Fu¨r Y ∼ N (µ, I k ) und C ∈ Rk×k symmetrisch hat die quadratische Form
Y ′ CY eine (nichtzentrale) χ2-Verteilung genau dann, wenn C 2 = C. In
diesem Falle sind die Freiheitsgrade gleich rg(C) = spur(C) und der
Nichtzentralita¨tsparameter ist µ′ Cµ.
Beweis: Rao (1973, Kapitel 3.b.4).
Theorem 4.5.2:
Fu¨r Y ∼ N (µ, Σ) und C ∈ Rk×k symmetrisch gelte x′ Σ = 0 ⇒
x′ µ = 0. Dann hat Y ′CY eine (nichtzentrale) χ2-Verteilung genau dann,
wenn ΣCΣCΣ = ΣCΣ. In diesem Falle sind die Freiheitsgrade gleich
spur(CΣ) und der Nichtzentralita¨tsparameter ist µ′Cµ.
Beweis: Serfling (1980, S. 128ff).
Beispiel 4.5.3:
Falls in Theorem 4.5.2 Σ ∈ Rk×k invertierbar ist und C = Σ−1, so gilt
Y ′ Σ−1 Y ∼ χ2k (µ′ Σ−1 µ)
Beispiel 4.5.4:
Seien X 1, . . . , X n u.i.v. M ult(1; π = (π1, . . . , πk ))-verteilt mit πj > 0,
j = 1, . . . , k, und kj=1 πj = 1. Es gilt EX 1 = π und
Σ = Cov(X 1) = (σij ) mit σij =
πi(1 − πi), i = j
−πiπj ,
47
i=j
= πi(δij − πj ).
n
Sei (N1, . . . , Nk ) =
aufigkeiten
i=1 X i ∼ M ult(n; π) der ZV der H¨
der k verschiedenen Kategorien. Anwendung des multivariaten LindebergFeller ZGWS Theorem 2.7.7 auf den Vektor der relativen H¨aufigkeiten zeigt
(N1/n, . . . , Nk /n)′ ∼ AN (π, n−1Σ), d.h.
√
d
Y n = n(N1/n − π1, . . . , Nk /n − πk )′ −→ N (0, Σ).
Testen der Hypothese H0 : π = π 0 = (π01, . . . , π0k ) u¨ber die χ2-Statistik
k
Tn =
i=1
(Ni − nπi)2
=
nπi
k
i=1
1
πi
Ni
− πi
n
2
n = Y nCY ′n
mit kurz π statt π 0 und C = diag (1/π1, . . . , 1/πk ).
Anwendung von Theorem 4.5.2 unter H0 :
Wegen µ = 0 ist die 1. Bedingung trivialerweise erfu¨llt.
Gleiches gilt fu¨r die 2. Bedingung wegen CΣ = (σij /πi) = (δij − πj )
k
⇒ CΣCΣ =
l=1 (δil − πl )(δlj − πj ) = (δij − πj ) = CΣ.
Wegen spur(CΣ) = ki=1(1 − πi) = k − 1 gilt somit
d
d
Y n −→ N (0, Σ) ⇒ Tn = Y n CY ′n −→ χ2k−1 .
Bewertung der Gu¨te des Tests unter lokalen Alternativen der Form
πni = π0i + ∆in−1/2,
i = 1, . . . , k, n ∈ N .
In diesem Falle Y n = Y ⋆n + ∆ mit ∆ = (∆1, . . . , ∆k )′ und
√
nY ⋆n = n(N1/n − πn1, . . . , Nk /n − πnk )′ ∼ M ult(n; πn1, . . . , πnk ).
d
d
Aus 4.4.3 folgt Y ⋆n −→ N (0, Σ0) und Y n −→ N (∆, Σ0).
Wegen rang(CΣ) = spur(CΣ) = k − 1 muss rang(Σ) = k − 1 gelten,
so dass 0 einfacher Eigenwert von Σ ist. 1 = (1, . . . , 1) ist Eigenvektor von
Σ zum EW 0 und ∆1 = ki=1 δi = 0, so dass die 1. Bedingung erfu¨llt ist.
Anwendung von Theorem 4.5.2 zeigt mit ∆Σ0∆′ = ki=1 ∆2i /π0i , dass
d
′
n
d
k
Y n −→ N (∆, Σ) ⇒ Tn = Y n CY −→
χ2k−1
i=1
∆2i
π0i
,
wobei der Nichzentralit¨atsparameter geschrieben werden kann als ki=1 ∆2i /πi =
n ki=1(E(Ni /n)−πi)2/πi . Fu¨r n groß ist die Gu¨te des Tests mit kritischem
Wert c1−α an der Stelle π ⋆ = (π1⋆, . . . , πk⋆)′ somit approximativ
k
P
χ2k−1
n
i=1
(πi⋆ − π0i)2
π0i
48
> c1−α .
Document
Kategorie
Gesundheitswesen
Seitenansichten
2
Dateigröße
91 KB
Tags
1/--Seiten
melden