close

Anmelden

Neues Passwort anfordern?

Anmeldung mit OpenID

I Wichtiges aus der Vorlesung

EinbettenHerunterladen
I
WICHTIGES AUS DER VORLESUNG
Elementare Stochastik
I Wichtiges aus der Vorlesung
Merkmalstyp, Messniveau
Merkmalstyp
Messniveau
Beispiele
qualitatives Merkmal
Nominalskala
Familienstand, Geschlecht, Farbe, Bundesland
Rangmerkmale
Ordinalskala
Rangplätze bei Wettbewerben
quantitatives Merkmal
Intervallskala
Nullpunkt NICHT absolut festgelegt, z. B. (∗)
(metrisches Merkmal)
diskret / stetig
Verhältnisskala
Nullpunkt eindeutig festgelegt, z. B. (∗∗)
(∗) Bei Intervallskalen sind Addition und Subtraktion der Messwerte zur Bestimmung eines
Mittelwertes sinnvoll, NICHT jedoch die Multiplikation und Division der Werte untereinander.
(∗∗) Bei Verhältnisskalen sind auch Multiplikation und Division der Messwerte untereinander
sinnvoll.
Merkmale mit nur zwei Ausprägungen (z. B. ja–nein, Erfolg–Misserfolg) heißen auch dichotone
Merkmale.
1.1 Häufigkeiten
Sei X : M −→ A. Dann heißt
h(X = a) := #{X = a} = # m ∈ M
X(m) = a
die (absolute) Häufigkeit der Ausprägung a und
r(X = a) :=
h(X = a)
#M
die relative Häufigkeit von a.
Es gelten:
h(X = a) = #M
a∈M
r(X = a) = 1
a∈M
1.2 arithmetisches Mittel
Sei M = {1, . . . , n} , X : M −→ A eine Abbildung und A ⊂ R (z. B. für die Ausprägungen einer
Intervall- oder Verhältnisskala). Zu X gehört die Datenreihe x1 , . . . , xn . Dann heißt
x
¯ :=
1
(x1 + . . . + xn )
n
das arithmetische Mittel1 der Datenreihe. Es ist die am häufigsten verwendete Maßzahl, um den
mittleren Wert einer Datenreihe zu charakterisieren.
1
englisch arithmetic mean
Seite 1
I
WICHTIGES AUS DER VORLESUNG
Elementare Stochastik
Für A = {a1 , . . . , an } kann das arithmetische Mittel aus den absoluten oder relativen Häufigkeiten
berechnet werden durch
(i) x
¯=
k
1
n
aj h(X = aj )
j=1
k
(ii) x
¯=
aj r(X = aj )
j=1
Für x1 , . . . , xn ∈ R gilt:
n
(xi − x
¯) = 0
i=1
1.3 Linearitätseigenschaft des arithmetischen Mittels
Vor:
Es seien x1 , . . . , xn ∈ R und y1 , . . . , yn ∈ R zwei Datenreihen, a, b ∈ R.
Beh:
(a) zi = xi + yi =⇒ z¯ = x
¯ + y¯
(b) zi = a · xi + b =⇒ z¯ = a · x
¯+b
1.4 Minimalitätseigenschaft des arithmetischen Mittels bzgl. der quadratischen
Abweichung
Vor:
Es sei x1 , . . . , xn ∈ R. Dann ist:
Beh:
n
n
(xi − d)2
(xi − x
¯)2 ≤
∀d∈R
i=1
i=1
1.5 Stichproben-Varianz, Standardabweichung, Streuungsmaßzahlen
Es sei x1 , . . . , xn ∈ R eine Datenreihe einer I- oder V-Skala.
s2 :=
n
1
·
(xi − x
¯ )2
n − 1 i=1
heißt Stichproben-Varianz und
√
s :=
s2
heißt Standardabweichung der Datenreihe x1 , . . . , xn bezüglich der Stichproben-Varianz. s2 und
s sind sogenannte Streuungsmaßzahlen.
Liegen die Daten (Messwerte) in Form einer Häufigkeitstabelle vor, wobei A = {a1 , . . . , ak }, so gilt:
s2 =
k
1
·
(aj − x
¯)2 · h(X = aj )
n − 1 j=1
Seite 2
I
WICHTIGES AUS DER VORLESUNG
Elementare Stochastik
Vor:
Es sei x1 , . . . , xn ∈ R eine Datenreihe und zi = axi + b (a, b ∈ R)
Beh:
s2z = a2 s2x
und
sz = |a| · sx
Anmerkung:
a = 1 bedeutet, dass die Datenreihe xi um die Konstante b verschoben wird, d. h. das arithmetische
Mittel ändert sich um den Wert b, Varianz und Standardabweichung ändern sich NICHT.
1.6 erwartungstreuer Schätzwert
(a) s ist ein sogenannter erwartungstreuer Schätzwert für die Standardabweichung einer
Grundgesamtheit. Bei Gesamterhebungen und in manchen Lehrbüchern wird
s 2 :=
1 n
·
(xi − x
¯ )2
n i=1
als Varianz und
√
s :=
s2
als Standardabweichung verwendet.
(b) Umrechung:
s2 =
n−1 2
·s
n
√
,
s =
s2 =
n−1
·s
n
Bei sehr großen n ist der Unterschied zwischen s und s vernachlässigbar, z. B. ist
n = 1000 =⇒
n−1
n
= 0.999 ,
n−1
n
= 0.9995.
1.7 empirische Verteilungsfunktion, kumulierte relative Häufigkeit
X sei ein Merkmal mit Ausprägung A = {a1 , . . . , ak } mit a1 < a2 < . . . < ak
(X : M −→ A, M Individuen, Objekte)
Die Funktion F : R −→ [0, 1] definiert durch
F (x) = r(X ≤ x) :=
r(X = aj )
aj ≤x
heißt (empirische) Verteilungsfunktion des Merkmals X.
r(X ≤ x) heißt kumulierte relative Häufigkeit.
1.8 empirischer Median, Zentralwert, zentrales Wertepaar
x1 , . . . , xn seien Werte einer O-, I- oder V-Skala.
(a) Der empirische Median2 ist eine Lagemaßzahl
x
˜ :=
2


x( n+1 )
falls n ungerade

 1 · x n + x n+2
(2)
( 2 )
2
falls n gerade
2
englisch median
Seite 3
I
WICHTIGES AUS DER VORLESUNG
Elementare Stochastik
In manchen Lehrbüchern wird der Median auch folgendermaßen definiert:
x
˜ :=


x( n+1 )
falls n ungerade

x
falls n gerade
2
( n2 )
(b) Für n ungerade heißt x( n+1 ) auch Zentralwert der Datenreihe und für n gerade heißt
2
x( n ) , x( n+2 ) zentrales Wertepaar der Datenreihe.
s
2
1.9 Median
X : {1, . . . , n} −→ A.
=M
Eigenschaft des Median
# j∈M
# j∈M
# j∈M
n
2
n
xj > x
˜ ≤
2
n
xj ≤ x
˜ ≥
2
xj < x
˜ ≤
Mindestens die Hälfte der Messwerte haben einen Wert kleiner oder gleich dem Median.
# j∈M
xj < x
˜ ≤
n
≤# j∈M
2
xj ≤ x
˜
1. Fall
1
F (a) =
1
2
x
˜ = 12 (a + b)
a
b
x
˜ = 12 (a + b)
Abbildung 1.1: z. B. n gerade, n = 10
n
2
n
2
− 1 Werte
also 4 Werte
Werte
also 5 Werte
a
Abbildung 1.2: F (a) = r(X ≤ a) =
5
10
=
1
2
, x
˜=
Seite 4
1
2
x( n ) + x( n+2 )
2
2
I
WICHTIGES AUS DER VORLESUNG
Elementare Stochastik
2. Fall
1
F (a)
1
2
x
˜=a
a=x
˜
Abbildung 1.3: z. B. n ungerade, n = 11
x( n+1 ) ,
2
n+1
2
− 1 Werte
also 5 Werte
n+1
2
− 1 Werte
also 5 Werte
d. h. x(6)
a
Abbildung 1.4: F (a) = r(X ≤ a) =
6
11
>
1
2
, x
˜ = x( n+1 )
2
1.10 Minimalitätseigenschaft des Median bzgl. der Abweichung zum Betrag
Es seine x1 , . . . , xn ∈ R. Dann ist
n
n
|xi − x
˜| ≤
i=1
|xi − d|
∀d∈R
i=1
1.11 α-Quantil, r-tes Perzentil
x1 , . . . , xn seien Werte einer O-, I- oder V-Skala.
(a) Für 0 < α < 1 ist das α-Quantil definiert durch
xα :=

1


x(nα) + x(nα+1)
2

x
([nα+1])
falls nα ganzzahlig ist
sonst
wobei [nα + 1] größte ganze Zahl ist, die kleiner oder gleich nα + 1 ist, z. B.
[7.2] = 7 , [7.8] = 7 , [7] = 7.
(b) Das
r
100 -Quantil
(für r = 1, . . . , 99) heißt auch r-tes Perzentil.
Das 50-te Perzentil α =
Das 25-te Perzentil α =
Das 75-te Perzentil α =
1
2
1
4
3
4
ist der Median.
heißt auch unteres Quartil.
heißt auch oberes Quartil.
Seite 5
I
WICHTIGES AUS DER VORLESUNG
Elementare Stochastik
Der Quartilabstand ist ein Streuungsmaß zum Median und ist definiert durch
Quartilabstand := oberes Quartil − unteres Quartil = x 3 − x 1
4
4
(nur sinnvoll für I- oder V-Skala).
unteres Quartil
Median
oberes Quartil
∼ 25% der Werte
∼ 50% der Werte
∼ 75% der Werte
∼ 50% der Werte
Abbildung 1.5: Skizze zur groben Orientierung
1.12 Grafiken zu den Quantilen
Für 0 < α < 1 gilt:
r(X < xα ) ≤ α ≤ r(X ≤ xα ) = F (xα )
Ablesen der Quantile aus einer Verteilungsfunktion zu einem Merkmal X.
1. Fall
F (x)
1
xα = 12 (a + b)
F (xα ) = α
a
b
xα = 12 (a + b)
Abbildung 1.6
Seite 6
x
I
WICHTIGES AUS DER VORLESUNG
Elementare Stochastik
2. Fall
F (x)
1
xα = a
F (a) = F (xα )
α
x
a = xα
Abbildung 1.7
(a) Median ist unempfindlicher als das arithmetische Mittel gegenüber sogenannten Ausreißerwerten.
Beispiel:
(1) geordnete Messreihe: 2
n=7
5
7
7
8
10
12
x
˜ = x( 7+1 ) = x(4) = 7
;
;
x
¯=
2
(2) geordnete Messreihe: 2
n=8
;
5
x
˜=
7
7
8
10
12
x(4) + x(5)
7+8
=
= 7.5
2
2
51
≈ 7.28
7
30
;
x
¯=
81
= 10.125
8
(b) Das arithmetische Mittel ist ein Durchschnittswert für die Datenreihe (bzw. Schätzwert für
den Erwartungswert einer Zufallsgröße). Der Median teilt die Datenreihe in 2 etwa gleich
große Bereiche.
Beispiel:
Bei 50 Glühlampen wird gemessen, nach welcher Zeitspanne sie ausfallen.
arithmetisches Mittel =⇒ durchschnittliche Lebensdauer (Kosten!)
Median =⇒ Zeitspanne, zu der noch 50 % der Lampen in Ordnung sind (Ausfallsicherheit!)
(c) Verhalten von Median und arithmetischem Mittel bei verschiedenen Verteilungsfunktionen:
„symmetrische Verteilung“, „linkssteile Verteilung“ und „rechtssteile Verteilung“
Seite 7
I
WICHTIGES AUS DER VORLESUNG
Elementare Stochastik
zu erwarten: x
¯≈x
˜
Abbildung 1.8: symmetrische Verteilung
x
˜
zu erwarten:
x
¯
Abbildung 1.9: linkssteile Verteilung
zu erwarten:
x
¯
x
˜
Abbildung 1.10: rechtssteile Verteilung
1.13 geometrisches und harmonisches Mittel
Es seien x1 , . . . , xn ∈ R, xi ≥ 0 für alle i ∈ {1, . . . , n}, Messwerte einer Verhältnisskala. Dann heißt
(a) x
¯G :=
√
n
x1 · . . . · xn
das geometrische Mittel
1
das harmonische Mittel.
(b) x
¯H := n ·
Hgew steht
für Gewichtung
1
+...+ x1
x1
n
(c) Variante des harmonischen Mittels:
n
gj ·
x
¯Hgew =
j=1
wobei gj Zusatzinformationen zu xj darstellen.
Seite 8
g1
x1
1
+ ... +
gn
xn
I
WICHTIGES AUS DER VORLESUNG
Elementare Stochastik
Es seien x1 , . . . , xn ∈ R, xi > 0 für alle i ∈ {1, . . . , n}.
(a) yi = ln(xi ) =⇒ x
¯G = exp(¯
y ) (logarithmische Koordinatentransformation)
(b)
(i) x
¯G ≤ x
¯
(ii) x
¯G = x
¯ ⇐⇒ x1 = . . . = xn
Das geometrische Mittel wird vor allem bei Wachstumsprozessen (z. B. Zinseszins-Berechnungen)
verwendet.
Das harmonische Mittel ist z. B. bei der Berechnung von Durchschnittsgeschwindigkeiten sinnvoll.
1.14 Modalwert
Vor allem bei Nominalskalen wird der Modalwert x
¯D als Maßzahl verwendet. x
¯D bezeichnet die
Ausprägung, die am häufigsten vorkommt, d. h.
a∈A
h(¯
xD ) = max h(a)
Gibt es mehrere Ausprägungen mit der größten Häufigkeit, so gibt es mehrere Modalwerte.
1.15 gewichtetes arithmetisches Mittel für I- oder V-Skala
x1 , . . . , xn ∈ R sei eine Datenreihe mit positiven Gewichten gi > 0, i = 1, . . . , n. Dann heißt
n
1
x
¯gew =
·
n
gi
gi xi
i=1
i=1
das gewichtete arithmetische Mittel.
Für gi = 1 für alle i ∈ {1, . . . , n} ist x
¯gew = x
¯.
1.16 Berechnungsvariante für die Stichprobenvarianz
Vor:
x1 , . . . , xn ∈ R sei eine Datenreihe.
Beh:
s2 =
1
n−1
·
n
i=1
x2i − n¯
x2 =
1
n−1
n
i=1
x2i −
1
n
2
n
xi
i=1
1.17 Boxplots
Geeignet für O-, I- und V-Skalen. Grafische Darstellung von Minimum, unteres Quartil, Median,
oberes Quartil, Maximum.
Beispiel
Gegeben sei die geordnete Messreihe (Datenreihe) x(1) bis x(11) :
2 , 3 , 3 , 4 , 5 , 5 , 6 , 7 , 8 , 11 , 14
Seite 9
I
WICHTIGES AUS DER VORLESUNG
Elementare Stochastik
Minimum: 2, Maximum: 14
unteres Quartil: x 1 = x([11· 1 +1]) = x(3) = 3
4
4
Median: x
˜ = x( 11+1 ) = x(6) = 5
2
oberes Quartil: x 3 = x([11· 3 +1]) = x(9) = 8
4
4
Minimum
Maximum
x1
4
2
3
x3
x
˜
4
5
4
6
7
8
9
10
11
12
13
14
Abbildung 1.11: Boxplot
1.18 Punktwolke
Für die graphische Darstellung das Zusammenhangs zweier Merkmale werden Punktwolken (Streudiagramme3 ) verwendet. Dazu werden die Wertepaare (xi , yi ) in ein Koordinatensystem eingetragen. Die Form der Punktwolke gibt einen Hinweis auf die Stärke des Zusammenhangs.
Werte des Merkmals Y
(x3 , y3 )
y1
(x1 , y1 )
(x2 , y2 )
x1
Werte des Merkmals X
Abbildung 1.12: Punktwolke (Streudiagramm)
1.19 Pearsonscher Korrelationskoeffizient
Für metrische Merkmale wird als statistische Maßzahl für die Abhängigkeit (Korrelation) zweier
Merkmale häufig der Pearsonsche4 Korrelationskoeffizient verwendet. Er ist definiert durch
enthält Informationen
über evtl. Zusammenhang
r = rx,y :=
sx,y
sx · sy
Normierungsfaktoren
3
englisch scatterplots
Seite 10
I
WICHTIGES AUS DER VORLESUNG
wobei
sx,y :=
Elementare Stochastik
n
1
1
·
(xi − x
¯)(yi − y¯) =
·
n − 1 i=1
n−1
n
xi yi − (n¯
x · y¯)
i=1
empirische Kovarianz,
n
1
·
(xi − x
¯)2
n − 1 i=1
sx :=
Standardabweichung der Datenreihe (x1 , . . . , xn ),
n
1
·
(yi − y¯)2
n − 1 i=1
sy :=
Standardabweichung der Datenreihe (y1 , . . . , yn ).
(a) r ist ein Maß für die lineare Abhängigkeit zwischen zwei Merkmalen.
(b) Es gilt:
(i) −1 ≤ r ≤ 1
(Beweis: Übungsaufgabe)
(ii) r = 1 ⇐⇒ yi = axi + b
mit a, b ∈ R, a > 0
(iii) r = −1 ⇐⇒ yi = axi + b
mit a, b ∈ R, a < 0
Sind (x1 , . . . , xn ), (y1 , . . . , yn ) Stichproben von zwei unabhängigen Merkmalen X und Y , so
ist zu erwarten, dass r „nahe“ bei 0 liegt.
(c) Ist r = 0 oder „nahe“ bei 0, so bedeutet dies NICHT, dass die beiden Merkmale unabhängig
sind (es besteht evtl. ein nichtlinearer Zusammenhang).
1.20 Verhalten von r bei linearen Transformationen der Messwerte
a1 x + b1 bedeute xi
−−−−−−−−−→
transformiert in
a1 xi + b1 für i = 1, . . . , n
a2 y + b2 bedeute yi
transformiert in
a2 yi + b2 für i = 1, . . . , n
−−−−−−−−−→
=⇒ r(a1 x+b1 ),(a2 y+b2 ) =










rx,y





falls a1 , a2 > 0


−rx,y






falls a1 > 0, a2 < 0 





falls a1 < 0, a2 > 0
rx,y
−rx,y
falls a1 , a2 < 0
A
B
Abbildung 1.13: rA ≈ rB ; rC ≈ −rA
Der Grad der Steigung der Punktwolke wirkt sich NICHT auf r aus.
Seite 11
=
a1 · a2
· rx,y
|a1 · a2 |
C
I
WICHTIGES AUS DER VORLESUNG
Elementare Stochastik
1.21 Bemerkung zur Interpretation von r
Bei der statistischen Analyse des Zusammenhangs zweier Merkmale geht es NICHT um den Nachweis von Kausalitäten (Ursache −→ Wirkung). Dieser Nachweis ist sachlogischen Argumenten vorbehalten.
r ist nur ein Maß dafür, wie stark die Werte der beiden Datenreihen gemeinsam variieren. Ein
hoher Korrelationskoeffizient ist NICHT automatisch ein Hinweis auf einen direkten Zusammenhang
zwischen den Merkmalen.
1.22 Lineare Regression
r ist ein Maßstab für die Stärke eines linearen Zusammenhangs. Ziel der Regressionsrechnung ist es,
die Abhängigkeit des einen Merkmals von einem anderen Merkmal durch eine Funktionsgleichung
zu beschreiben.
Man nennt dabei X unabhängige Variable und Y abhängige Variable.
Welches Merkmal as unabhängig und welches als abhängig gelten soll, ergibt sich meistens aus der
Problemstellung, z. B. Alter – Blutdruck: Alter unabhängig, Blutdruck abhängig.
Bei der linearen Regression soll die Form der Abhängigkeit durch eine lineare Funktion (eine
sogenannte Regressionsgerade oder Ausgleichsgerade) dargestellt werden, d. h. in der Form
Y = a · X + b mit a, b ∈ R , a = 0
1.23 Modellvorstellung zur linearen Regression
(a) Jedem Wert x der Variablen X wird ein „wahrer Wert“ y der Variablen Y zugeordnet. Bei
Messungen wird der zu einem x-Wert gewonnene y-Wert mehr oder minder stark vom wahren
y-Wert abweichen (wegen Zufallseinflüssen).
Y
„wahre Werte“ liegen auf der
Gerade Y = aX + b
Streubereich der Werte für Y
bei einem Experiment
X
Abbildung 1.14
Seite 12
I
WICHTIGES AUS DER VORLESUNG
Elementare Stochastik
(b) Bei einem Experiment erhält man eine zweidimensionale Datenreihe (x1 , y1 ), . . . , (xn , yn )
Y
unbekannte Gerade
X
Abbildung 1.15
Wie erhält man aus der zweidimensionalen Datenreihe eine Gerade (Regressionsgerade), die
den unbekannten linearen Zusammenhang Y = aX + b „gut“ beschreibt?
Idee: Die Parameter a und b sollen so gewählt werden, dass die Gerade Y = aX + b die
Punktwolke möglichst „gut approximiert“.
1.24 Zur Bestimmung von a und b der Regressionsgerade
. . . verwendet man i. A. die Methode der kleinsten Quadrate5 :
Die Summe der Quadrate der Abstände aller Punkte von der gesuchten Geraden soll minimal
sein. Die Abstände werden dabei durch Parallelen zu Y -Achse bestimmt.
Gerade y = a x + b
Y
yi
yi − (a xi + b )
X
xi
Abbildung 1.16
5
englisch least square problem
Seite 13
2
= (a xi + b − yi )2
I
WICHTIGES AUS DER VORLESUNG
Elementare Stochastik
Problem:
Gesucht sind a, b ∈ R mit der Eigenschaft
n
n
(axi + b − yi )2 =
i=1
(a xi + b − yi )2
min
(a ,b )∈R2
i=1
Lösung:
n
a=
(xi − x
¯)(yi − y¯)
i=1
n
(xi − x
¯ )2
i=1
wobei a
Regressionskoeffizient6
(Steigung der Geraden) und
b = y¯ − a¯
x
die Regressionskonstante7 (Schnittpunkt mit y-Achse) darstellen. x
¯ und y¯ sind die arithmetischen Mittel zu (x1 , . . . , xn ) bzw. (y1 , . . . , yn ).
1.25 Bemerkung (für n ≥ 2)
(1) Für den Regressionskoeffizienten gilt:
a=
(n − 1)sx,y
sx,y
= 2
2
(n − 1)sx
sx
(2) Es gilt: Der Punkt (¯
x, y¯) liegt stets auf der Regressionsgeraden.
Genauer gilt: Für yˆi = axi + b (i = 1, . . . , n; (a, b) aus der Regressionsgeraden) gilt
y¯ˆ = y¯ = a¯
x+b
Y
y¯
x
¯
Abbildung 1.17
6
7
englisch slope
englisch intercept
Seite 14
X
I
WICHTIGES AUS DER VORLESUNG
Elementare Stochastik
1.26 Linearisierung durch Transformation
Durch Transformation der Messwerte lassen sich einige häufig vorkommende nichtlineare Zusammenhänge mit Hilfe der linearen Regression behandeln.
(a) Exponentialfunktion (einfach logarithmische Transformation):
Die Regressionsfunktion habe die Form
y = b · ax
mit b, a > 0 , x ∈ R
Durch Logarithmieren auf beiden Seiten erhält man wegen
ln(y) = ln(b · ax ) = ln(b) + ln(a) ·x
=:y
:=b
=:a
y =b +a ·x
nach der der Transformation einen linearen Zusammenhang zwischen x und y . Mit linearer
Regressionsrechnung lassen sich a und b bestimmen und daraus erhält man
a = exp(a ) ,
b = exp(b )
x
1
1.5
2
2.5
3
3.5
4
y
1
1.4
2
2.8
4
5.7
8
ln(y)
0
0.3
0.7
1
1.4
1.7
2.1
y
x
Abbildung 1.18
Durchführung:
Die zweidimensionale Datenreihe (x1 , y1 ), . . . , (xn , yn ) soll „möglichst gut“ durch eine Funktion der Form
y = b · ax
beschrieben werden.
Seite 15
I
WICHTIGES AUS DER VORLESUNG
1. Schritt:
Elementare Stochastik
Erzeuge transformierte Datenreihe (Vor. yi > 0):
x1 , ln(y1 ) , . . . , xn , ln(yn ) (einfache logarithmische Transformation)
2. Schritt:
Berechne a und b zur transformierten Datenreihe mit linearer Regression
3. Schritt:
Berechne a = exp(a ) und b = exp(b )
(b) Potenzfunktion (doppelt logarithmische Transformation)
Die Regressionsfunktion habe die Form
y = b · xa
mit b > 0 , x > 0 , a ∈ R
Durch Logarithmieren auf beiden Seiten erhält man wegen
ln(y) = ln(b · xa ) = ln(b) +a · ln(x)
=:y
=:b
=:x
y =b +a·x
einen linearen Zusammenhang zwischen x und y .
Mit linearer Regression lassen sich a und b bestimmen und b = exp(b ) berechnen.
Durchführung:
Die zweidimensionale Datenreihe (x1 , y1 ), . . . , (xn , yn ) soll „möglichst gut“ durch eine Funktion der Form
y = b · xa
beschrieben werden.
1. Schritt:
Erzeuge transformierte Datenreihe (Vor. xi , yi > 0):
ln(x1 ), ln(y1 ) , . . . , ln(xn ), ln(yn ) (doppelt logarithmische Transformation)
2. Schritt:
Berechne a und b zur transformierten Datenreihe mit linearer Regression
3. Schritt:
Berechne b = exp(b )
1.27 Anmerkung
Für Ordinalskalen wird oft der „Spearmansche Rangkorrelationskoeffizient“ verwendet.
1.28 Kontingenzkoeffizient
Bei der Analyse des Zusammenhangs zwischen nominalskalierten Merkmalen wird statt „Korrelation“ meisten der Begriff Kontingenz verwendet.
Zur Analyse des Zusammenhangs werden die Daten in einer sogenannten Kontingenztafel (Feldertafel) zusammengefasst.
Seite 16
I
WICHTIGES AUS DER VORLESUNG
Elementare Stochastik
Beispiel
Zusammenhang zwischen Augen- und Haarfarbe, n = 100 Personen:
y Haar
Zi
Randwahrscheinlichkeit,
Zeilensumme
relative Häufigkeit
5
30
0.3
3
0
28
0.28
3
17
15
42
0.42
36
5
39
20
100
0.36
0.05
0.39
0.2
blond
rot
braun
schwarz
grün
5
1
19
blau
24
1
braun
7
Sj Spaltensumme
x Auge
Randwahrscheinlichkeit,
relative Häufigkeit
Vorüberlegungen
Die erwartete Häufigkeit (unter der Voraussetzung, dass KEIN Zusammenhang vorliegt) sei mit
Eij bezeichnet. Für Eij gilt:
Eij =
Zi Sj
Zi · Sj
·
·n =
n n
n
Produkt rel.
Häufigkeiten
1.29 Kontingenzkoeffizient
(a) Als Hilfsgröße für den Zusammenhang bei nominalskalierten Merkmalen (aber auch bei Klassenbildung metrischer Merkmale) verwendet man
c1
χ2 :=
c2
(Bij − Eij )2
Eij
i=1 j=1
(Chi-Quadrat), wobei c1 die Anzahl der Zeilen und c2 die Anzahl der Spalten der Kontingenztafel bezeichnen.
(b) Die Normierung von χ2 führt zu einer Maßzahl für den Zusammenhang:
C :=
χ2
χ2 + n
heißt Kontingenzkoeffizient.
(1) C ist kleiner als 1 (natürlich ≥ 0).
(2) Der maximale Wert von C, bezeichnet mit Cmax , hängt von der Form der Kontingenztafel
ab. Es gilt:
Cmax =
mit m := min(c1 , c2 ).
Seite 17
m−1
m
I
WICHTIGES AUS DER VORLESUNG
Elementare Stochastik
(3) Wegen (2) verwendet man statt C auch den sogenannten korrigierten Kontingenzkoeffizienten
Ck .
Ck :=
C
=
Cmax
χ2 · m
(χ2 + n) · (m − 1)
wobei n die Anzahl der Fälle und m = min(c1 , c2 ) bezeichnen.
1.30 Wahrscheinlichkeitsrechnung: Bezeichnungen
Bei einem Zufallsexperiment seien ω1 , . . . , ωn die möglichen Ergebnisse. Die Menge
Ω := {ω1 , . . . , ωn }
heißt Ergebnismenge. Ziel ist es, für jedes ω ∈ Ω eine reelle Zahl
P (ω) mit 0 ≤ P (ω) ≤ 1
zu erklären, als Wahrscheinlichkeit dafür, dass das Ergebnis ω eintritt.
Eine Teilmenge A ⊂ Ω (A = Ω ist dabei auch möglich) wird als Ereignis bezeichnet. Gesucht ist
wieder eine Zahl
P (A) ∈ R mit 0 ≤ P (A) ≤ 1
die Wahrscheinlichkeit dafür, dass ω ∈ A, d. h. das Ereignis A, eintritt.
A = {ω} heißt Elementarereignis.
1.31 Relative Häufigkeiten
Ein Zufallsexperiment werde k-mal durchgeführt. Seien ω ∈ Ω und A ⊂ Ω.
(a) Häufigkeiten des Eintretens von ω bzw. A
Hk (ω) = Anzahl der Male, in denen ω eintritt
Hk (A) = Anzahl der Male, in denen ω ∈ A eintritt
(b) Relative Häufigkeiten des Eintretens von ω bzw. A
1
· Hk (ω)
k
1
Rk (A) := · Hk (A) =
Rk (ω)
k
ω∈A
Rk (ω) :=
Mit obigen Bezeichnungen gelten:
(a) 0 ≤ Hk (ω) ≤ k , 0 ≤ Hk (A) ≤ k
(b) 0 ≤ Rk (ω) ≤ 1 ,
Rk (ω) = 1
ω∈Ω
(c) 0 ≤ Rk (A) ≤ 1 für A ⊂ Ω
(d) Rk (Ω) = 1
Seite 18
I
WICHTIGES AUS DER VORLESUNG
Elementare Stochastik
(e) Rk (A ∪ B) = Rk (A) + Rk (B) für A, B ⊂ Ω, A ∩ B = ∅
1.32 Wahrscheinlichkeit
(Axiometische Definition der Wahrscheinlichkeit, Kolmogoroff 1933)
Ω sei eine (endliche) Menge und A ⊂ P(Ω), P(Ω) ist die Potenzmenge von Ω, d. h. die Menge aller
Teilmengen von Ω. Für A gelte: ∅, Ω ∈ A; A, B ∈ A =⇒ A ∪ B ∈ A und Ω \ A ∈ A.
Eine Wahrscheinlichkeitsverteilung ist eine Abbildung
P : A −→ R , A −→ P (A)
mit folgenden Eigenschaften:
(1) 0 ≤ P (A) ≤ 1 für alle A ∈ A
(2) P (Ω) = 1
(3) P (A ∪ B) = P (A) + P (B) falls A ∩ B = ∅ , A, B ∈ A
Für nicht endliche Ω sind die Eigenschaften an A und Bedingung (3) zu modifizieren.
1.33 Ω endlich
Sei Ω eine nicht leere Menge und A ⊂ P(Ω). A1 , . . . , Ar seien aus A und alle Operationen mit den
Ai (Vereinigung, Durchschnitt usw.) seien ebenfalls aus A. Erfüllt die Abbildung
P : A −→ R , A −→ P (A)
die Eigenschaften (1) bis (3) aus 1.32, so gilt:
(a) P (∅) = 0
(b) P (A1 ∪ . . . ∪ Ar ) = P (A1 ) + . . . + P (Ar )
¯ = 1 − P (A)
(c) P (A)
, falls Ai ∩ Aj = ∅ für i = j
, wobei A¯ = Ω \ A
(d) A1 ⊂ A2 =⇒ P (A1 ) ≤ P (A2 )
(e) P (A1 ∪ A2 ) = P (A1 ) + P (A2 ) − P (A1 ∩ A2 )
(f) P (A1 ∪ . . . ∪ Ar ) ≤ P (A1 ) + . . . + P (Ar )
1.34 Gleichverteilung/Laplace-Verteilung
Es sei Ω = {ω1 , . . . , ωn }. Durch
P (ω) =
1
n
∀ω∈Ω
wird eine Gleichverteilung (oder Laplace-Verteilung) auf Ω definiert.
Seite 19
I
WICHTIGES AUS DER VORLESUNG
Elementare Stochastik
Ist A ⊂ Ω, so gilt für die Wahrscheinlichkeit von A
P (A) =
#A
#Ω
Dabei bedeutet das Symbol # „Anzahl der Elemente von“.
1.35 Zufallsvariable/Zufallsgröße, Ausprägungen
(a) Ein wichtiger Grundbegriff ist die Zufallsvariable (oder Zufallsgröße). Das ist eine Abbildung
X : Ω −→ R
Man kann sich dabei vorstellen, dass jedes Ergebnis ω eine gewisse Zahl X(ω) (etwa Gewinn oder Verlust) auslöst. Wie bei den „Merkmalen“ nennt man die Werte a = X(ω) ∈ R
Ausprägungen von X
(b) Für a ∈ R sei
{X = a} :=
ω∈Ω
X(ω) = a ⊂ Ω
und
P (X = a) := P ({X = a}) ∈ [0, 1]
die Wahrscheinlichkeit dafür, dass X den Wert a annimmt.
1.36 Graphische Darstellung
(a) Darstellung von P (X = a) durch ein Stabdiagramm.
P (X = a)
1
a1
k=4
a2
a3
a4 a
Abbildung 1.19
Dabei ist
P (X = a) = 1
a∈R
(Ω endlich, dann ist es eine endliche Summe)
(b) Darstellung durch eine Verteilungsfunktion
FX : R −→ [0, 1] mit FX (x) := P (X ≤ x)
Seite 20
I
WICHTIGES AUS DER VORLESUNG
Elementare Stochastik
P (X = a)
1
a1
a2
a4 a
a3
Abbildung 1.20
Ist eine endliche Ergebnismenge Ω mit einer Wahrscheinlichkeitsverteilung P und eine Zufallsvariable
X : Ω −→ R , ω −→ X(ω)
gegeben, so kann man den Wert X(ω) als ein neues von ω abhängiges Ergebnis betrachten; damit
erhält man eine neuer Ergebnismenge
Ω := X(Ω) ⊂ R
Setzt man für X einen Wert a ∈ Ω
P (a) := P (X = a)
so wird dadurch eine Wahrscheinlichkeitsverteilung P auf Ω erklärt.
Ein Vorteil von Ω gegenüber Ω kann sein, dass Ω ⊂ R. Die Verteilungsfunktion FX von X ist
durch P bestimmt.
1.37 Urnenmodelle – Regeln mit Ergebnismengen
Sei M = {1, . . . , n}. k Kugeln werden gezogen.
(1) Geordnet, mit Zurücklegen
Ω1 =
(a1 , . . . , ak ) ∈ M k
1 ≤ ai ≤ n
(2) Geordnet, ohne Zurücklegen
Ω2 =
(a1 , . . . , ak ) ∈ M k
ai = aj für i = j
(3) Ungeordnet, mit Zurücklegen
Ω3 =
(a1 , . . . , ak ) ∈ M k
Seite 21
1 ≤ a1 ≤ . . . ≤ ak ≤ n
I
WICHTIGES AUS DER VORLESUNG
Elementare Stochastik
(4) Ungeordnet, ohne Zurücklegen (k ≤ n)
(a1 , . . . , ak ) ∈ M k
Ω4 =
1 ≤ a1 < a2 < . . . < ak ≤ n
Geordnet bedeute dabei, dass im Ergebnis die Reihenfolge der Züge berücksichtigt wird.
Ungeordnet bedeute, dass die Reihenfolge der Ziehungen unwesentlich ist; das Ergebnis wird nach
der Größe der Kugelnummern sortiert.
Es gelten:
Ω1 ⊃ Ω2
(a)
Ω3 ⊃ Ω4
(b) Ω4 = Ω2 ∩ Ω3
Ω2
Ω4
Ω3
Ω1
Abbildung 1.21: Venndiagramm zu 1.37
1.38 Fakultät, Binomialkoeffizient
n! := n(n − 1) · . . . · 2 · 1
n
k
n!
(n über
:= (n−k)!k!
n
wird k := 0 gesetzt.
(n-Fakultät)
k), heißt Binomialkoeffizient; dabei ist 0! = 1 und für k = 0 oder k > n
Es gilt:
n
(a) (a + b)n =
k=0
(b)
n
k
=
n
k
ak bn−k
(Binomische Formel)
n
n−k
(c) Die Binomialkoeffizienten sind ganzzahlig.
n
(d)
k=0
n
k
= 2n
Ferner gilt (#M bezeichne die Anzahl der Elemente von M ):
(a) #Ω1 = nk
Seite 22
I
WICHTIGES AUS DER VORLESUNG
(b) #Ω2 =
Elementare Stochastik
n!
(n−k)!
(c) #Ω3 =
n+k−1
k
(d) #Ω4 =
n
k
1.39 Baumdiagramme und Pfadregeln
Zweimaliger Wurf einer Münze.
1
4
1
2
K
(K, K)
1
2
Z
(K, Z)
Wahrscheinlichkeit
1
4
1
2
K
(Z, K)
Wahrscheinlichkeit
1
4
1
2
Z
(Z, Z)
Wahrscheinlichkeit
K
1
2
1
2
Z
Wahrscheinlichkeit
1
4
Abbildung 1.22: Baumdiagramm
Die Wahrscheinlichkeit, dass ein Ergebnis – z. B. (Z, K) – eintritt, berechnet man, indem man die
Wahrscheinlichkeiten entlang des Pfades miteinander multipliziert.
Die Wahrscheinlichkeit, dass ein Ereignis – z. B. {(Z, K); (K, Z)} – eintritt, berechnet man, indem
man die Pfad-Wahrscheinlichkeiten alles Punkte, die zu dem Ereignis gehören, addiert.
1.40 Bedingte Wahrscheinlichkeiten und unabhängige Ereignisse
Ω sei eine (endliche) Menge, A ⊂ P(Ω), A, B . . . ∈ A. P : A −→ R eine Wahrscheinlichkeitsverteilung.
A, B ∈ A, P (B) > 0. Dann heißt
P (A|B) :=
P (A ∩ B)
P (B)
die bedingte Wahrscheinlichkeit von A unter der Bedingung B.
Bemerkung: P (B|B) = 1
1.41 Multiplikationssatz
A, B ∈ A, P (B) > 0. Dann gilt:
P (A ∩ B) = P (A|B) · P (B)
Seite 23
I
WICHTIGES AUS DER VORLESUNG
Elementare Stochastik
Sei B ∈ A und P (B) > 0. Durch PB (A) := P (A|B) wird eine Wahrscheinlichkeitsverteilung
definiert.
PB :
C ∈ A −→ R
C ∩B
erfüllt die Axiome aus 1.32.
1.42 stochastisch unabhängig
Sei B ∈ A und 0 < P (B) < 1. Dann heißt A ∈ A (stochastisch) unabhängig von B
¯
:⇐⇒ P (A|B) = P (A|B)
A, B ∈ A, 0 < P (B) < 1. Dann gilt:
A (stochastisch) unabhängig von B
⇐⇒ P (A|B) = P (A)
⇐⇒ P (A ∩ B) = P (A) · P (B) (am häufigsten verwendet)
A, B ∈ A und 0 < P (A) < 1, 0 < P (B) < 1.
A unabhängig von B ⇐⇒ B unabhängig von A.
i.A.
P (A|B) = P (B|A)
Bemerkung:
•
1.43 Disjunktion (Zerlegung) von Ω
A1 , . . . , An ∈ A bilden eine Disjunktion (Zerlegung) von Ω
:⇐⇒ A1 ∪ . . . ∪ An = Ω und Ai ∩ Aj = ∅ für i = j.
Bemerkung: A, B heißen disjunkt :⇐⇒ A ∩ B = ∅
∀ i damit ist
A1 , . . . , An Disjunktion von Ω, P (Ai ) > 0
n
P (Ai ) = 1 .
i=1
Dann gilt für B ∈ A:
n
P (B|Ai ) · P (Ai )
P (B) =
i=1
1.44 Bayessche Formel
A1 , . . . , An Disjunktionen von Ω, P (Ai ) > 0
P (Ai |B) =
∀ i und B ∈ A mit P (B) > 0. Dann gilt:
P (B|Ai ) · P (Ai )
=
P (B)
P (B|Ai ) · P (Ai )
n
P (B|Ai ) · P (Ai )
i=1
1.45 Verteilungen – Ziehen ohne Zurücklegen
Eine Zufallsvariable X mit Werten in {0, 1, . . . , n} heißt binomialverteilt mit den Parametern
n ∈ N und p ∈ [0, 1], wenn gilt
(∗)
bn;p (k) = B(n; p; k) := P (X = k) =
Seite 24
n k
p (1 − p)n−k
k
I
WICHTIGES AUS DER VORLESUNG
Elementare Stochastik
für k ∈ {0, 1, . . . , n}
X sei binomialverteilt mit den Parametern n und p. Dann gilt:
m
(a) P (l ≤ X ≤ m) =
m
P (X = k) =
k=l
n
(b) P (0 ≤ X ≤ n) =
k=0
(c) bn;0.5 (k) =
bn;p (k)
k=l
n
k
BLS
pk (1 − p)n−k =
p + (1 − p)
n
=1
1 n
2n k
(d) P (X ≥ k) = 1 − P (X < k) = 1 −
k−1
bn;p (l)
k=0
k−1
bn;p (l) findet man oft in Tabellen
Bemerkung:
k=0
Beispiel
Ein fairer Würfel wird n-mal geworfen. Zu berechnen sind die Wahrscheinlichkeiten folgender Ereignisse:
(a) Genau k-mal die Augenzahl 6.
(b) Mindestens k-mal die Augenzahl 1.
(c) Genau k-mal eine gerade Augenzahl.
(d) Mindestens k-mal eine gerade Augenzahl.
Lösung
(a) Die Zufallsvariable X zähle die Anzahl „Eine 6 wird gewürfelt“.
X ist dann binomialverteilt mit den Parametern n und p = 16 .
n
k
P (X = k) = nn; 1 (k) =
6
1
6
k
5
6
n−k
=
n
5n−k
· n
k
6
z. B. n = 10, k = 5:
P (X = 5) = b10; 1 (5) =
6
55
10
· 10 ≈ 0.013
5
6
(b) Die Zufallsvariable X zähle die Anzahl „Eine 1 wird gewürfelt“.
X ist dann binomialverteilt mit den Parametern n und p = 16 .
k−1
P (X ≥ k) = 1 − P (X < k) = 1 −
bn;p (l)
l=0
z. B. n = 10, k = 5:
4
P (X ≥ 5) = 1 −
b10; 1 (l)
l=0
6
≈0.98454 (Tabelle)
Seite 25
≈ 0.01546
I
WICHTIGES AUS DER VORLESUNG
Elementare Stochastik
(c) Die Zufallsvariable X zähle „Eine gerade Zahl wird gewürfelt“. X ist dann binomialverteilt
mit den Parametern n und p = 21 .
P (X = k) = bn; 1 (k) =
2
1
n
·
2n
k
z. B. n = 10, k = 3:
P (X = 3) =
bn; 1 (3)
10
1
·
210
3
=
2
≈0.11719 (Tabelle)
=
≈ 0.1171825
1
1 10·9·8
· 10! = 10
· 3·2·1
210 7!·3!
2
(d) X, n, p wie bei (c).
k−1
P (X ≥ k) = 1 − P (X < k) = 1 −
nn; 1 (l)
l=0
2
z. B. n = 10, k = 3:
2
P (X ≥ 3) = 1 −
bn; 1 (l) ≈ 0.9453
2
l=0
(Tabelle)
1.46 Verteilungen von Zufallsvariablen
Seien n, r, N ∈ N mit n, r ≤ N .
• hypergeometrisch verteilte Zufallsvariable X:
P (X = k) =
r
k
N −r
n−k
N
n
wobei k ≥ max(0, n − N + r) und k ≤ min(n, r).
Notation: H(n; N ; r)-verteilt
• stetig verteilte Zufallsvariable X: X stetig verteilt mit Dichte f :⇐⇒ f integrierbar und
für Verteilungsfunktion F : R −→ [0, 1] gilt:
x
F (x) =
f (t) dt
−∞
Seite 26
∀x∈R
I
WICHTIGES AUS DER VORLESUNG
Elementare Stochastik
f (t)
Graph f
F (x)
t
x
Abbildung 1.23
1.47 Veranschaulichung Wahrscheinlichkeiten ←→ Verteilungsfunktion
X stetig verteilte Zufallsgröße mit Dichte f . Dann gelten:
f (t)
t
F (b) = P (X ≤ b)
b
Abbildung 1.24: F (b) = P (X ≤ b)
Seite 27
I
WICHTIGES AUS DER VORLESUNG
Elementare Stochastik
f (t)
P (X ≥ b)
t
b
(∗)
Abbildung 1.25: P (X ≥ b) = 1 − P (X < b) = 1 − P (X ≤ b) = 1 − F (b)
(∗) X stetig verteilt
f (t)
P (a ≤ X ≤ b)
a
t
b
Abbildung 1.26: P (a ≤ X ≤ b) = F (b) − F (a) = P (X ≤ b) − P (X ≤ a) = P (X ≤ b) − P (X < a)
1.48 Definition
((standard-)normalverteilte Zufallsvariable)
(a) Es seien µ, t ∈ R und σ > 0. Eine Zufallsvariable X heißt normalverteilt mit Parametern
µ und σ (kurz: N (µ, σ)-verteilt), falls X stetig verteilt ist mit Dichte f definiert durch
f (t) =
σ·
1
√
2π
· exp −
1
2
t−µ
σ
2
∀t∈R
µ Erwartungswert von X; σ Standardabweichung von X.
(b) Eine N (0, 1)-verteilte Zufallsvariable heißt standard-normalverteilt.
(a) Ist X eine N (0, 1)-verteilte Zufallsvariable, so gilt für die Verteilungsfunktion Φ von X
Seite 28
I
WICHTIGES AUS DER VORLESUNG
Elementare Stochastik
(Φ : R −→ [0, 1]):
1
Φ(x) = √ ·
2π
x
−∞
1
exp − t2
2
dt
(b) Es gilt:
1
1
ϕ(x) = √ · exp − x2
2
2π
∀x∈R
ist die Dichtefunktion zur N (0, 1)-verteilten Zufallsvariable.
sehr wichtige
Formeln
(c) Es gilt:
ϕ(−x) = ϕ(x) ∀ x ∈ R
und
Φ(−x) = 1 − Φ(x) ∀ x ∈ R
f (t)
I = II
II
I
t
−1
1
Abbildung 1.27: Skizze zur Dichtefunktion
(a) Ist X eine N (µ, σ)-verteilte Zufallsvariable, so ist
U :=
X −µ
σ
eine N (0, 1)-verteilte Zufallsvariable.
(b) Ist X eine N (µ, σ)-verteilte Zufallsvariable, so gilt:
P (X < b) = P (X ≤ b) = Φ
b−µ
σ
Für die Bestimmung von Wahrscheinlichkeiten zu normalverteilten Zufallsvariablen genügt die
Kenntnis der Verteilungsfunktion Φ der N (0, 1)-Verteilung für Werte x ≥ 0.
Tabelle zu Werten von Φ
x
0.00
0.25
0.5
0.75
1
1.25
1.5
2
3
≈ Φ(x)
0.5
0.5987
0.6915
0.7734
0.8413
0.8944
0.9332
0.9772
0.999
Seite 29
I
WICHTIGES AUS DER VORLESUNG
Elementare Stochastik
1.49 Approximation der Binomialverteilung durch die Normalverteilung
Für p ∈]0, 1[ und „große n“ (mindestens n · p · (1 − p) > 9) ist
B(n; p; k) ≈
wobei µ = n · p, σ =
1.50 Definition
1
k−µ
·ϕ
σ
σ
np(1 − p).
(Erwartungswert)
Unter dem Erwartungswert einer Zufallsvariablen
X : Ω −→ R
versteht man die Zahl
r
X(ω) · P (ω) =
E(X) :=
ω∈Ω
ak · P (X = ak )
k=1
wenn a1 , . . . , ar ∈ R die Ausprägungen, d. h. die paarweise verschiedenen Werte von X bezeichnen.
Für stetige Zufallsvariablen mit Dichtefunktion f gilt:
∞
t · f (t) dt
E(X) =
−∞
1.51 Definition
Sind zwei Zufallsvariablen X, Y : Ω −→ R und λ ∈ R gegeben, so kann man daraus neue Zufallsvariablen erklären durch
(X + Y )(ω) := X(ω) + Y (Ω)
(λX)(ω) := λ · X(ω)
(X · Y )(ω) := X(ω) · Y (ω)
1.52 Rechenregeln für Erwartungswerte
Seien X, Y : Ω −→ R Zufallsvariablen und λ ∈ R. Dann gilt:
E(X + Y ) = E(X) + E(Y )
E(λX) = λE(X)
i.A.
Im Allgemeinen ist E(X · Y ) = E(X) · E(Y ) (∗).
Gleichheit gilt in (∗), wenn die Zufallsvariablen „(stochastisch) unabhängig“ sind (siehe später).
Seite 30
I
WICHTIGES AUS DER VORLESUNG
1.53 Definition
Elementare Stochastik
(Varianz)
Sei X : Ω −→ R eine Zufallsvariable und µ := E(X).
Dann ist die Varianz von X definiert durch
Var(X) =

2


X(ω) − µ · P (ω) , P (ω) = 0



ω∈Ω
für endlich viele ω ∈ Ω
∞






(t − µ)2 f (t) dt
für stetige Zufallsvariablen mit Dichte f
−∞
Für Ω endlich oder X(Ω) endlich kann man gleiche Werte von X zusammenfassen und erhält
r
(ak − µ)2 · P (X = ak )
Var(X) =
k=1
wobei a1 , . . . , ar die verschiedenen Werte von X sind.
1.54 Definition
(Standardabweichung)
Die Zahl
rx :=
Var(X)
heißt Standardabweichung von X.
1.55 Rechenregeln für die Varianz
Es sei X eine Zufallsvariable, µ = E(X) und λ ∈ R. Dann gilt:
(a) Var(X) = E (X − µ)2 = E(X 2 ) − µ2
(b) Var(λX) = λ2 · Var(X)
(c) Var(X + λ) = Var(X)
i.A.
Im Allgemeinen ist Var(X + Y ) = Var(X) + Var(Y ).
1.56 Definition und Notiz
X sei eine Zufallsvariable, µ = E(X) und σX die Standardabweichung von X. Die Zufallsvariable
X ϕ :=
X −µ
σX
heißt die Standardisierung von X. Allgemein heißt X standardisiert, wenn E(X) = 0 und
Var(X) = 1.
1.57 Definition
(Covarianz, Korrelationskoeffizient)
Sei Ω endlich, X, Y : Ω ∈ R seien Zufallsvariablen, µ := E(X), ν := E(Y ).
Dann heißt
X(ω) − µ Y (ω) − ν = E (X − µ)(Y − ν)
σx,y = Cov(X, Y ) =
ω∈Ω
Seite 31
I
WICHTIGES AUS DER VORLESUNG
Elementare Stochastik
die Covarianz von X und Y und
=
x,y
Cov(X, Y )
Cov(X, Y )
=
σx · σy
Var(X) · Var(Y )
:=
heißt Korrelationskoeffizient von X und Y .
Cov(X, X) = Var(X)
1.58 Rechenregeln im Zusammenhang mit der Covarianz
X und Y seien Zufallsvariablen. Dann gilt:
(a) E(X · Y ) = E(X) · E(Y ) + Cov(X, Y )
(b) Var(X + Y ) = Var(X) + 2 Cov(X, Y ) + Var(Y )
(c) Sind X und Y (stochastisch) unabhängig, d. h.
P (X = a, Y = b) = P (X = a) · P (Y = b)
so ist
E(X · Y ) = E(X) · E(Y ) und
Var(X + Y ) = Var(X) + Var(Y )
(d) X1 , . . . , Xn seien unabhängige Zufallsvariablen, d. h.
P (X1 = a1 , . . . , Xn = an ) = P (X1 = a1 ) · . . . · P (Xn = an )
so gilt
Var(X1 + . . . + Xn ) = Var(X1 ) + . . . + Var(Xn )
1.59 Erwartungstreue
Vor:
X1 , . . . , Xn seien paarweise unabhängige Zufallsvariablen mit E(Xi ) =
n
n
1
¯ 2.
¯= 1
Var(Xi ) = σ 2 für i = 1, . . . , n. Weiter sei X
Xi , S 2 = n−1
(Xi − X)
n
i=1
Beh:
µ,
i=1
E(S 2 ) = σ 2 , d. h. S 2 ist erwartungstreu.
1.60 Signifikanztests
Ein Test, bei dem entschieden werden soll, ob eine Hypothese H0 abgelehnt wird oder nicht, heißt
Signifikanztest. Die zu testende Hypothese H0 heißt Nullhypothese.
Bei einem Signifikanztest wählt man eine Zahl α ∈ R mit 0 < α < 1. Der Test ist dann so zu
konstruieren, dass die Wahrscheinlichkeit(H0 wird abgelehnt, obwohl H0 richtig ist)≤ α ist.
α heißt Signifkanzniveau.
Übliche Werte für α sind 0.05 und 0.01.
Seite 32
I
WICHTIGES AUS DER VORLESUNG
Elementare Stochastik
1.61 Anwendungsbeispiel zum Signifikanztest
(i) Jemand bezweifelt, dass beim Werfen einer bestimmten Münze die beiden Ereignisse W :„Wappen
liegt oben“ und Z:„Zahl liegt oben“ gleich wahrscheinlich sind.
(ii) P (W ) und P (Z) sind unbekannt.
Nullhypothese H0 : P (W ) = P (Z) = 12 .
Als Signifikanzniveau α wählen wir α = 0.05.
(iii) Für eine Entscheidung soll die Münze 200 mal („unabhängig“) geworfen werden (unabhängige
Wiederholung eines Zufallsexperiments). Gezählt wird, wie oft das Wappen oben liegt. X200
sei die dadurch erhaltene Zahl.
(iv) Für welche Werte von X200 soll die Nullhypothese H0 abgelehnt werden?
Vorgabe: α = 0.05
Ist H0 richtig, so ist X200 eine binomialverteilte Zufallsvariable, d. h.
PH0 (X200 = k) =
200
k
1
2
200
und der Wert X200 wird in der Nähe von 100 liegen.
(v) Gesucht ist deshalb ein c ∈ N, c ∈ [0, 200], mit der Eigenschaft
PH0 (|X200 − 100| > c) = PH0 (X < 100 − c) + PH0 (X > 100 + c) ≤ α
Bei diesem Beispiel handelt es sich um einen zweiseitigen Signifikanztest.
(vi) Berechnung der Wahrscheinlichkeiten:
Es gilt: n · p(1 − p) = 200 ·
1
2
·
1
2
= 50 > 9
d. h. zur Berechnung für die binomialverteilte Zufallsvariable X200 kann die Normalverteilung
verwendet werden.
Für X200 gilt:
µ = n · p = 100
σ=
n · p · (1 − p) =
√
50
Es gilt:
PH0 (|X200 − 100| > c) ≤ α ⇐⇒ 1 − PH0 (|X200 − 100| > c) = PH0 (|X200 − 100| ≤ c) ≥ 1 − α
Seite 33
I
WICHTIGES AUS DER VORLESUNG
Elementare Stochastik
PH0 (|X200 − 100| ≤ c) = PH0 (100 − c ≤ X200 ≤ 100 + c)

(☼)
=µ

 100 + c − 100 


√
−Φ


50
≈ Φ
100 − c − 100
√
50
=σ
c
−c
=Φ √
−Φ √
50
50
=Φ
√c
50
c
= 2Φ √
50
−1
−1
(☼) Standardisierung; Approximation durch Normalverteilung
Also gilt:
PH0 (|X200 − 100| > c) ≤ α
c
−1≥1−α
⇐⇒ 2Φ √
50
c
α
⇐⇒ Φ √
≥1−
(∗)
2
50
Gesucht ist das kleineste c ∈ [0, 200], c ∈ N, mit der Eigenschaft
c
Φ √
50
≥1−
α
2
(vii) Bestimmung von c
Gesucht ist ein c mit
(∗)
c
Φ √
50
≈1−
α
= 0.975
2
(≥, kleinstes c mit dieser Eigenschaft)
Dazu betrachten wir die Tabelle der N (0, 1)-Verteilung
Φ(X) = 0.975 für X ≈ 1.96
Mit (∗) folgt
c
√ ≈ 1.96 d. h. c ≈ 13.8
50
Wähle c = 14.
(viii) Entscheidungsregel
H0 wird abgelehnt für
X200 < 100 − 14 = 86
oder
X200 > 100 + 14 = 114
Für X200 ∈ [86, 114] wird H0 NICHT abgelehnt. Dies heißt NICHT, dass für X200 ∈ [86, 114]
H0 beseitigt ist.
Seite 34
II
WICHTIGE EXCEL-BEFEHLE
Elementare Stochastik
II Wichtige Excel-Befehle
Ein $ Zeichen vor der Spalte bzw. Zeile stellt einen absoluten Bezug dar.
Summe der Zellen B2 bis B81
=SUMME(B2:B81)
Anzahl der beschriebenen Zellen zwi-
=ANZAHL(B2:B81)
schen B2 und B81
Mittelwert der Zellen B2 bis B81
=MITTELWERT(B2:B81)
Median der Zellen B2 bis B81
=MEDIAN(B2:B81)
Maximum der Zellen B2 bis B81
=MAX(B2:B81)
Minimum der Zellen B2 bis B81
=MIN(B2:B81)
Absolute Häufigkeit des Wertes 1 in den
=ZÄHLENWENN($B$2:$B$81;1)
Zellen B2 bis B81
Relative Häufigkeit des Wertes 1 in den
=ZÄHLENWENN($B$2:$B$81;1)/ANZAHL($B$2:$B$81)
Zellen B2 bis B81
Varianz der Zellen B2 bis B81
=VARIANZ(B2:B81)
Standardabweichung der Zellen B2 bis
=STABW(B2:B81)
B81
Wurzel des Wertes in Zelle B5
=WURZEL(B5)
unteres Quartil der Zellen B2 bis B81
=QUARTILE(B2:B81;1)
oberes Quartil der Zellen B2 bis B81
=QUARTILE(B2:B81;3)
a-tes Perzentil der Zellen B2 bis B81
=QUANTIL(B2:B81;a/100)
b-Quantil der Zellen B2 bis B81
=QUANTIL(B2:B81;b)
Kovarianz (x-Werte in A2 bis A8, y-
=KOVAR(A2:A8;B2:B8)
Werte in B2 bis B8)
Korrelationskoeffizient
=KORREL(A2:A8;B2:B8)
Steigung der Regressionsgeraden
=STEIGUNG(B2:B8;A2:A8)
y-Achsenabschnitt der Regressionsgera-
=ACHSENABSCHNITT(B2:B8;A2:A8)
den
Erstellen eines Punktdiagramms mit Regressionsgerade
(1) Tabelle mit Werten markieren −→ Einfügen −→ Diagramm
(2) Diagrammtyp: Punkt(XY) −→ weiter −→ weiter −→ Fertig stellen
(3) Rechtsklick auf Punkt im Diagramm −→ Trendlinie hinzufügen −→ Regressionstyp linear
(4) ggf. Haken setzen bei Gleichung anzeigen
(5) Diagramm nach Belieben beschriften, skalieren und formatieren
Seite 35
III
WICHTIGE R-BEFEHLE
Elementare Stochastik
III Wichtige R-Befehle
Wurzel von a
sqrt(a)
7. Spalte von dat wird GRB zugeordnet
GRB<-dat[,7]
Maximum von GRB
max(GRB)
Minimum von GRB
min(GRB)
Summe von GRB
sum(GRB)
arithmetisches Mittel von GRB
mean(GRB)
Median von GRB
median(GRB)
Standardabweichung von GRB
sd(GRB)
Varianz von GRB
var(GRB)
Sortierung von GRB
sort(GRB)
absolute Häufigkeitstabelle von GRB
table(GRB)
relative Häufigkeitstabelle von GRB
table(GRB/length(GRB))
Länge von GRB
length(GRB)
zusammenfassende Statistiken von GRB
summary(GRB)
Quantile von GRB
quantile(GRB)
a-tes Perzentil von GRB
quantile(GRB, a/100, type=1)
b-Quantil von GRB
quantile(GRB, b, type=1)
Datenreihe dat manuell mit Daten füllen
dat<-c(149, 147, 158)
empirische Verteilungsfunktion aus dat erstellen
Fn<-ecdf(dat)
und Fn zuordnen
Fn zeichnen
plot(Fn, main="Überschrift",
xlab="Beschriftung x-Achse",
ylab="Beschriftung y-Achse")
Kovarianz nach Pearson der Datenreihen x und y
cov(x,y)
Korrelationskoeffizient nach Pearson
cor(x,y)
lineare Regression
reg<-lm(y~x)
Punktediagramm plotten (lwd ist Linienstärke)
plot(y~x, main="Punktediagramm",
col="blue", lwd=4)
Regressionsgerade plotten
abline(ref, lwd=3)
kumulative Summe der Datenreihe x
cumsum(x)
Boxplot der Datenreihe x
boxplot(x, main="Überschrift")
Seite 36
III
WICHTIGE R-BEFEHLE
Elementare Stochastik
• VorlDreiWuerfel.txt (im selben Ordner wie R-Datei gespeichert) in R einlesen und dat zuordnen funktioniert mit dat<-read.table(file="VorlDreiWuerfel.txt",header=TRUE)
• Histogramm
wird
geplottet
mit
hist(GRB, xlab="Beschriftung x-Achse",
ylab="Beschriftung y-Achse", main="Überschrift", cex.main=1.9, col="gray75",
border="black")
cex.main skaliert dabei die Größe der Überschrift, col definiert die Füllfarbe des Plots und
border legt die Farbe des Plots fest
• Datenmatrix dat manuell mit Daten füllen; findet Spaltenweise statt, ncol definiert die Anzahl der Spalten, nrow die Anzahl der Zeilen: dat<-matrix(c(1,2,3,4,5,6,7,8,9,7,4,1,2,5,8),
ncol=5, nrow=3))
Matrix sieht dann wie folgt aus:
1
4
7
7
2
2
5
8
4
5
3
6
9
1
8
Seite 37
Document
Kategorie
Gesundheitswesen
Seitenansichten
10
Dateigröße
535 KB
Tags
1/--Seiten
melden