close

Anmelden

Neues Passwort anfordern?

Anmeldung mit OpenID

Eastward pdf free

EinbettenHerunterladen
I
FORMELSAMMLUNG UND WISSENSWERTES
Elementare Stochastik
I Formelsammlung und Wissenswertes
Probeklausur
• Merkmalstyp/Messniveau
– qualitatives Merkmal: Nominalskala (Familienstand, Farbe)
– Rangmerkmale: Ordinalskala (Rangplätze bei Wettbewerben)
– quantitatives (metrisches) Merkmal: Intervallskala
∗ Nullpunkt NICHT absolut festgelegt
∗ nur + und − sinnvoll
– diskret/stetig: Verhältnisskala
• dichotone Merkmale: zwei Ausprägungen
Probeklausur
• arithmetisches Mittel


k
k
1
1

x
¯=
aj h(X = aj ) =
aj r(X = aj ) =
n j=1
n
j=1
n
xi
i=1
n
(xi − x
¯) = 0
∀ x1 , . . . , x n ∈ R :
i=1
zi = xi + yi =⇒ z¯ = x
¯ + y¯
zi = axi + b =⇒ z¯ = a¯
x+b
n
n
(xi − x
¯ )2 ≤
(xi − d) ∀ d ∈ R
i=1
i=1
• gewichtetes arithmetisches Mittel: x
¯gew =
1
·
n
gi
n
gi xi
i=1
i=1
Probeklausur
• Stichprobenvarianz:
1
s2 =
n−1
=
(Streuungsmaßzahl)
n
1
(xi − x
¯)2 =
n−1
i=1

n
x2i − n¯
x2
i=1
1  n 2 1
=
x −
n − 1 i=1 i
n
2
n
xi


i=1
k
1
(aj − x
¯)2 · h(X = aj )
n − 1 j=1
• Standardabweichung:
(Streuungsmaßzahl)
s=
√
s2
• Für zi = axi + b gelten: s2z = a2 s2x und sz = |a| · sx
• empirische Verteilungsfunktion: F (x) = r(X ≤ x) =
r(X = aj )
aj ≤x
Probeklausur
• empirischer Median: (Lagemaßzahl) x
˜=
n
i=1
|xi − x
˜| ≤
n
i=1
|xi − d|


x( n+1 )
n ungerade

 1 x n + x n+2
( 2 )
2 (2)
n gerade
Zentralwert
2
∀d∈R
Seite 1
zentrales Wertepaar
I
FORMELSAMMLUNG UND WISSENSWERTES
• α-Quantil: xα =

1


x(nα) + x(nα+1)
Elementare Stochastik
nα ganzzahlig
2

x
([nα+1])
sonst
• r-tes Perzentil:
r
100 -Quantil
• Quartilabstand:
(Streuungsmaßzahl zum Median)
x3 − x1
4
Probeklausur
• geometrisches Mittel: x
¯G =
√
n
4
x1 · . . . · xn
• harmonisches Mittel: x
¯H = n ·
1
1
+...+ x1
x1
n
n
• gewichtetes harmonisches Mittel: x
¯H,gew =
gj ·
j=1
1
g1
+...+ xgn
x1
n
gj sind Zusatzinformationen zu xj
• Modalwert x
¯D :
Probeklausur
(Maßzahl)
• empirische Kovarianz: sx,y =
• Standardabweichung: sx =
Probeklausur
a∈A
h(¯
xD ) = max h(a)
1
n−1
1
n−1
n
i=1
n
n
1
n−1
(xi − x
¯)(yi − y¯) =
xi yi − (n¯
x · y¯)
i=1
(xi − x
¯)2
i=1
• Pearsonscher Korrelationskoeffizient:
(Maßzahl)
r = rx,y =
sx,y
sx ·sy
– sx,y enthält Informationen über evtl. Zusammenhang
– sx und sy Normierungsfaktoren
– −1 ≤ r ≤ 1
– r = 1 ⇐⇒ yi = axi + b
n
(xi −¯
x)(yi −¯
y)
Probeklausur
• Regressionskoeffizient:
(Geradensteigung)
a=
i=1
n
(xi
−¯
x)2
n≥2 sx,y
= s2
x
i=1
Probeklausur
• Regressionskonstante:
(Schnittpunkt mit y-Achse)
b = y¯ − a¯
x
Bemerkung: (¯
x, y¯) immer auf der Regressionsgerade
Probeklausur
• Linearisierung durch Transformation
y = b · ax =⇒ ln(y) = ln(b) + ln(a) ·x =⇒ y = b + a x
=:y
y =b·x
a
=:b
=:a
=⇒ ln(y) = ln(b) + ln(x) ·a =⇒ y = b + ax
=:y
=:b
=:x
Zeilensumme Spaltensumme
• Kontingenz:
(Zusammenhang nominalskalierter Merkmale)
Seite 2
Eij =
Zi
·
n
Sj
I
Probeklausur
FORMELSAMMLUNG UND WISSENSWERTES
• Kontingenzkoeffizient C:
(
Nominalskala)
χ2 =
Elementare Stochastik
c1
c2
i=1 j=1
(Bij −Eij )2
Eij
c1 : Anzahl der Zeilen; c2 : Anzahl der Spalten
χ2
+n
C :=
0≤C<1
χ2
m−1
m
m := min(c1 , c2 )
Cmax =
• korrigierter Kontingenzkoeffizient: Ck =
C
Cmax
=
χ2 ·m
(χ2 +n)(m−1)
(n: Anzahl der Fälle)
• Wahrscheinlichkeitsverteilung als Abbildung: P : A −→ R , A −→ P (A)
Probeklausur
Axiome: A ⊂ P(Ω)
(1) 0 ≤ P (A) ≤ 1
∀A∈A
(2) P (Ω) = 1
(3) P (A ∪ B) = P (A) + P (B)
falls A ∩ B = ∅, A, B ∈ A
weitere Eigenschaften
– P (∅) = 0
– P (A1 ∪ . . . ∪ Ar ) = P (A1 ) + . . . + P (Ar )
¯ = 1 − P (A)
– P (A)
, falls Ai ∩ Aj = ∅ für i = j
, wobei A¯ = Ω \ A
– A1 ⊂ A2 =⇒ P (A1 ) ≤ P (A2 )
– P (A1 ∪ A2 ) = P (A1 ) + P (A2 ) − P (A1 ∩ A2 )
– P (A1 ∪ . . . ∪ Ar ) ≤ P (A1 ) + . . . + P (Ar )
• Gleichverteilung/Laplace-Verteilung: P (ω) =
1
n
∀ω∈Ω
• Urnenmodelle
– geordnet, mit Zurücklegen
Ω1 =
(a1 , . . . , ak ) ∈ M k
1 ≤ ai ≤ n
#Ω1 = nk
Probeklausur
– geordnet, ohne Zurücklegen
Ω2 =
#Ω2 =
(a1 , . . . , ak ) ∈ M k
n!
(n − k)!
ai = aj für i = j
(Taschenrechner: nPr)
Seite 3
I
FORMELSAMMLUNG UND WISSENSWERTES
Elementare Stochastik
– ungeordnet, mit Zurücklegen
Ω3 =
#Ω3 =
(a1 , . . . , ak ) ∈ M k
1 ≤ a1 ≤ a2 ≤ . . . ≤ ak ≤ n
n+k−1
k
– ungeordnet, ohne Zurücklegen (k ≤ n)
Ω4 =
#Ω4 =
Probeklausur
(a1 , . . . , ak ) ∈ M k
n
k
=
1 ≤ a1 < a2 < . . . < ak ≤ n
n!
(n − k)!k!
(Taschenrechner: nCr)
• bedingte Wahrscheinlichkeit
P (A|B) = PB (A) =
P (A ∩ B)
P (B)
P (A ∩ B) = P (A|B) · P (B) = P (B|A) · P (A) = P (B ∩ A)
• stochastisch unabhängig
¯
A stochastisch unabhängig von B ⇐⇒ P (A|B) = P (A|B)
⇐⇒ P (A|B) = P (A)
⇐⇒ P (A ∩ B) = P (A) · P (B)
• P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
• Bayessche Formel: P (Ai |B) =
P (B|Ai )·P (Ai )
P (B)
=
P (B|Ai )·P (Ai )
n
P (B|Ai )·P (Ai )
i=1
Ai Disjunktionen von Ω
Probeklausur
• binomialverteilte Zufallsvariable: bn;p (k) = B(n; p; k) = P (X = k) =
– P (l ≤ X ≤ m) =
– P (0 ≤ X ≤ n) =
m
k=0
– bn;0.5 (k) =
pk (1 − p)n−k
m
P (X = k) =
k=l
n
n
k
bn;p (k)
k=l
n
k
BLS
pk (1 − p)n−k =
p + (1 − p)
n
=1
1 n
2n k
– P (X ≥ k) = 1 − P (X < k) = 1 −
k−1
bn;p (k)
k=0
ÜB A34: Kiste mit Werkstücken
• hypergeometrisch verteilte Zufallsvariable: P (X = k) =
−r
(kr )(Nn−k
)
N
(n)
max(0, n − R + r) ≤ l ≤ min(n, r)
Notation: H(n; N ; r)-verteilt
∞
• stetig verteilte Zufallsvariable: Verteilungsfunktion F (x) =
f (t) dt
−∞
Seite 4
∀x∈R
I
FORMELSAMMLUNG UND WISSENSWERTES
Elementare Stochastik
• normalverteilte Zufallsvariable: N (µ, σ)-verteilt, d. h. X stetig verteilt mit Dichte f
t−µ
σ
1
1
f (t) = √ · exp −
2
σ 2π
2
∀t∈R
wobei µ Erwartungswert und σ Standardabweichung von X.
N (0, 1) heißt standard-normalverteilt. Dann gilt für die Verteilungsfunktion
1
Φ(x) = √ ·
2π
Probeklausur
x
−∞
1
exp − t2
2
dt
und für die Dichtefunktion
1
1
ϕ(x) = √ · exp − x2
2
2π
∀x∈R
ϕ(−x) = ϕ(x)
Probeklausur
Φ(−x) = 1 − Φ(x)
X ist N (µ, σ)-verteilte Zufallsvariable. Dann ist
U=
X −µ
σ
eine N (0, 1)-verteilte Zufallsvariable.
Probeklausur
X ist N (µ, σ) verteilt. Dann gilt:
P (X < b) = P (X ≤ b) = Φ
B(n; p; k) ≈
1
σ
·ϕ
k−µ
σ
mit µ = n · p und σ =
b−µ
σ
np(1 − p)
• Approximation der Binomialverteilung durch die Normalverteilung
Für p ∈]0, 1[ und „große n“ (mindestens n · p · (1 − p) > 9) ist
B(n; p; k) ≈
wobei µ = n · p, σ =
k−µ
1
·ϕ
σ
σ
np(1 − p).
• Erwartungswert: E(X) =
X(ω) · P (ω) =
ω∈Ω
• Varianz: Var(X) =
r
∞
ak · P (X = ak ) =
k=1

2


X(ω) − µ · P (ω)



ω∈Ω
t · f (t) dt
−∞
endlich viele ω ∈ Ω
∞






(t − µ)2 f (t) dt
stetige Zufallsvariable mit Dichte f
−∞
r
Ω oder X(Ω) endlich =⇒ Var(X) =
(ak − µ)2 · P (X = ak )
k=1
Seite 5
I
Probeklausur
FORMELSAMMLUNG UND WISSENSWERTES
• Standardabweichung: rx =
Elementare Stochastik
Var(X)
2
Var(X) = E (X − µ)2 = E(X 2 ) − µ2 = E(X 2 ) − E(X)
Var(λX) = λ2 · Var(X)
Var(X + λ) = Var(X)
• Standardisierung: X ϕ =
Probeklausur
X−µ
σx
mit µ = E(X) und σx Standardabweichung
X standardisiert ⇐⇒ E(X) = 0 ∧ Var(X) = 1
• Covarianz: σx,y = Cov(X, Y ) =
X(ω) − µ Y (ω) − ν = E (X − µ)(Y − ν)
ω∈Ω
mit µ = E(X) und ν = E(Y )
• Korrelationskoeffizient:
=
x,y
=√
Cov(X,Y )
Var(X)·Var(Y )
=
Cov(X,Y )
σx ·σy
Cov(X, X) = Var(X)
E(X · Y ) = E(X) · E(Y ) + Cov(X, Y )
Var(X + Y ) = Var(X) + Var(Y ) + 2 Cov(X, Y )
X, Y stochastisch unabhängig =⇒ E(X ·Y ) = E(X)·E(Y ) ∧ Var(X +Y ) = Var(X)+Var(Y )
X1 , . . . , Xn stochastisch unabhängig =⇒ Var (X1 , . . . , Xn ) = Var(X1 ) + . . . + Var(Xn )
• Erwartungstreue:
x
¯=
ÜB A31:
Schließfach
Bahnhof,
Meyer
1
n
n
Xi , S 2 =
i=1
1
n−1
X1 , . . . , Xn paarweise unabhängig, E(Xi ) = µ, Var(Xi ) = σ 2 ,
n
¯ 2 =⇒ E(S 2 ) = σ 2 , d. h. S 2 ist erwartungstreu
(Xi − X)
i=1
• Anzahl der Permutationen: Von n Objekten seien jeweils n1 , . . . , nr Objekte gleich, wobei
n1 +. . .+nr = n (r ≤ n). Dann lassen sich n Objekte auf
• Signifikanztest
n!
n1 !·...·nr !
verschiedene Arten anordnen.
(Beispiel)
(1) Zweifel an gleiche Wahrscheinlichkeiten beim Werfen einer Münze
W : „Wappen oben“; Z: „Zahl oben“
(2) P (W ) und P (Z) unbekannt; H0 : P (W ) = P (Z) = 12 ; α = 0.05
∧
(3) 200 mal werfen der Münze =⇒ X200 = Anzahl von „Wappen oben“
(4) X200 binomialverteilt: PH0 (X200 = k) =
200
k
1
2
200
(5) gesucht: c ∈ N, c ∈ [0, 200], mit der Eigenschaft
PH0 (|X200 − 100| > c) = PH0 (X < 100 − c) + PH0 (X > 100 + c) ≤ α
(6) Berechnung der Wahrscheinlichkeiten: n · p(1 − p) = 200 ·
1
2
·
1
2
= 50 > 9
=⇒ Verwendung der Normalverteilung
µ = n · p = 100 und
Seite 6
σ=
n · p(1 − p) =
√
50
I
FORMELSAMMLUNG UND WISSENSWERTES
Elementare Stochastik
Mit (5) folgt
PH0 (|X200 −100| > c) ≤ α ⇐⇒ 1−PH0 (|X200 −100| > c) = PH0 (|X200 −100| ≤ c) ≥ 1−α
PH0 (|X200 − 100| ≤ c) = PH0 (100 − c ≤ X200 ≤ 100 + c)
100 + c − 100
100 − c − 100
√
√
≈Φ
−Φ
50
50
c
−c
c
=Φ √
−Φ √
= 2Φ √
−1
50
50
50
Also
c
PH0 (|X200 − 100| > c) ≤ α ⇐⇒ 2Φ √
50
c
− 1 ≥ 1 − α ⇐⇒ Φ √
50
gesucht: kleinstes x ∈ [0, 200], c ∈ N, mit der Eigenschaft Φ
(7) Bestimmung von c: Φ
√c
50
≈1−
α
2
√c
50
≥1−
≥1−
α
2
α
2
= 0.975
Tabelle N (0, 1)-Verteilung
===============⇒ Φ(X) = 0.975 für X ≈ 1.96
=⇒
√c
50
≈ 1.96 =⇒ c ≈ 13.8 −→ wähle c = 14
(8) Entscheidungsregel: H0 abgelehnt für X200 < 86 oder X200 > 114. Für X200 ∈ [86, 114]
wird H0 NICHT abgelehnt. Das heißt NICHT, dass für X200 ∈ [86, 114] H0 beseitigt ist.
Seite 7
II
WICHTIGE EXCEL-BEFEHLE
Elementare Stochastik
II Wichtige Excel-Befehle
Ein $ Zeichen vor der Spalte bzw. Zeile stellt einen absoluten Bezug dar.
Summe der Zellen B2 bis B81
=SUMME(B2:B81)
Anzahl der beschriebenen Zellen zwi-
=ANZAHL(B2:B81)
schen B2 und B81
Mittelwert der Zellen B2 bis B81
=MITTELWERT(B2:B81)
Median der Zellen B2 bis B81
=MEDIAN(B2:B81)
Maximum der Zellen B2 bis B81
=MAX(B2:B81)
Minimum der Zellen B2 bis B81
=MIN(B2:B81)
Absolute Häufigkeit des Wertes 1 in den
=ZÄHLENWENN($B$2:$B$81;1)
(Probeklausur)
Zellen B2 bis B81
Relative Häufigkeit des Wertes 1 in den
=ZÄHLENWENN($B$2:$B$81;1)/ANZAHL($B$2:$B$81)
Zellen B2 bis B81
Varianz der Zellen B2 bis B81
=VARIANZ(B2:B81)
Standardabweichung der Zellen B2 bis
=STABW(B2:B81)
(Probeklausur)
B81
Wurzel des Wertes in Zelle B5
=WURZEL(B5)
unteres Quartil der Zellen B2 bis B81
=QUARTILE(B2:B81;1)
oberes Quartil der Zellen B2 bis B81
=QUARTILE(B2:B81;3)
a-tes Perzentil der Zellen B2 bis B81
=QUANTIL(B2:B81;a/100)
b-Quantil der Zellen B2 bis B81
=QUANTIL(B2:B81;b)
Kovarianz (x-Werte in A2 bis A8, y-
=KOVAR(A2:A8;B2:B8)
Werte in B2 bis B8)
Korrelationskoeffizient
=KORREL(A2:A8;B2:B8)
Steigung der Regressionsgeraden
=STEIGUNG(B2:B8;A2:A8)
y-Achsenabschnitt der Regressionsgera-
=ACHSENABSCHNITT(B2:B8;A2:A8)
(Probeklausur)
den
Erstellen eines Punktdiagramms mit Regressionsgerade
(1) Tabelle mit Werten markieren −→ Einfügen −→ Diagramm
(2) Diagrammtyp: Punkt(XY) −→ weiter −→ weiter −→ Fertig stellen
(3) Rechtsklick auf Punkt im Diagramm −→ Trendlinie hinzufügen −→ Regressionstyp linear
(4) ggf. Haken setzen bei Gleichung anzeigen
(5) Diagramm nach Belieben beschriften, skalieren und formatieren
Seite 8
III
WICHTIGE R-BEFEHLE
Elementare Stochastik
III Wichtige R-Befehle
Wurzel von a
sqrt(a)
7. Spalte von dat wird GRB zugeordnet
GRB<-dat[,7]
Maximum von GRB
max(GRB)
Minimum von GRB
min(GRB)
Summe von GRB
sum(GRB)
arithmetisches Mittel von GRB
mean(GRB)
Median von GRB
median(GRB)
Standardabweichung von GRB
sd(GRB)
Varianz von GRB
var(GRB)
Sortierung von GRB
sort(GRB)
absolute Häufigkeitstabelle von GRB
table(GRB)
relative Häufigkeitstabelle von GRB
table(GRB/length(GRB))
Länge von GRB
length(GRB)
zusammenfassende Statistiken von GRB
summary(GRB)
Quantile von GRB
quantile(GRB)
a-tes Perzentil von GRB
quantile(GRB, a/100, type=1)
b-Quantil von GRB
quantile(GRB, b, type=1)
Datenreihe dat manuell mit Daten füllen
dat<-c(149, 147, 158)
empirische Verteilungsfunktion aus dat erstellen
Fn<-ecdf(dat)
(Probeklausur)
(Probeklausur)
und Fn zuordnen
Fn zeichnen
plot(Fn, main="Überschrift",
xlab="Beschriftung x-Achse",
ylab="Beschriftung y-Achse")
Kovarianz nach Pearson der Datenreihen x und y
cov(x,y)
Korrelationskoeffizient nach Pearson
cor(x,y)
lineare Regression
reg<-lm(y~x)
Punktediagramm plotten (lwd ist Linienstärke)
plot(y~x, main="Punktediagramm",
col="blue", lwd=4)
Regressionsgerade plotten
abline(ref, lwd=3)
kumulative Summe der Datenreihe x
cumsum(x)
Boxplot der Datenreihe x
boxplot(x, main="Überschrift")
Seite 9
(Probeklausur)
III
WICHTIGE R-BEFEHLE
Elementare Stochastik
• VorlDreiWuerfel.txt (im selben Ordner wie R-Datei gespeichert) in R einlesen und dat zuordnen funktioniert mit dat<-read.table(file="VorlDreiWuerfel.txt",header=TRUE)
• Histogramm
wird
geplottet
mit
hist(GRB, xlab="Beschriftung x-Achse",
ylab="Beschriftung y-Achse", main="Überschrift", cex.main=1.9, col="gray75",
border="black")
cex.main skaliert dabei die Größe der Überschrift, col definiert die Füllfarbe des Plots und
border legt die Farbe des Plots fest
• Datenmatrix dat manuell mit Daten füllen; findet Spaltenweise statt, ncol definiert die Anzahl der Spalten, nrow die Anzahl der Zeilen: dat<-matrix(c(1,2,3,4,5,6,7,8,9,7,4,1,2,5,8),
ncol=5, nrow=3))
Matrix sieht dann wie folgt aus:
1
4
7
7
2
2
5
8
4
5
3
6
9
1
8
Seite 10
Document
Kategorie
Gesundheitswesen
Seitenansichten
9
Dateigröße
326 KB
Tags
1/--Seiten
melden