close

Anmelden

Neues Passwort anfordern?

Anmeldung mit OpenID

2. Statistik Was ist Statistik ? - CES

EinbettenHerunterladen
Vorlesung “Intelligente Datenanalye”
Universität Karlsruhe, IRF (Prof. D. Schmid)
M. Berthold, F. Feldbusch, K.-P. Huber
2. Statistik
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
Vorgehensweise
Verteilungen
Schätzer
Kennzahlen
Test von Hypothesen
Methoden der Vorverarbeitung
Klassifikation
Regression
Folie 1-1
Universität Karlsruhe
IRF (Prof. D. Schmid)
Vorlesung “Intelligente Datenanalyse”
University of California
at Berkeley
Was ist Statistik ?
• Methoden zur Zusammenfassung, Darstellung und
Analyse von Daten
• Ausgangspunkt: Zufallsexperiment
• Modell: Wahrscheinlichkleitstheoretisch (ideal)
• Gesucht: Theorie zur Erklärung der Beobachtungen
• Unterscheidung:
– schließende Statisitik
– deskriptive Statistik
Folie 1-2
Universität Karlsruhe
IRF (Prof. D. Schmid)
Vorlesung “Intelligente Datenanalyse”
University of California
at Berkeley
mb-1
Vorlesung “Intelligente Datenanalye”
Universität Karlsruhe, IRF (Prof. D. Schmid)
M. Berthold, F. Feldbusch, K.-P. Huber
2.1 Vorgehensweise
1. Auswahl eines Wahrscheinlichkeitsmodells
2. Anpassungstests
3. Schätzung unbekannter Parameter
– Punktschätzung
– Bereichsschätzung
4. Test von Hypothesen
Folie 1-3
Universität Karlsruhe
IRF (Prof. D. Schmid)
Vorlesung “Intelligente Datenanalyse”
University of California
at Berkeley
2.2 Verteilungen
• Häufigkeit Hn(A)
Häufigkeit des Ereignisses A bei n Versuchswiederholungen
A ⊂ Ωx
• rel. Häufigkeit hn ( A) =
H n ( A)
n
hn ( A) = P ( A)
• Wahrscheinlichkeit lim
n→∞
Folie 1-4
Universität Karlsruhe
IRF (Prof. D. Schmid)
Vorlesung “Intelligente Datenanalyse”
University of California
at Berkeley
mb-2
Vorlesung “Intelligente Datenanalye”
Universität Karlsruhe, IRF (Prof. D. Schmid)
M. Berthold, F. Feldbusch, K.-P. Huber
• Wahrscheinlichkeitsdichtefunktion f(x):
A bestehe aus Elementarereignissen x i, dann gilt:
f(x)
P ( A) =
f ( x)
∑
x∈ A
x
• Verteilungsfunktion F(x)
F ( x0 ) =
∑ f ( x)
x < x0
x
Folie 1-5
Universität Karlsruhe
IRF (Prof. D. Schmid)
Vorlesung “Intelligente Datenanalyse”
University of California
at Berkeley
• Erwartungswert:
Ist x eine Zufallsvariable mit Dichte f(x) und gegeben
eine Funktion y = t(x), dann ist
E (t ( x)) =
∑ t ( x ) ⋅ f ( x)
x∈Ω x
Wahrscheinlichkeit
für das Auftreten von x
der Erwartungswert
Funktionswert für x
Folie 1-6
Universität Karlsruhe
IRF (Prof. D. Schmid)
Vorlesung “Intelligente Datenanalyse”
University of California
at Berkeley
mb-3
Vorlesung “Intelligente Datenanalye”
Universität Karlsruhe, IRF (Prof. D. Schmid)
M. Berthold, F. Feldbusch, K.-P. Huber
• Momente:
Das k-te Moment von x in bezug auf a
mk(a)=E((x-a)k)
Das k-te absolute Moment von x in bezug auf a
Mk(a)=E(|x-a|k)
Das k-te faktorielle Moment von x
mk=E(x(x-1)...(x-k+1)
m1=E(x) ist das Mittel von x (µ = m1)
Folie 1-7
Universität Karlsruhe
IRF (Prof. D. Schmid)
Vorlesung “Intelligente Datenanalyse”
University of California
at Berkeley
Gleichverteilung
• Diskret
• z.B. Würfel, Zufallszahlen
f ( x | GΩ x ) =
• Stetig
• z.B Stellung eines Rades
 1

f ( x | G[a ,b ]) =  b − a
 0
1
N
f(x)
für
a≤ x<b
sonst
f(x)
1/(b-a)
1/N
1
2
...
N
x
a
b
x
Folie 1-8
Universität Karlsruhe
IRF (Prof. D. Schmid)
Vorlesung “Intelligente Datenanalyse”
University of California
at Berkeley
mb-4
Vorlesung “Intelligente Datenanalye”
Universität Karlsruhe, IRF (Prof. D. Schmid)
M. Berthold, F. Feldbusch, K.-P. Huber
Binomialverteilung
• Geg. Zufallsexperiment und Ereignis A mit P(A) = p
• n-malige Wiederholung des Experiments bei gleichen
Versuchsbedingungen (Ziehung mit zurücklegen)
• A tritt dabei x-mal auf
x ist binominal verteilt
 n
f ( x | Bn, p ) =   p x (1 − p ) n − x
 x
 n
n!
Es gibt  x  = x!(n − x)!
Teilmengen vom Umfang x,
die man aus der Menge
{1 ... n} herausgreifen kann
Wahrscheinlichkeit,
daß das Ereignis
x-mal auftritt
Wahrscheinlichkeit,
daß das Ereignis
(n-x)-mal nicht
auftritt
Folie 1-9
Universität Karlsruhe
IRF (Prof. D. Schmid)
University of California
at Berkeley
Vorlesung “Intelligente Datenanalyse”
Beispiel:
Es wird n=10 mal gewürfelt. Wie groß ist die
Wahrscheinlichkeit, daß x = 3 mal die „5“ fällt (p = 1/6)?
10  1 
1
f (3 | B 1 ) =    (1 − )10−3 ≅ 0,155
10 ,
6
 3  6 
6
3
0,35
0,3
0,25
0,2
B(10,1/6)
0,15
B(10,1/2)
B(10,5/6)
0,1
0,05
0
0
1
2
3
4
5
6
7
8
9
10
Folie 1-10
Universität Karlsruhe
IRF (Prof. D. Schmid)
Vorlesung “Intelligente Datenanalyse”
University of California
at Berkeley
mb-5
Vorlesung “Intelligente Datenanalye”
Universität Karlsruhe, IRF (Prof. D. Schmid)
M. Berthold, F. Feldbusch, K.-P. Huber
Poisson-Verteilung
• Für große n und kleine p: Näherung von
 n x
  p (1 − p ) n − x
 x
durch
µ x −µ
e mit µ=np
x!
µ x −µ
f ( x | Pµ ) =
e
x!
• Verteilung der seltenen Ereignisse
• Eignet sich zur Beschreibung von Naturphänomenen
z.B.: radioaktiver Zerfall
Folie 1-11
Universität Karlsruhe
IRF (Prof. D. Schmid)
University of California
at Berkeley
Vorlesung “Intelligente Datenanalyse”
Poisson-Verteilung
0,2
0,18
0,16
0,14
Reihe1
µ=25
Reihe2
µ=5
0,1
µ=45
Reihe3
0,08
0,06
0,04
0,02
49
45
41
37
33
29
25
21
17
13
9
5
0
1
f(x)
0,12
x
Folie 1-12
Universität Karlsruhe
IRF (Prof. D. Schmid)
Vorlesung “Intelligente Datenanalyse”
University of California
at Berkeley
mb-6
Vorlesung “Intelligente Datenanalye”
Universität Karlsruhe, IRF (Prof. D. Schmid)
M. Berthold, F. Feldbusch, K.-P. Huber
Normalverteilung
• „Normalfall“ der Verteilung stetiger Zufallsgrößen
• einfach und elegant zu handhaben
• auch Gauß-Verteilung genannt
(x − µ )2
−
1
e
2π ⋅ σ
f ( x | N µ ,σ 2 ) =
2σ 2
• Standardnormalverteilung: µ=0, σ2=1
µ ist Lageparameter
σ ist Streuungsparameter
Folie 1-13
Universität Karlsruhe
IRF (Prof. D. Schmid)
University of California
at Berkeley
Vorlesung “Intelligente Datenanalyse”
Normalverteilung
0,45
0,4
µ=25
0,35
0,25
Reihe1
σ=1
0,2
σ=5
Reihe3
Reihe2
σ=2
0,15
0,1
0,05
49
45
41
37
33
29
25
21
17
13
9
5
0
1
f(x)
0,3
x
Folie 1-14
Universität Karlsruhe
IRF (Prof. D. Schmid)
Vorlesung “Intelligente Datenanalyse”
University of California
at Berkeley
mb-7
Vorlesung “Intelligente Datenanalye”
Universität Karlsruhe, IRF (Prof. D. Schmid)
M. Berthold, F. Feldbusch, K.-P. Huber
Gammaverteilung
• Familie von Verteilungen
• Anwendung in Zuverlässigkeitstheorie (z. B.
Defektdichteverteilung auf einem Wafer)
• Anwendung in Warteschlangentheorie
−x
 x λ −1
µ für

f ( x | Γλ , µ ) =  Γ(λ ) µ λ e
für

0

x>0
x≤0
∞
Γ( x ) = ∫ x x −1e − x dx = ( x − 1)Γ( x − 1)
0
Universität Karlsruhe
IRF (Prof. D. Schmid)
Folie 1-15
University of California
at Berkeley
Vorlesung “Intelligente Datenanalyse”
• Exponentialverteilung: Γ(1,µ) mit µ > 0
• Erlang-Verteilung: Γ(n,µ) mit n ∈ N, µ > 0
• chi-quadrat-Verteilung: Γ(n, 2,2) mit n ∈ N
Gammaverteilung
1
0,9
µ=1
0,8
0,7
Reihe1
λ=1
Reihe2
λ=2
0,5
Reihe3
λ=3
0,4
0,3
0,2
0,1
4,
8
4
4,
4
3,
6
3,
2
2,
8
2
2,
4
1,
6
1,
2
0,
8
0
0
0,
4
f(x)
0,6
x
Folie 1-16
Universität Karlsruhe
IRF (Prof. D. Schmid)
Vorlesung “Intelligente Datenanalyse”
University of California
at Berkeley
mb-8
Vorlesung “Intelligente Datenanalye”
Universität Karlsruhe, IRF (Prof. D. Schmid)
M. Berthold, F. Feldbusch, K.-P. Huber
Mehrdimensionale Verteilungen
• Bisher: Verteilung eines Attributs/Merkmals
• Einfluß auf Experimente: k Attribute
z.B.: Blutwerte, ergometrische Werte,
Gewichtsveränderung etc. bei Herzpatienten
x = (x1, x2, ...xk)
• Modell: k-dimensionale Verteilungen
Folie 1-17
Universität Karlsruhe
IRF (Prof. D. Schmid)
University of California
at Berkeley
Vorlesung “Intelligente Datenanalyse”
Normalverteilungen im Mehrdimensionalen:
p( x) =
1
2πΣ
x2
e
r r
1 r r
− ( x − µ ) T Σ −1 ( x − µ )
2
r µ 
µ =  1 
 µ2 
σ 21 
σ

Σ =  11
σ
σ
 12
22 
r  0
µ =  
 0
 1 0

Σ = 
 0 1
1
x1
-1
1
-1
Folie 1-18
Universität Karlsruhe
IRF (Prof. D. Schmid)
Vorlesung “Intelligente Datenanalyse”
University of California
at Berkeley
mb-9
Vorlesung “Intelligente Datenanalye”
Universität Karlsruhe, IRF (Prof. D. Schmid)
M. Berthold, F. Feldbusch, K.-P. Huber
x2
1
x1
1
2
r  1
µ =  
 0
1 0 

Σ = 
 0 0.5 
-1
x2
1
r  0
µ =  
 0
x1
1
-1
 1 − 1

Σ = 
 −1 2 
-1
Folie 1-19
Universität Karlsruhe
IRF (Prof. D. Schmid)
Vorlesung “Intelligente Datenanalyse”
University of California
at Berkeley
2.3 Schätzer
• Daten x1 ... xn sind unabhängig und nach x ~ Px(.|ϑ)
verteilt, wobei die Verteilung Px(.|ϑ) bekannt ist.
• ϑ=(ϑ1... ϑk) ∈ Θ muß geschätzt werden.
∧
∧
• (x1 ... xn) → ϑ mit ϑ(x1 ... xn) heißt Schätzfunktion bzw.
Stichprobenverteilung
Folie 1-20
Universität Karlsruhe
IRF (Prof. D. Schmid)
Vorlesung “Intelligente Datenanalyse”
University of California
at Berkeley
mb-10
Vorlesung “Intelligente Datenanalye”
Universität Karlsruhe, IRF (Prof. D. Schmid)
M. Berthold, F. Feldbusch, K.-P. Huber
• Punktschätzer
∧
–
–
–
–
Minimum χ2 - Methode: hn(A) = Px(A|ϑ )
Momenten-Methode (mittels Erwartungswerten)
Maximum Likelihood-Methode
Bayes-Methode
• Bereichsschätzer
∧
ϑ und ϑ stimmen nicht überein !
Folie 1-21
Universität Karlsruhe
IRF (Prof. D. Schmid)
Vorlesung “Intelligente Datenanalyse”
University of California
at Berkeley
Maximum-Likelihood
•
•
•
•
meistverwendete Methode
leicht zu berechnen
x kann ein- oder mehrdimensional sein
x kann stetig oder diskret sein
• Idee:Plausibilitätsfunktion
L(ϑ| x1 ... xn) = f(x1|ϑ)(f(x2|ϑ)...f(xn|ϑ)
∧
L(ϑ | x1 ... xn) = max{L(ϑ| x1 ... xn) }
Folie 1-22
Universität Karlsruhe
IRF (Prof. D. Schmid)
Vorlesung “Intelligente Datenanalyse”
University of California
at Berkeley
mb-11
Vorlesung “Intelligente Datenanalye”
Universität Karlsruhe, IRF (Prof. D. Schmid)
M. Berthold, F. Feldbusch, K.-P. Huber
• Berechnung:
∂ ln L(ϑ | x1...xn )
∂L(ϑ | x1...xn )
=0
= 0 oder
∂ϑ j
∂ϑ j
• Für die Normalverteilung:
 (x − µ )2 
1

exp −
L( µ , σ | x1...xn ) = ∏
2

2
σ
2π σ
j =1


n
∧
∂ ln L
1
x + ...xn
= 2 ∑ xj − µ = 0
µ= 1
∂µ
σ j =1
n
n
2
(
)
∂ ln L
n 1 n
= − + 3 ∑ (x j − µ ) = 0
∂σ
σ σ j =1
2
^ 2
σ =
−
1 n 

 x j − x
∑
n j =1 

2
Folie 1-23
Universität Karlsruhe
IRF (Prof. D. Schmid)
Vorlesung “Intelligente Datenanalyse”
University of California
at Berkeley
Bayes
• Statt ϑ ∈ Θ, ϑ aus vorgelagertem Experiment Εϑ
• Eigentliches Experiment Εxϑ
• Zusammengesetztes Experiment Εϑ ⊗ Εxϑ
• ist fϑ(ϑ) die Dichte der Verteilung des Ausgangs ϑ
von Εϑ (a priori-Verteilung von ϑ)
• und fxϑ(x|ϑ) die Dichte der Verteilung Px(.|ϑ)
• dann ist die Gesamtdichte fx,ϑ(ϑ,x) = fϑ(ϑ)·fxϑ(x|ϑ)
Folie 1-24
Universität Karlsruhe
IRF (Prof. D. Schmid)
Vorlesung “Intelligente Datenanalyse”
University of California
at Berkeley
mb-12
Vorlesung “Intelligente Datenanalye”
Universität Karlsruhe, IRF (Prof. D. Schmid)
M. Berthold, F. Feldbusch, K.-P. Huber
• Ist fϑ(ϑ) bekannt, dann gibt es keine unbekannten
Parameter mehr.
• Problem ist die Schätzung der nicht beobachtbaren
Realisierung der Zufallsgröße ϑ aus den
beobachtbaren Werten (x1 ... xn)
• um ϑ beobachtbar zu machen schreiben wir als
Dichte fx,ϑ(ϑ,x) = fx(x)·fϑx(ϑ|x) für das nicht
unterscheidbare Experiment Εx ⊗ Εϑx
• fϑx(ϑ|x) heißt auch
a-posteriori-Dichte
∧
• Als Schätzwert ϑ wird der Parameter ϑ gewählt für
den fϑx(ϑ|x) maximal wird.
Folie 1-25
Universität Karlsruhe
IRF (Prof. D. Schmid)
Vorlesung “Intelligente Datenanalyse”
University of California
at Berkeley
2.4 Kennzahlen
• Lageparameter
– Modalwert:
(Nominalskala)
xmod = max(Hn(x))
– Median:
(Ordinalskala)
bei ungerader Beobachtungszahl n
mit x1 ≤ x2 ≤ ...xn
xmed = x(n+1)/2
– Arithmetisches
Mittel:
x=
– geometrisches
Mittel:
x geom = n x1 ⋅ x2 ⋅ ...xn
1 n
∑ xi
n i =1
Folie 1-26
Universität Karlsruhe
IRF (Prof. D. Schmid)
Vorlesung “Intelligente Datenanalyse”
University of California
at Berkeley
mb-13
Vorlesung “Intelligente Datenanalye”
Universität Karlsruhe, IRF (Prof. D. Schmid)
M. Berthold, F. Feldbusch, K.-P. Huber
• Streuungsparameter:
SP = max( xi ) − min ( xi )
– Spannweite:
i
– durchschnittliche
Abweichung von
Lageparameter λ:
s=
i
1 n
∑ xi − λ
n i =1
1 n
( xi − x ) 2
∑
n i =1
– mittlere quadratische
Abweichung:
s2 =
– Standardabweichung:
s = s2
– Variationskoeffizient:
V=
s
x
Folie 1-27
Universität Karlsruhe
IRF (Prof. D. Schmid)
University of California
at Berkeley
Vorlesung “Intelligente Datenanalyse”
• Korrelation:
Quantifizierung der Interdependenz zweier
Attribute/Merkmale X1 und X2
Skalierung von X1
Skalierung von X2
kardinal
Bravais-Pearsonkardinal
Korrelationskoeffizient
Rangkorrelationsordinal
koeffizient von
Spearman
nominal
Kontingenzkoeffizient
ordinal
Rangkorrelationskoeffizient von
Spearman
Rangkorrelationskoeffizient von
Spearman
Kontingenzkoeffizient
nominal
Kontingenzkoeffizient
Kontingenzkoeffizient
Kontingenzkoeffizient
Folie 1-28
Universität Karlsruhe
IRF (Prof. D. Schmid)
Vorlesung “Intelligente Datenanalyse”
University of California
at Berkeley
mb-14
Vorlesung “Intelligente Datenanalye”
Universität Karlsruhe, IRF (Prof. D. Schmid)
M. Berthold, F. Feldbusch, K.-P. Huber
• Bravais-Pearson-Korrelationskoeffizient:
1 m
∑ ( xi , j − xi )( xi ’, j − xi ’)
m j =1
ri ,i ’ =
si si ’
• Rangkorrelationskoeffizient von Spearman:
(basiert auf den Rangnummern Rix1 bzw. Rix2 von x1,i
n
bzw. x2,i)
x1
x2 2
6∑ ( Ri − Ri )
rSP = 1 −
i =1
( n − 1)n(n + 1)
• Kontingenzkoeffizient:
χ2
K=
n+χ2
k
mit
l
χ 2 = ∑∑
(hij − hij ) 2
i =1 j =1
hij
Folie 1-29
Universität Karlsruhe
IRF (Prof. D. Schmid)
Beispiele:
University of California
at Berkeley
Vorlesung “Intelligente Datenanalyse”
Mittelwerte
Streuung
x1
x2
s1
mittel
gross
gross
mittel
mittel
gross gross gross
klein
mittel
mittel gross gross
s2
Korrel.
r1, 2
x2
klein klein
x1
x2
x1
x2
x1
Universität Karlsruhe
IRF (Prof. D. Schmid)
Folie 1-30
Vorlesung “Intelligente Datenanalyse”
University of California
at Berkeley
mb-15
Vorlesung “Intelligente Datenanalye”
Universität Karlsruhe, IRF (Prof. D. Schmid)
M. Berthold, F. Feldbusch, K.-P. Huber
2.5 Test von Hypothesen
• Menschliches Handeln:
unvollständige
Information
Entscheidung
Handeln
1. Ist die Wirklichkeit diese, entscheide ich so und so
2. aufgrund der vorliegenden Information
ist die Wirklichkeit wahrscheinlich so
Tests in der Statistik: Objektivierung des Punktes 2
Folie 1-31
Universität Karlsruhe
IRF (Prof. D. Schmid)
Vorlesung “Intelligente Datenanalyse”
University of California
at Berkeley
• Gegeben: Modell (evtl. mit Parametern)
• Aufgabe: eine Hypothese über das Modell soll
anhand von Beobachtungen bestätigt werden.
• Aufstellung zweier Hypothesen über das Modell
– H1: Was bewiesen werden soll
– H0: gegenteilige Hypothese zu H1
• Für eine Beobachtung x=(x1 ...xn) ∈ Ωx wird eine
Wahrscheinlichkeit ϕ(x) angegeben mit der auf H1 zu
entscheiden ist, bzw. 1- ϕ(x) mit der auf H0 zu
entscheiden ist
Folie 1-32
Universität Karlsruhe
IRF (Prof. D. Schmid)
Vorlesung “Intelligente Datenanalyse”
University of California
at Berkeley
mb-16
Vorlesung “Intelligente Datenanalye”
Universität Karlsruhe, IRF (Prof. D. Schmid)
M. Berthold, F. Feldbusch, K.-P. Huber
• 4 Möglichkeiten
Entscheidung für
Richtig
ist
H0
H1
H0
o.k.
Fehler 2. Art
H1
Fehler 1. Art
o.k
• Lege Signifikanzniveau α fest (typ. α = 0,05)
• Ermittle kritischen Bereich A0 so, daß gilt
P(x∈A0|H1 wahr) ≤ α
α ist so zu wählen, daß Fehler 2. Art möglichst
unwahrscheinlich wird.
Folie 1-33
Universität Karlsruhe
IRF (Prof. D. Schmid)
Vorlesung “Intelligente Datenanalyse”
University of California
at Berkeley
t-Test
• Vergleich der Mittelwerte zweier Normalverteilungen
f ( x | N µ x ,σ x ) f ( y | N µ y ,σ y ) mit σx = σy
• H0: Erwartungswertx = Erwartungswerty
x, y, sx, sy empirisch
• Testgröße:
t=
x− y
(n1 − 1) s + (n2 − 1) s
2
x
2
y
Nur vom Stichprobenumfang n1
und n2 abhängig!
n1n2 (n1 + n2 − 2)
n1 + n2
Aus Bereichsschätzung des Mittelwerts der Normalverteilung
Folie 1-34
Universität Karlsruhe
IRF (Prof. D. Schmid)
Vorlesung “Intelligente Datenanalyse”
University of California
at Berkeley
mb-17
Vorlesung “Intelligente Datenanalye”
Universität Karlsruhe, IRF (Prof. D. Schmid)
M. Berthold, F. Feldbusch, K.-P. Huber
• Unter den genannten Vorraussetzungen genügt t
einer Studentschen t-Verteilung mit k = n1 + n2 - 2
Freiheitsgraden
• Student-Verteilung: t µ ,n =
n
x−µ
s
• Erfüllt die berechnete Realisierung t die Ungleichung
|t| > tα;k, so wird die Hypothese H0 verworfen !
Folie 1-35
Universität Karlsruhe
IRF (Prof. D. Schmid)
Vorlesung “Intelligente Datenanalyse”
University of California
at Berkeley
Beispiel
• Einfluß verschiedener Futter Fx und Fy auf die
Gewichtszunahme von Schweinen
• Gewichtszunahme f(x), f(y) normalverteilt mit σx = σy
aus Eigenschaft der Tiere
• n1 = n2 = 10 Tiere
• empirische Daten: x =112,1 kg; y =100,2 kg;
s 2y =86
s x2= 211;
t=
112,1 − 100,2 10 ⋅10 ⋅ (10 + 10 − 2)
= 2,2
10 + 10
9 ⋅ 211 + 9 ⋅ 86
Folie 1-36
Universität Karlsruhe
IRF (Prof. D. Schmid)
Vorlesung “Intelligente Datenanalyse”
University of California
at Berkeley
mb-18
Vorlesung “Intelligente Datenanalye”
Universität Karlsruhe, IRF (Prof. D. Schmid)
M. Berthold, F. Feldbusch, K.-P. Huber
• Signifikanzniveau α = 0,05
• Student-Verteilung: k=18; t0,05;18 = 2,101
• t > t0,05;18 => H0 wird verworfen !
• Mit einer Irrtumswahrscheinlichkeit von 5% kann
gesagt werden, daß das Futter Fx besser ist als das
Futter Fy
Folie 1-37
Universität Karlsruhe
IRF (Prof. D. Schmid)
Vorlesung “Intelligente Datenanalyse”
University of California
at Berkeley
F-Test
• Dient zur Prüfung der Hypothese σx = σy bei
Normalverteilungen
s x2
• Testgröße: F = 2
sy
• z. B. Prüfung der Genauigkeit von Meßgeräten
Folie 1-38
Universität Karlsruhe
IRF (Prof. D. Schmid)
Vorlesung “Intelligente Datenanalyse”
University of California
at Berkeley
mb-19
Vorlesung “Intelligente Datenanalye”
Universität Karlsruhe, IRF (Prof. D. Schmid)
M. Berthold, F. Feldbusch, K.-P. Huber
2.6 Vorverarbeitung
Daten
VorverVorverarbeitung
arbeitung
Merkmale
DatenanalyseDatenanalyse- Erkenntmethoden
methoden nisse
• Ziel: Datenmenge verkleinern
–
–
–
–
Merkmalsextraktion
Transformation
Dimensionsreduktion
Datenreduktion
Folie 1-39
Universität Karlsruhe
IRF (Prof. D. Schmid)
Vorlesung “Intelligente Datenanalyse”
University of California
at Berkeley
Transformation
• Normalisierung von Daten
Lineare Normalisierung:
xi′ =
xi
+ min i
max i − min i
xi′ ∈ [0,1]
Normalverteilte Normalisierung:
xi′ =
xi
+ µi
σi
µ i′ = 0.0
σ i′ = 1.0
Folie 1-40
Universität Karlsruhe
IRF (Prof. D. Schmid)
Vorlesung “Intelligente Datenanalyse”
University of California
at Berkeley
mb-20
Vorlesung “Intelligente Datenanalye”
Universität Karlsruhe, IRF (Prof. D. Schmid)
M. Berthold, F. Feldbusch, K.-P. Huber
• Koordinatentransformation
– Visualisierung
– Ausrichtung an Haupkomponenten (principal components)
Verschiedene Koordinatensysteme:
kartesisch, polar, zylindrisch
Transformationen für 2 Dimensionen:
[x´, y´, 1]=[x, y, 1]*Tranformationsmatrix
Translation
1

T (t x , t y ) =  0
t x

Rotation
0

0
1
0
1
ty
 cos α

R(α ) = − sin α
 tx

Skalierung
sin α
cos α
ty
0
sx

0 S ( s x , s y ) =  0

1
 0
0
sy
0
0
0
1
Folie 1-41
Universität Karlsruhe
IRF (Prof. D. Schmid)
Vorlesung “Intelligente Datenanalyse”
University of California
at Berkeley
• Fouriertransformation
Umwandlung einer Funktion/Datenreihe über die Zeit
in ein Frequenzspektrum
Basisfunktionen: sin(2πft), cos(2πft)
∞
H ( f ) = ∫ h(t )e − j 2πft dt
Frequenz
−∞
Einteilung des Zeit-Frequenzraumes für gefensterte
Fourier-Transformation
Zeit
Folie 1-42
Universität Karlsruhe
IRF (Prof. D. Schmid)
Vorlesung “Intelligente Datenanalyse”
University of California
at Berkeley
mb-21
Vorlesung “Intelligente Datenanalye”
Universität Karlsruhe, IRF (Prof. D. Schmid)
M. Berthold, F. Feldbusch, K.-P. Huber
• Wavelet-Transformation
Wavelet als Basis der Transformation
Ψ[
Einteilung des
Zeit-Frequenzraumes
[
Frequenz
Ψ[
[
Zeit
T (m, n) = a
−
m ∞
2
∫ f (t )Ψ (a
−m
)
t − nb dt
−∞
Folie 1-43
Universität Karlsruhe
IRF (Prof. D. Schmid)
Vorlesung “Intelligente Datenanalyse”
University of California
at Berkeley
Dimensionsreduktion
• Elimination redundanter Variablen
(Korrelationskoeffizient |σij|=1)
• Elinination verauschter Information
(warum nicht unbedingt σ ij=0?)
• Projektion in “besseren” Vektorraum,
Beispiel: Principal Component Analyse
y
0
x1
0
x2
0
x3
1
1
1
0
0
1
1
1
0
1
0
1
0
Folie 1-44
Universität Karlsruhe
IRF (Prof. D. Schmid)
Vorlesung “Intelligente Datenanalyse”
University of California
at Berkeley
mb-22
Vorlesung “Intelligente Datenanalye”
Universität Karlsruhe, IRF (Prof. D. Schmid)
M. Berthold, F. Feldbusch, K.-P. Huber
Wie findet man “wichtige” Richtungen?
• finde Kovarianzmatrix Σ
• diagonalisiere Σ:
r
w2
Σ = W -1ΛW
(W - Eigenvektoren, Λ - Eigenwerte)
r
w1
λ1
λ2
• Sortiere Eigenvektoren nach Eigenwerten
Principal Components
Alle Principal Components - kein Informationsverlust
Untermenge der ersten m PCs - minimaler Fehler
Folie 1-45
Universität Karlsruhe
IRF (Prof. D. Schmid)
University of California
at Berkeley
Vorlesung “Intelligente Datenanalyse”
Datenreduktion
• Elimination ähnlicher oder gleicher
Beobachtungen
(benötigt ein Ähnlichkeitsmass)
Ziel:
• Erkennung “typischer” Daten
• Kompression der Daten
# x1
x2
x3
a
b
c
5
4
9
4
5
0
1
1
8
# x1
x2
x3
a
b
c
4
5
5
1
1
0
5
4
5
Folie 1-46
Universität Karlsruhe
IRF (Prof. D. Schmid)
Vorlesung “Intelligente Datenanalyse”
University of California
at Berkeley
mb-23
Vorlesung “Intelligente Datenanalye”
Universität Karlsruhe, IRF (Prof. D. Schmid)
M. Berthold, F. Feldbusch, K.-P. Huber
Beispiel: Learning Vector Quantizer (LVQ) (T. Kohonen)
1) bestimme Anzahl Kluster m
2) initialisiere Kluster zufällig
r
3) betrachte eine zufällig gezogene Beobachtung
x
4) verschiebe den nächsten Nachbarn ein kleines Stück
in die Richtung von x.
r
r
r r
′ = k next + ε ( x − k next )
k next
5) wiederhole 3)+4)...
Beispiel von: http://www.neuroinformatik.ruhr-uni-bochum.de/ini/VDM/research/gsn/JavaPaper/
Folie 1-47
Universität Karlsruhe
IRF (Prof. D. Schmid)
Vorlesung “Intelligente Datenanalyse”
University of California
at Berkeley
2.7 Klassifikation
• Ist die Verteilung von Daten bekannt, kann eine
optimale Entscheidungsfunktion gefunden werden
• Theorem von Bayes:
f1 ( x1 ) f 21 ( x2 | x1 )
f (x1 | x2 ) =
f 2 ( x2 )
2
1
mit f1(x1) als a-priori Wahrscheinlichkeit für Klasse x1
und f21(x2|x1) als Verteilung der Muster der Klasse x1
und f 2 ( x2 ) = ∑ f1 ( x1 ) f 22 ( x2 | x1 ) als Dichte des Merkmalsx
vektors
1
Folie 1-48
Universität Karlsruhe
IRF (Prof. D. Schmid)
Vorlesung “Intelligente Datenanalyse”
University of California
at Berkeley
mb-24
Vorlesung “Intelligente Datenanalye”
Universität Karlsruhe, IRF (Prof. D. Schmid)
M. Berthold, F. Feldbusch, K.-P. Huber
Beispiel
• x1: Verschiedene Krankheiten (Klassen)
x2: Krankheitssymptome
• f1(x1): Wahrscheinlichkeit für das Auftreten einer
Krankheit
• f2(x2): Wahrscheinlichkeit für das Auftreten eines
Symptoms
• f21(x2|x1): Wahrscheinlichkeit des Auftretens eines
Symptoms bei gegebener Krankheit
• Gesucht: f12(x1|x2):
Wahrscheinlichkeit einer Krankheit bei einem
vorhandenen Symptom
Folie 1-49
Universität Karlsruhe
IRF (Prof. D. Schmid)
Vorlesung “Intelligente Datenanalyse”
University of California
at Berkeley
Der Gauß’sche Quadratische Klassifizierer
Annahme: Verteilung jeder Klasse ist durch eine
Normalverteilung hinreichend genau beschreibbar
r
f k (k | x ) =
1
(2π )
n/2
r r 
 1 r r
exp− ( x − µ k )T Σ k−1 ( x − µ k )
| Σk |
 2

r
1 n r
Mittelwert : µ k = ∑ xi
n i =1
Kovarianzmatrix : σ l2,k =
1 n
∑ ( xi,l − xl )( xi ,k − xk )
n i =1
Folie 1-50
Universität Karlsruhe
IRF (Prof. D. Schmid)
Vorlesung “Intelligente Datenanalyse”
University of California
at Berkeley
mb-25
Vorlesung “Intelligente Datenanalye”
Universität Karlsruhe, IRF (Prof. D. Schmid)
M. Berthold, F. Feldbusch, K.-P. Huber
Der Kernel Estimator
Annahme: Verteilung jeder Klasse ist durch eine Summe von
Normalverteilungen beschreibbar
n
r
f k (k | x ) = ∑
i =1
r r
 1 ( x − xi ) 2 
1
exp−

2
(2π )nσ
 2 σ

Zentrum der Verteilung i
liegt auf Muster i.
globale Standardabweichung σ
Folie 1-51
Universität Karlsruhe
IRF (Prof. D. Schmid)
University of California
at Berkeley
Vorlesung “Intelligente Datenanalyse”
Kernel Estimator
σ = 1,0
1.2
1
f(x)
0.8
σ = 5,0
0.6
0.4
0.2
40
37
34
31
28
25
22
19
16
13
10
7
4
1
0
X
Folie 1-52
Universität Karlsruhe
IRF (Prof. D. Schmid)
Vorlesung “Intelligente Datenanalyse”
University of California
at Berkeley
mb-26
Vorlesung “Intelligente Datenanalye”
Universität Karlsruhe, IRF (Prof. D. Schmid)
M. Berthold, F. Feldbusch, K.-P. Huber
2.8 Regressionsmodelle
Für die Bestimmung von Diskriminanzfunktionen oder
zur Approximation kontinuierlicher Funktionen gibt es
Regressionsverfahren:
Linear:
y = α o + α1 x1 + α 2 x2 + ... + α n xn
Quadratisch:
y = α o + ∑ α i xi +
n
i =1
n,n
∑β
i =1, j =1
x xj
i, j i
Einstellung der Parameter direkt oder über
z.B. Gradientenabstiegsverfahren
Folie 1-53
Universität Karlsruhe
IRF (Prof. D. Schmid)
Vorlesung “Intelligente Datenanalyse”
University of California
at Berkeley
Bewertung eines Regressionsmodelles f(x):
mittlerer Approximationsfehler:
mittlerer quadratischer Fehler:
F=
r
1 n
| yi − f ( xi ) |
∑
n i =1
r 
1  n
E=
 ∑ yi − f ( xi ) 
n  i =1

2
Folie 1-54
Universität Karlsruhe
IRF (Prof. D. Schmid)
Vorlesung “Intelligente Datenanalyse”
University of California
at Berkeley
mb-27
Vorlesung “Intelligente Datenanalye”
Universität Karlsruhe, IRF (Prof. D. Schmid)
M. Berthold, F. Feldbusch, K.-P. Huber
Beispiel:
lineare Regression
quadratische Regression
3, 5
3,5
3
3
2,5
2, 5
2
2
y
y
f (x)
f (x)
1,5
1, 5
1
1
0,5
0, 5
0
0
x
f linear ( x ) =
x
1
x +1
30
Flinear = 0,25
f quadratisch ( x) =
1 2
x + 1,25
1500
Fquadratisch = 0,24
Folie 1-55
Universität Karlsruhe
IRF (Prof. D. Schmid)
Vorlesung “Intelligente Datenanalyse”
University of California
at Berkeley
mb-28
Document
Kategorie
Gesundheitswesen
Seitenansichten
2
Dateigröße
154 KB
Tags
1/--Seiten
melden