close

Anmelden

Neues Passwort anfordern?

Anmeldung mit OpenID

Hermann Fuchs - Katalog Struktur Abstraktion März 2015 Seite 1

EinbettenHerunterladen
Teil I: DESKRIPTIVE ANALYSE ZUFALLSBEEINFLUSSTER DATEN
In der Deskriptiven Statistik werden Daten an sog. Untersuchungseinheiten (z.B.
Personen) erfasst und rein beschreibend ausgewertet. Dabei geben Stichproben
stellvertretend für die „Masse“ Auskunft über bestimmte Eigenschaften.
Grundlegende Bezeichnungen in der Deskriptiven (Beschreibenden) Statistik:
 Grundgesamtheit bzw. Population: Gesamtheit aller interessierenden „Fälle“
(Subjekte bzw. Objekte)  Zielgruppe
 Stichprobe (SP) vom Umfang n: Teilmenge von
aus der Population
unter bestimmten Gesichtspunkten ausgewählten Subjekte / Objekte
 Vpn: Versuchsperson, die für eine Stichprobe ausgewählt wurde
Aufgaben der Deskriptiven (Beschreibenden) Statistik
 Beschreibung und Auswertung erhobener Daten mit statistischen Methoden:
o Ordnen, Strukturieren, Systematisieren
o Übersichtliche Präsentation (Tabellen, grafische Darstellung)
o Zusammenfassung von Eigenschaften durch geeignete Kennzahlen
9
Grenzen der Deskriptiven Statistik:
 Aussagen sind ausschließlich auf einen konkreten Datensatz bezogen!!!
 Verallgemeinerungen/Rückschlüsse auf Allgemeinheit  Induktive Statistik
1)
MERKMALE UND IHRE
BEOBACHTETEN
VERTEILUNGEN
In der Statistik heißt eine erhobene Größe X „Merkmal“ oder auch statistische
„Variable“ und die möglichen X-Werte nennt man „(Merkmals)-Ausprägungen“.
Definition: (Merkmal)
Ein Merkmal  ist eine Abbildung von einer Grundgesamtheit in einen Wertebereich M. Jedem Fall wird dabei ein Wert x des Merkmals X zugeordnet.
Bsp: Grundgesamtheit
Rentner in der BRD
Einwohner Europas
Teebeutel (Kamillentee)
Merkmal 
Lebenszufriedenheit
Augenfarbe
Füllmenge in g
Wertebereich M
Intervall
- Merkmal X: Was wird gemessen oder erfragt oder eingeschätzt?
- Population: Von wem will man Informationen bezüglich X haben?
- Wertebereich M von X: Welche Spanne an Messwerten (Antworten...) ist mgl?
10
 Beziehung zwischen Wahrscheinlichkeitstheorie und Deskriptiver Statistik:
- zufällige Auswahl von
ℕ Testpersonen („Vpn“) bzw. Testobjekten aus
der Population entspricht -fachem Durchführen eines Zufallsexperimentes
- Erfassen einer Eigenschaft X pro Vpn in SP ergibt X-Werte
1.1) SKALEN- (auch „SKALIERUNGS“)-TYPEN VON MERKMALEN
Die Anwendbarkeit vieler statistischer Methoden hängt davon ab, welche Rechenoperationen der Wertebereich M eines Merkmals erlaubt  Klassifizierung nötig
(z.B. nicht sinnvoll: durchschnittliches Geschlecht, Kreisdiagramm Körpergröße)
Definition: Skalentypen von Merkmalen
Skala
Maximal mgl. Operationen in M
Merkmals-Beispiele
Nationalität, Blutgruppe
nominal
(X-Wertigkeit ist rein qualitativ)
Gütesiegel, Zustimmungsordinal
; außerdem
(Wertebereich
grad, Therapie-Wirksamkeit
besitzt eine objektive Rangordnung)
Körpertemperatur, Bodymetrisch
,
; außerdem sind gleiche
Mass-Index, Produktpreis in
Differenzen gleich interpretierbar und
Rechenoperationen sinnvoll anwendbar €, Länge von Kelchblättern
Dichotome Merkmale:- nur 2 Ausprägungen, die sich gegenseitig ausschließen
11
Bemerkungen zur Klassifikation von Merkmalen:
 Manche Eigenschaften können prinzipiell in nominaler, ordinaler oder auch in
metrischer Weise erfasst werden. Wichtig für die konkrete Datenanalyse ist:
Mit welchem Skalierungstyp ist das Merkmal X im Datensatz erfasst worden?
 Ordinale Merkmale mit sehr feiner Skala werden häufig wie metrische
Merkmale ausgewertet bzw. schon wie ein metrisches Merkmal gemessen.
Die originalen Messwerte (sogenannte Rohdaten) werden als Urliste bezeichnet.
Bsp. Fragebogenausschnitt
1. Wie alt sind Sie? ___ Jahre
2. Wie oft fahren Sie in HGW Fahrrad? □nie □selten □mittelmäßig □sehr oft □tägl.
3. Welche Informationsquellen nutzen Sie, um Aktuelles über HGW zu erfahren?
□Fernsehen
□Tageszeitung
□Illustrierte/Stadtmagazin
□Radio
□Internet
□Bekannte/Freunde □Familie
□Sonstiges
- Variablen mit Einfachantworten: • direkte Angaben (z.B. Alter) übernehmen
• Kodierung für Ja / Nein-Fragen:
• bei Farben, Berufen, Rating usw:
bzw. bei Zustimmungsverhalten auch
12
- Variablen mit Mehrfachfachantworten: pro Antwortmgl.keit eine 0-1-Variable
 zugehörige Rohdatenmatrix im Bsp. (fiktive Angaben):
Alter Rad InfoTV InfoWeb InfoTZ InfoB InfoIlu InfoFam InfoFunk InfoSonst
20
4
0
1
0
1
0
0
1
0
65
2
1
0
1
1
1
1
1
0
...
...
...
...
...
...
...
...
...
...
16
5
0
0
0
1
0
1
1
1
(Fr. 2: 1=nie, 2=selten, 3=mittelmäßig, 4=sehr oft, 5=tgl; Fr. 3: 0=Nein, 1=Ja pro Quelle)
1.2) 1D-HÄUFIGKEITSVERTEILUNGEN: DARSTELLUNG,KENNWERTE
1D: univariate deskriptive Datenanalyse 2D: bivariate deskriptive Datenanalyse
- Darstellung der Verteilung einer
- 2 Variablen X und Y ordnen 2 Werte
(x,y) zu (z.B. X: Blutgr. ; Y: Rh-Faktor)
Variable X  1-dim. Fall: „1D“
- Kennwerte (z.B. Lage-und Streupara pro Vpn: Paar von
-Angaben
meter) drücken wesentliche Eigen- zusätzlich zu Verteilungsdarstellung:
schaften der Verteilung von X aus
Analyse eines eventuell vorliegenden
Zusammenhanges zwischen X und Y
13
Definition (Häufigkeitsverteilung eines Merkmals X bezogen auf n Messwerte)
Seien
die an
Testpersonen/-objekten erfassten Ausprägungen
eines Merkmals X. Dann gilt:
 Die zugehörige Häufigkeitsverteilung von X gibt an, welche
verschiedenen Merkmalswerte
auftraten und wie häufig diese unter den
Fällen waren (absolute/relative Häufigkeit
bzw.
).
 Die zugehörige (empirische) Verteilungsfunktion F („Summenhäufigkeitsfunktion“) von X gibt alle
unterschiedlichen Merkmalswerte
∑
und deren kumulierte relative Häufigkeiten
( ) an.
 Darstellung von Häufigkeitsverteilungen: Häufigkeitstabelle bzw. Grafik
Bsp1: Häufigkeitstabelle einer Klassenarbeit (
X-Werte
: Zensur
absolute Häufigkeit
relative Häufigkeit
kumulierte (d.h. aufsummierte) relative Häufigkeit
-
;
)
1
6
0.2
0.2
2
12
0.4
0.6
3
9
0.3
0.9
4
3
0.1
1
der Schüler erhielt die Zensur
aller Schüler erhielt Zensur oder besser ( d.h. Note 2 oder kleiner)
14
Bsp2: Häufigkeitstabelle der Körpergrößen von
X-Werte in cm: Intervalle
absolute Häufigkeit
relative Häufigkeit
kumulierte relative Häufigkeit
-
3
0.3
0.3
der Frauen hatte eine Körpergröße
der Frauen war kleiner als 175 cm (
Frauen
6
0.6
0.9
1
0.1
1
, aber
)
Der Skalentyp, mit dem ein Merkmal X erfasst wurde, bestimmt den DiagrammTyp bei der grafischen Veranschaulichung der Verteilung von X.
Übliche Grafiken für Häufigkeitsverteilungen abhängig vom Skalierungstyp:
X nominal erfasst
Kreis / Tortendiagramm
X ordinal erhoben
X metrisch erfasst
Balken / Säulendiagramm
Histogramm
Bem: Balkendiagramme werden auch für nominale Merkmale mit vielen Ausprägungen sowie für metrische Merkmale mit überschaubar vielen Werten verwendet
15
Bsp:
X: Blutgruppe (nominal)
Y: Sportliche Aktivität in der Freizeit (ordinal)
AB
B
0
A
Konstruktion eines Histogramms:
 Klassen [xi,xi+1 [ aufsteigend wählen, auf X-Werte-Achse abtragen
 "Klassenhäufigkeit hi" = Anteil der Daten innerhalb des Intervalls [xi,xi+1 [
wird als Fläche hi eines Rechteckes über diesem Intervall dargestellt
 gesamte Histogramm-Fläche entspricht 100%
 Interpretation der Rechteck-Höhen als Häufigkeit (wie bei Balken) nur bei
identischen Klassenbreiten erlaubt (ist i.a. Standard bei Statistik Software)
16
Bsp 1): Histogramm mit identischen Klassenbreiten
Merkmal X (metrisch): Cholesterin
von erwachsenen Bundesbürgern
(in
)
Bsp 2): Histogramm mit unterschiedlichen Klassenbreiten
Büro-Lärm in dB
[0,50[ [50,60[ [60,80]
rel.Klassenhäufigkeit hi 0.5
0.4
0.1
Klassenbreite ai
50
10
20
0.01 0.04 0.005
Klassenhöhe bi = hi ai
17
Unterschiede Balkendiagramm / Histogramm:
 Balkendiagramm: isolierte X-Werte, Einheitsabstand zwischen je zwei der aufgetretenen Werte (auch bei ungleichen Abständen, z.B: 18,24,28,29,30 Jahre)
 Histogramm: Achseneinteilung wird durch Maßeinheit der Daten vorgeschrieben
 Histogramm: Rechteck-Flächen „kleben“ aneinander, leere Klassen möglich
Ausblick: Bei Kenntnis diverser Modellverteilungen (Wahrscheinlichkeitstheorie)
kann Begründung für Form/Symmetrie von Daten-Verteilungen gegeben werden.
1.2.1) KENNWERTE FÜR DAS ZENTRUMM EINER 1D-VERTEILUNG
Die Häufigkeitsverteilung einer Merkmalsspalte X informiert vollständig über die
erfassten Werte im Datensatz, gibt aber keine Kurzeinschätzung der Situation.
 Lageparameter: soll „typischen X-Wert“ einer Verteilung symbolisieren
„Lage-Maß der zentralen Tendenz“ = „Mitte“ der Verteilung der X-Werte
Konzepte für „Mittelwerte“: a) am häufigsten beobachteter X-Wert (Modalwert)
b) "gerechte Daten-Teilung" (Median)
c) Gleichgewichtspunkt d. Verteilung (Durchschnitt)
18
Nicht jedes Mittelwertkonzept ist sinnvoll interpretierbar für jeden Skalierungstyp!!!
1. Modalwert : prinzipiell anwendbar für alle 3 Skalierungstypen
2. Median: nicht anwendbar für nominal erfasste Merkmale
3. Durchschnitt : nicht sinnvoll für nominal bzw. ordinal erfasste Merkmale
Definition (Modalwert (Modus) bei n erfassten X-Messwerten)
Seien
die an
Testpersonen/-objekten erfassten Werte eines
nominal, ordinal oder metrisch erhobenen Merkmals X.
Gibt es einen Wert , so dass
( ) für alle anderen Werte
so heißt
Modus xMod (bzw. Modalwert) der Häufigkeitsverteilung von X.
gilt,
im Bsp: Modalwert xMod = Zensur 2
4
0.1
Es gilt
X-Werte: Zensur
1
2
relative Häufigkeit 0.2 0.4
( ) für alle anderen Zensuren
3
0.3
 Modus
Bem: Wäre im Bsp.
und
, könnte der
Modalwert nicht angegeben werden (keine eindeutige maximale Häufigkeit).
19
Lassen sich die Daten von klein nach groß ordnen, ist der Median ̃ bestimmbar.
Interpretation: Mindestens 50% der Messwerte  ̃ ; mind. 50% Messwerte  ̃
Definition (Median einer Häufigkeitsverteilung bezogen auf n Messwerte)
Sei X ein ordinales oder metrisches Merkmal und x1.  x2.  ...  xn. die
geordnete Datenliste der insgesamt erfassten
X-Messwerte.
Das Median ̃ ist dann folgendermaßen definiert:
 wenn n ungerade ist  ̃ ist der Messwert "in der Mitte" der Liste ̃
 wenn n gerade ist  Median ̃ liegt "zwischen den 2 „mittleren" Werten der
geordneten Datenliste: ̃
Bsp 1:
ungerade (Urliste:
Messwerte: 17, 9, 7, 6, 11)
o Schritt 1: Messreihe ordnen 
o Schritt 2: ̃
 Median ist der dritte Wert: ̃
o Schritt 3: Interpretation: Mindestens die Hälfte aller Messwerte ist
20
Bsp 2: Häufigkeitstabelle Zensuren:
X-Werte: Zensur
1
2
relative Häufigkeit 0.2 0.4
3
0.3
4
0.1
 bei
Schülern: 6x Zensur 1, 12x Zensur 2, 9x Zensur 3, 3x Zensur 4
 geordnete Daten: 1,1,1,1,1,1, 2,2,2,2,2,2,2,2,2,2,2,2, 3,3,3,3,3,3,3,3,3, 4,4,4
ist gerade  ̃
 der Median ist die Zensur 2
Will man den durchschnittlichen Messwert berechnen, braucht man nicht nur
geordnete Daten, man muss auch „normal“ mit den X-Werten rechnen können.
Definition („Mittelwert“ einer Häufigkeitsverteilung bezogen auf n Messwerte)
Seien
die an
Testpersonen/-objekten erfassten Werte eines
metrisches Merkmals X. Dann gilt:
Treten
unterschiedliche Merkmalswerte
mit den jeweiligen
relativen Häufigkeiten
auf, so ist der Stichproben-Mittelwert (auch
∑
„Durchschnitt“, „arithmetisches Mittel“) definiert als:
Für stark asymmetrische Verteilungen wird anstelle von der Median empfohlen,
denn reagiert sehr empfindlich auf sogenannte Ausreißer (untypische X-Werte)!
21
einzeln mit relativer Häufigkeit ⁄
1
betrachtet, ergibt sich die bekannte Formel x  n ( x1    xn )
Bem: Wird jeder Messwert
Bsp: Messreihe: 1, 2, 3, 3, 4, 4, 4, 5 ,5, 6 
k
x :  xi  hi = [ 1 ∙1+ 1 ∙2 + 2 ∙3 + 3 ∙4 + 2 ∙5 + 1 ∙6] = 3.7
10
10
10
10
10
10
i 1
1
37
x

(
1

2

3

3

4

4

4

5

5

6
)

 3.7 )
(analog:
10
10
Ausblick: Der Mittelwert spielt in der Induktiven Statistik eine große Rolle
- Hypothesentests: Spricht das in einer Stichprobe berechnete arithmetische
Mittel für einen in der zugehörigen Population vermuteten Wert ?
- Konfidenzintervall: Welches Intervall um einen Stichproben-Mittelwert
ist
eine glaubwürdige Spanne für den wahren Durchschnitt in der Population?
- Erwartungswert: Welcher X-Wert ist im Durchschnitt zu erwarten, wenn die
Verteilung bestimmten Modellvorstellungen folgt (theoretische Herleitung)?
22
1.2.2) KENNGRÖSSEN FÜR DIE STREUUNG EINER 1D-VERTEILUNG
Mittelwerte geben die charakteristische Ausprägung einer Messreihe an, sagen
aber nichts über das Ausmaß an Variabilität in den Daten aus.
 Streuparameter nötig (soll die „Spanne der typischen X-Werte“ angeben)
sinnvolle Mittelwerte
sinnvolle Streuparameter
X nominal
Modalwert
Entropie
X ordinal
Modalwert, Median
Entropie, Interquartilsabstand (IQR)
Median, Durschschnitt
(IQR), Standardabweichung (SD)
X metrisch
Definition (Entropie bei n erfassten X-Messwerten)
Seien
die an
Testpersonen/-objekten erfassten Werte eines
nominal, ordinal oder metrisch erhobenen Merkmals X.
Treten
unterschiedliche Merkmalswerte
mit den relativen Häufig-
k
keiten
hi  log 2 hi die zugehörige Entropie.
auf, so ist H ( X ) : 
i 1
23
Können die Daten geordnet werden, ist der zum Median passende Interquartilsabstand die geeignete Kennzahl für die Streuung der Daten.
Interpretation: Der IQR ist das Ausmaß eines Bereiches von Messwerten um den
Median herum, das 50% der Daten enthält, wobei 25%  ̃ ; 25% Messwerte  ̃
Definition (IQR einer Häufigkeitsverteilung bezogen auf n Messwerte)
Sei X ein ordinales oder metrisches Merkmal und x1.  x2.  ...  xn. die
geordnete Datenliste der erfassten
Messwerte sowie ̃ deren Median.
Der Interquartilsabstand der Verteilung von X ist die Differenz zwischen dem
oberen Quartil ̃
und unteren Quartil ̃

̃
̃
 wenn n gerade ist  ̃
wird wie „Median“ der
Messwerte
̃ bestimmt
̃
wird wie „Median“ der
 wenn n ungerade  ̃
wird wie „Median“ der
Messwerte
̃ bestimmt
̃
wird wie „Median“ der
Messwerte
̃ bestimmt
Messwerte
̃ bestimmt
24
Bsp: Zensuren:
gerade  je
X-Werte unter- / oberhalb vom Median
- geordnete Daten: 1,1,1,1,1,1,2,2,2,2,2,2,2,2,2, 2,2,2,3,3,3,3,3,3,3,3,3,4,4,4
o ̃
ist der mittlere (8.te) Wert der „unteren 15 X-Messwerte“
õ
̃
,̃
ist der mittlere (8.te) Wert der „oberen 15 X-Messwerte“

̃
̃
(Median ̃
)
Interpretation (grob): Die zentralen 50% der Zensuren variieren um eine Note.
25
Kann mit den Daten sinnvoll gerechnet werden, ist die Standardabweichung
(SD) der gängige Streuparameter (Streubreite der Daten um Mittelwert
herum).
Interpretation (grob): Die Standardabweichung ist ein Maß für die durchschnittliche Abweichung aller Messwerte
von deren Durchschnitt
(für genauere Aussagen sind Angaben zum Verteilungstyp (Form, Symmetrie,…) nötig.
 Durchschnitt aller Abweichungen von
wäre laut Def.: ∑
 Problem1: Für jede Messreihe kommt „Null“ heraus: ∑
im Bsp. 1, 2, 3, 3, 4, 4, 4, 5, 5, 6 mit
∑
 Problem2: Beträge ∑
liefern auch kein optimales Streumaß
 Lösung: Differenzen alle quadrieren, Wurzel aus Summen-Ergebnis ziehen
Im Bsp.
1, 2, 3, 3, 4, 4, 4, 5, 5, 6 mit
 ∑

√
26
Definition (beob. Varianz und Standardabweichung bezogen auf n Messwerte)
Seien
die an
Testpersonen/-objekten erfassten Werte eines
metrisches Merkmals X. Treten
verschiedene Merkmalswerte
mit den relativen Häufigkeiten
auf und ist
der StichprobenMittelwert, so gibt es für die Berechnung der beobachteten Varianz
der X-Messwerte die folgenden zwei Rechenwege:
∑

(Definitions-Formel)

∑
Die Wurzel
(kurz
)
(sogenannte Verschiebesatz-Formel)
√
ist die beobachtete Standardabweichung
(kurz:
).
 Varianzberechnung für das Bsp. 1, 2, 3, 3, 4, 4, 4, 5, 5, 6 mit
∑
∑
27
Bemerkungen zur Varianz und Standardabweichung
1. Wird jeder der
 Definition:
X-Messwerte einzeln berücksichtigt, lauten die Formeln:
∑
∑
∑
( ∑
 Verschiebesatz:
∑
)
Bsp: X-Messwerte:

- Definition:
∑
[
]
- quadrierte X-Messwerte:
mit ihrem Mittelwert
- Verschiebesatz:
(
∑
)
 Standardabweichung SD:
√
√
28
2. Mittels der Formel
∑
wird nicht die beobachtete, sondern
die aus der SP für die zugehörige Population geschätzte Varianz ̂ berechnet. Die Wurzel daraus ̂ √ ̂ heißt geschätzte Standardabweichung.
3. Für die wahre Populationsvarianz und auch für die Varianz von (theoretisch
hergeleiteten) Verteilungsmodellen wird als Bezeichnung
verwendet.
Konzept aus der
Wahrscheinlichkeitstheorie
Wahrscheinlichkeit
Entsprechung in der Beschreibenden
Statistik von SP-Daten
relative Häufigkeit
Wahrscheinlichkeitsverteilung /
Verteilungsfunktion einer ZG X
( X-Werte mit Wahrscheinlichkeiten)
„empirische“ bzw. „“beobachtete“
Verteilung / Verteilungsfunktion von X
( X-Werte mit Häufigkeiten)
Modus
, Median ̃ ,
Erwartungswert 
Modus
, Median ̃ ,
SP-Mittelwert ̅
IQR ̃
̃
, Varianz 2,
Standardabweichung 
IQR ̃
̃
, SP-Varianz s2,
SP-Standardabweichung s
29
1.2.3) VERTEILUNGSDARSTELLUNG MIT MITTELWERT/ STREUUNG
- Merkmal ordinal bzw. metrisch erfasst "Box-and Whisker-Plot" (kurz Boxplot)
veranschaulicht Datenspanne, Median, IQR grafisch und weist Ausreißer aus
Konstruktion eines Boxplots:
- Merkmalsachse einteilen und beschriften
Bsp: 1, 2, 3, 3, 4, 4, 4, 5 ,5, 6
1. Schritt: Box
o Quartile ̃
und ̃
bestimmen
o Box mit Kantenlänge
̃
̃
parallel zur Merkmalsachse zeichnen
o Median ̃ bestimmen und als fette Linie
in die Box einzeichnen
2. Schritt: Antennen
o unteres Antennen-Ende: kleinster X̃
Messwert in ̃
o oberes Antennen-Ende: größter X̃
Messwert in ̃
3.Schritt: Ausreißer (nur, wenn vorhanden)
- Symbol ○ für X-Werte mit Abstand
- Symbol * für X-Werte mit Abstand
von ̃
bzw. ̃
von Boxenden ̃
bzw. ̃
30
Auswertung / Interpretation eines gegebenen Boxplots
 Welches Merkmal X wurde erfasst?
 Wie ist X im Mittel in der Stichprobe ausgeprägt?  Median ablesen
 Wie stark variiert (streut) X in der Stichprobe?  Datenspanne, IQR ablesen
 Ist X in SP relativ homogen verteilt?  Antennen/Box-Symmetrie analysieren
Bsp1: (Datenmaterial Gruppe 13/14)
- erfasstes Merkmal X: Alter in Jahren
- Median ̃
 mittleres Alter war
20 Jahre (50% war 20 J. oder jünger)
- ̃
, ̃

, d.h.
die Streuung der zentralen 50%
„typischen“ Altersangaben betrug 2 J.
- Ausreißer:
o 4 „auffällig untypische“ Altersangaben * (Vpn Nr. 74,73,11,57)
o 4 „moderat untypische“ Altersangaben○ (Vpn Nr. 94,112,115,116)
- Altersverteilung stark asymmetrisch:
Altersspanne oberhalb Median viel
größer als Alterspanne unterhalb ̃
31
Bsp2: Beziehung zwischen Histogramm
(bzw. Balkendiagramm) und Boxplot
Histogramm
Median
Boxplot
32
- Merkmal metrisch  Standardisieren (Normieren auf Mittel
, Streuung
)
der Verteilung, z.B. für vergleichende Analysen bzw. statistische Verfahren mgl.
Standardisieren
Seien
die Werte eines metrisches Merkmals X, welches an
Testpersonen/-objekten erfasst wurde sowie
der zugehörige StichprobenMittelwert und
die beobachtete Stichproben-Standardabweichung.
Dann erfolgt das Standardisieren der Häufigkeitsverteilung von X durch die
Anwendung der Z-Transformation
auf jeden der Werte
.
Bsp: Klausur
Punkteverteilung
im 1-, 2-, 3-fachen
Streubereich um
den Durchschnitt
(grün: WiSe12/13
rot: WiSe13/14)
33
1.3) 2D-HÄUFIGKEITSVERTEILUNGEN: DARSTELLUNG,KENNWERTE
- gleichzeitige Erfassung zweier Merkmale X,Y an Untersuchungseinheiten
 2-dimensionale (2D) SP mit den Wertepaaren
- gängige Darstellungsvarianten der zugehörigen gemeinsamen Verteilung:
 gruppierte Grafiken (bedingte Verteilungen); 1D-Kennwerte pro Gruppe
 2-dim.-Diagramme/Tabellen der
-Messwertpaare; 2D-Kennwerte
Gruppierte Grafiken: Sei X nominal bzw. ordinal und Y wie folgt skaliert:
 für Y nominal: ein Kreisdiagramm pro X-Ausprägung
 für Y ordinal: ein Balkendiagramm pro X-Ausprägung ; gruppierter Boxplot
 für Y metrisch: ein Histogramm pro X-Ausprägung ; gruppierter Boxplot
34
Tabellarische Darstellung von 2D-Verteilungen:
Messwertpaare
 Angabe von Paar-und Randhäufigkeiten in Kreuztabellen (Kontingenztafeln)
o
o
o
o
Zeilen für Ausprägungen
von X (bzw.
X-Werte-Intervalle)
Spalten für Ausprägungen
von Y (bzw. Y-Werte-Intervalle)
"Kreuzungen“ mit eingetragenen Paar-Häufigkeiten
bzw.
-Spalte, -Zeile: 1D-(Rand)-Verteilung von , 1D-(Rand)-Verteilung von
Bsp 1: X:Geschlecht, Y:Rauchverhalten, n=200 Vpn
X\Y
F
R
NR

X\Y R
F
M
M






NR

1
110 der insgesamt 200 Vpn waren weibliche Nichtraucher (entspricht 55%)
40 der insgesamt 200 Vpn waren männlich und außerdem Raucher
Die 200 Vpn teilten sich in 80 rauchende und 120 nicht rauchende Personen.
Unter allen betrachteten Vpn (100%) gab es 75% Frauen und 25% Männer.
35
Bsp.2): X: Geschlecht, Y: Jahres-Einstiegsgehalt (Brutto) Intervalle statt Werte
Count
Geschlecht
Total
weiblich
männlich
8000-26000
215
201
416
Jahres-Einstiegsgehalt (Brutt o)
26000-44000
44000-62000
1
50
6
51
6
Grafische Darstellung von 2D-Verteilungen:
o
o
62000-80000
1
1
Total
216
258
474
Messwertpaare
X,Y nominal/ordinal  räumliches Balkendiagramm möglich (Balken-Höhe
entspricht Paar-Häufigkeit einer
)-Wertekombination)
X,Y beide metrisch erfasst  Streudiagramm (Scatterplot) üblich
Bemerkungen zum Streudiagramm (2D Koordinatensystem):
 X-Achse, Y-Achse gemäß der erfassten Merkmale X,Y beschriften, einteilen
 jedes Daten-Wertepaar
wird als Punkt in das Diagramm eingezeichnet
 tritt eine Ausprägung (z.B. (x=20cm,y=20cm)) mehrfach im Datensatz auf,
erscheint der zugehörige Punkt trotzdem nur einmal (wird evtl. fetter gedruckt)
 „Mitte“ der Punktwolke kann durch 2D-Mittelwert (
) beschrieben werden,
wobei
sowie die arithmetischen Mittel der X-Werte und Y-Werte sind
36
Bsp: X: Handspanne rechts in cm,
Y: Handspanne links (in cm)
Testperson mit x=19,5cm
(rechts) und y=17cm (links)
1.4) DIE GRUNDIDEE VON KONTINGENZ UND KORRELATION
- treten in einem Datensatz bestimmte Ausprägungen von X vorzugsweise mit
bestimmten Ausprägungen von Y auf  zwischen X,Y liegt ein Zusammenhang
nahe (z.B. X: Berufsgruppe, Y: Anzahl Arbeitsunfälle pro Jahr)
- treten Y-Werte unabhängig vom X-Wert aufkein Zusammenhang naheliegend
1. Frage: Zeigen die X/Y-Daten überhaupt einen Zusammenhang (irgendeiner
Art) ?  Klärung mittels Berechnung von Kontingenzmaßen
2. Frage: Weisen die X/Y-Daten einen bestimmten Typ von Zusammenhang
auf ?  Klärung mittels Berechnung von Korrelationsmaßen
37
3. Frage: Lässt sich die Abhängigkeit der Y-Daten von den X-Daten mittels
eines bestimmten Modells erklären?Regressionsanalyse (Kap.10)
Welche Formel für die Zusammenhangs-Kennzahl zu verwenden ist, richtet sich:
 nach der Art d. Zusammenhanges (allg./speziell), der überprüft werden soll
 nach dem Skalierungstyp der erfassten Merkmale X,Y
Kontigenzmaße
Korrelationsmaße
RangkorrelationsKorrelationskoeffizienten
koeffizienten
- werten Häufigkeiten aus
- werten „Platz-Nr.“ aus - werten „Positionen“ von
- X,Y müssen mindestens
- X,Y müssen beide
-Wertepaaren aus
nominal erfasst sein
mindestens ordinal
- X,Y müssen beide
erfasst sein
metrisch erfasst sein
 Kontingenzmaße: Wertebereich
; prüfen Grad eines Zusammenhanges
 Korrelationsmaße: Bereich
; prüfen Abhängigkeits-Art, -Grad,-Richtung
Bem: - jetzt: Zusammenhangsmaße bezogen auf beobachtete konkrete Daten
- später: „Hochrechnung“ auf die volle Grundgesamtheit (z.B. UA-Tests)
38
Beispiele:
1. Ist die bevorzugte Hand (L/R) abhängig oder unabhängig vom Geschlecht?
 X,Y nominal; Zusammenhangsart: unspezifisch
2. Geht eine schwache bzw. eher starke Durchsetzungsfähigkeit typischerweise
einher mit einem entsprechend ähnlichen Grad an Gewissenhaftigkeit ?
 X,Y ordinal; Zusammenhangsart: gerichtet, rangwertig
3. Steigt bei Postpaketen mit größerem Volumen i.a. das Gewicht linear an?
 X,Y metrisch; Zusammenhangsart: gerichtet, funktional
Folgende Begriffe werden üblicherweise mit folgender Bedeutung verwendet:
- X,Y heißen unabhängig, wenn überhaupt kein Zusammenhang besteht
- X,Y heißen unkorreliert, wenn ein spezieller Zusammenhang (der mit dem
entsprechenden Koeffizienten untersucht wird) zwischen X,Y nicht vorliegt
1.5)
ZUSAMMENHANGSANALYSE AUF NOMINALEM
NIVEAU
Idee: 2 Variablen X,Y hängen (aus statistischer Sicht) in keinerlei Weise zuzusammen, wenn für jede Ausprägung der einen Variable die gleiche
zugehörige bedingte Verteilung bzgl. der der anderen Variablen vorliegt
39
Bedingte Verteilungen, wenn kein Zusammenhang zwischen X und Y vorliegt:
 egal, ob Mann oder Frau, bei beiden Geschlechtern je 8% LH und 92%RH
 pro ABO-Blutgruppe
gibt es je 85% Rh-Positive,15% Rh-Negative
Bsp: Variable X: Rauchverhalten, Variable Y: Hauttyp, n=100
Absolute Häufigkeiten
X\Y
R
NR

Hell Mittel Dunkel

12
20
8
40
18
30
12
60
n=100
30
50
20
Hauttyp-Verteilung bezogen auf 100% Bev:
Hell
Mittel
Dunkel
• Bedingte Hauttyp-Verteilung bei R:
Hell
Mittel
Dunkel
• Bedingte Hauttyp-Verteilung bei NR:
Hell
Mittel
Dunkel
 kein Zus.hang, denn bei beiden
Geschlechtern gibt es jeweils 30% hellen,
50% mittleren, 20% dunklen Hauttyp 40
Liegen für zwei Merkmale X,Y insgesamt
Messwertpaare vor, deren
2D-Häufigkeitsverteilung durch eine Kreuztabelle mit
X-Werten
(bzw. Klassen) und
Y-Werten
(bzw. Klassen) beschrieben ist, so
erwartet man bei Unabhängigkeit von X,Y für alle
folgende Paar-Häufigkeiten:
Eij
H_ j
Hi _  H _ j

E 
Hi _
n  ij
n
erwartete absolute Häufigkeit in Kreuzungs-Zelle
beobachtete absolute
Häufigkeit am
-ten Zeilenende
Bsp1: X: Rauchverhalten, Y: Geschlecht
Hier gilt:
Die beobachtete 2D-Verteilung von X,Y
(rot) weicht von der erwarteten Verteilung bei Unabhängigkeit (blau) ab.
beobachtete absolute
Häufigkeit am
-ten Spaltenende
Hij NR R 
♀ 15 45 60
♂ 15 25 40
 30 70 n=100
Eij NR R 
 ♀ 18= 42 60
30  60
100
♂ 12
 30
28 40
70 100
41
Bemerkungen:
 Gibt man sich absolute Randhäufigkeiten Hi_ und H_j vor, so führt die Formel
für UA häufig zu Einträgen Eij, die nicht ganzzahlig (und damit nicht beobachtbar sind (Hauttyp-Bsp., aber n=10; 3H, 5M, 2D; 4R, 6NR → E11=1.2))
 Je stärker sich die gruppierten Balkendiagramme (bis auf Skalierung) unterscheiden, desto stärker weicht die 2D-Verteilung von Unabhängigkeit ab.
starke Abweichung
mittlere Abweichung
perfekte Unabhängigkeit
1.5.1) KENNZAHLEN FÜR ABWEICHUNG VON UNABHÄNGIGKEIT
Kontingenz: Wie stark weicht eine beob. 2D-Verteilung von Unabhängigkeit ab?
Basis: Vergleich jeder beob. Paar-Häufigkeit
mit Erwartung
bei Unabh.keit
42
Aussagekraft von berechneten Kontingenzmaßen:
 bei idealer Unabhängigkeit, (bzw. nahe ) bei max. Abhängigkeit von X,Y
 eindeutige Interpretation / vergleichende Auswertung sind i.a. schwierig
 keine Aussage zur Richtung eines Zusammenhanges zwischen X,Y!!!
Definition ( , lies „chi-Quadrat“)
Für 2 Merkmale X ( Werte bzw. Klassen) und Y ( Werte bzw. Klassen) seien
die beobachteten absoluten Häufigkeiten der
Messwertpaare. Dann ist
k
m
  
2
( H ij  Eij )²
j 1 i 1
Eij
, wobei für
im Bsp:
Hij NR R 
♀ 15 45 60
♂ 15 25 40
 30 70 n=100
gilt: Eij 
;
2
Eij NR R 
 ♀ 18= 42 60
30  60
100
♂ 12
 30
28 40
70 100
2
  
2
j 1 i 1
Hi _  H _ j
n
( H ij  Eij )²
Eij
(15  18)² (45  42)² (15  12)² (25  28)²




18
42
12
28
 1.78
43
Formeln für gängige Kontingenzmaße auf 2-Basis:
2

 Phi-Kontingenzkoeffizient
n
(ungeeignet für >2x2-Tabellen)
C
 Pearson-Kontingenzkoeffizient:
2
2  n
(Cmax abhängig von Anzahl Zeilen und Spalten)
 Cramer`s V: (bei 2x2-Tab.= Phi-Koeff.)
Dimension d. Kreuztabelle sowie
V
2
n  ( min (# Zeilen, #Spalten)  1 )
beeinflussen die Kontingenzmaß-Formeln!
im Bsp:

2
1.78
1.78
1.78
 0.1334

 0.1334 , C 
 0.1322 V 
100  ( 2  1 )
n
100
1.78  100
,
Im Datensatz zeigen X:Rauchverhalten, Y:Geschlecht sehr geringen Zus.hang.
44
1.6)
ZUSAMMENHANGSANALYSE
AUF
ORDINALEM
NIVEAU
Idee: Rangwertiger Zusammenhang von X,Y-Werten im Datensatz besteht, wenn
bestimmte X-u nd Y-Wertigkeiten („Platz-Nr.“) vorzugsweise gepaart auftreten:
- hohe X-Werte überwiegend gekoppelt mit hohen Y-Werten (und niedrig/niedrig)
 gleichsinnige („positive“) Rangkorrelation
- hohe X-Werte meist gekoppelt mit niedrigen Y-Werten (und andersherum)
 gegensinnige („negative“) Rangkorrelation
Aussagekraft von Rangkorrelationsmaßen:
 Stärke:
- liegt keine Rangkorrelation der X- und Y-Werte vor  Ergebnis 0
- liegt schwache /starke Rangkorrelation vor  Betrag klein/groß
 Richtung: - bei gleichsinniger rangwertige Abhängigkeit  Ergebnis > 0
- bei gegensinniger rangwertige Abhängigkeit  Ergebnis < 0
Auswertung: Je näher der berechnete Wert eines Rangkorrelationskoeffizienten:
- an 0, desto schwächer ist ein rangwertiger Zusammenhang von X,Y in der SP
- an +1, desto stärker gleichläufig (gleichsinnig) ausgeprägt ist X,Y-Rangkorr. …
- an -1, desto stärker gegenläufig (gegensinnig) ausgeprägt ist X,Y-Rangkorr. …
45
Bem: Rangkorrelationskoeffizienten „erkennen“ Auf- bzw. Abwärtstrend in den Daten, aber nicht, ob dieser Trend z.B. linearer oder exponentieller Natur ist!
2 Bewertungs-Prinzipien: a) Rang-Differenzen pro Vpn;
 n  n(n  1)
b)  2   2
paarweise Vergleiche
 
Definition (Rangkorrelationskoeffizienten rs und )
X,Y seien 2 ordinale bzw. metrische Merkmale und
,…,
die
zugehörigen Wertpaare. Für die einfachste Situation "keiner Bindungen (ties)",
d.h. keiner gleichen Werte in X sowie Y gilt:
n
6 ( Rang ( xi )  Rang ( yi )) 2
i 1
1.) Spearmans rs:
rs = 1 -
n(n 2  1)
2.) Kendalls :
Anzahl konkordanter Paarvergleiche  Anzahl diskonkordanter Paarvergleiche
n(n  1)
=
2
46
xn
x1
Daten: y ,..., y : "oben" und "unten" eine bestimmte Anordnung von 1, 2, ..., n
n
1
Bsp: Casting (n=5)
Nr. der Person
X – Ausstrahlung (Rangfolge)
Y – Stimme (Rangfolge)
Differenz
I
1
3
-2
II
2
4
-2
III
5
2
+3
IV
4
5
-1
V
3
1
+2
6[(1  3)2  (2  4)2  (5  2)2  (4  5)2  (3  1)2 ]
 0.1
 Spearman: rs = 1 
5(25  1)
 Kendalls : pro Paarvergleich
xj
xi
mit
yj
yi
1 2
3 4
+
5
2
-
4 3
5 1
+ + - +
+
+ : wenn
und
(bzw.
)
- : wenn
und
(bzw.
)
 n  n(n  1) 5  4
  

 10 Paarvergleiche
2
2
 2
+ : 5 konkordante (übereinstimmende) Vergleiche
- : 5 diskonkordante (uneinige) Vergleiche

55
0
10
47
Im Datensatz zeigen X:Ausstrahlung,Y:Stimme (nahezu) keine Rangkorrelation.
Bem: - rs geht von Äquidistanz der Rangwerte aus,  nutzt rein ordinale Info
- im Falle von "Bindungen" müssen die Formeln korrigiert werden
=
# gleichläuf iger Paarvergleiche  # gegenläufi ger Paarvergleiche
(# gleichl . V .)  (# gegenl . V .)  (# x gleich ; y ungleich )  (# gleichl . V .)  (# gegenl . V .)  (# x ungleich ; y gleich )
(Paare mit
gehen dabei nicht in die Formel ein)
54
5
4


 0.105
im Bsp. würde sich für 2 anstelle von 2 ergeben:
5  4 1  5  4
1.7)
und
ZUSAMMENHANGSANALYSE
AUF METRISCHEM
NIVEAU
Idee: Wurden 2 Variablen X,Y metrisch erfasst, kann nicht nur nach einem gleichbzw. gegenläufigen Trend gesucht werden, sondern auch geprüft werden:
Frage: Zeigen die metrische Merkmale X und Y einen ganz speziellen, nämlich
funktionalen gleich/gegenläufigen Zusammenhang (im statist. Sinne)?
 folgt die X,Y-Punktwolke dem vermuteten funktionalen Trend  X,Y korreliert
 keiner oder anderer als der vermutete funktionale Trend  X,Y unkorreliert
48
1.7.1) BRAVAIS-PEARSON-KORRELATION ZWEIER VARIABLEN X,Y
Frage: Besteht zwischen 2 metrischen Merkmalen X,Y ein LINEARER Zus.hang?
Daten:
Messwertpaare; Darstellung als Streudiagramm (Scatterplot)
"Überschlag": Einschätzung der Linearen Korrelation mittels Streudiagramm
30
140
120
100
31
80
Gewicht in kg
32
29
-10
0
10
20
60
Choles terin
30
40
30
Mittlere Monatstemperatur 6 Monate nach Geburt
schwach negative
40
60
80
100
120
140
160
Bauchumfang in cm
70
20
240
60
220
50
10
200
40
0
180
-10
160
150
160
170
180
190
200
Grösse in cm
mittlere positive
80
260
Varaible Y
33
Mittlere Monatstemperatur 6 Monate nach Geburt
34
(nahezu) keine
0
2
4
6
8
10
12
month of birth
andere als
30
20
14
-10
0
10
20
30
Variable X
perfekte positive
Lineare Korrelation
 Punktwolke zufällig verteilt  kein linearer X/Y-Zusammenhang in den Daten
 Punktwolke schmiegt sich eng um fiktive Gerade  linearer Zusammenhang
- fiktive Gerade steigt (positiver Anstieg)  positive lineare Korrelation
- fiktive Gerade fällt (negativer Anstieg)  negative lineare Korrelation
Bewertungsprinzip: Wie teilt sich die Punktwolke in 4 Quadranten um (x,y) auf?
49
Definition (Beobachtete Kovarianz von n SP-Daten)
X,Y seien zwei metrische Merkmale und
,…,
die
erfassten
Wertepaare, wobei
arithmetisches Mittel der
X-Messwerte und
arithmetisches Mittel der Y-Messwerte sei. Dann gibt es für die beobachtete Kovarianz
s2XY von X und Y die folgenden zwei Berechnungsmöglichkeiten:
Definition:
2
s XY
1 n
  ( xi  x)  ( yi  y)
n i1
Illustration der Definitionsformel:
Messen der Abweichungen
jedes Punktes
der
Punktewolke vom
Schwerpunkt
 Kovarianz > 0 bei ansteigender
Punktwolke; < 0 bei fallendem
Trend;  0 bei "Ausgewogenheit"
2
s
Verschiebesatz: XY  ( x  y)  ( x  y)






































50
Nachteil der Kovarianz: Keine Ergebnis-Invarianz bezüglich Skalierungen
2
2
Für dieselben Daten gilt z.B. s XY ( X in cm, Y in g )  100  1000  s XY ( X in m, Y in kg)
 Idee: Standardisierte X,Y-Werte in Kovarianz-Formel einsetzen  Normieren
s
2
Z X , ZY
2
yi  y
yi  y
s XY
1 n xi  x
1 n xi  x
  ((
)  z X ) ((
)  zY )   (
 0) (
 0) 
n i 1
sX
sY
n i 1 s X
sY
s X  sY
Definition(Bravais-Pearson Korrelationskoeffizient (auch: Produkt-Moment-Korr.))
X,Y seien zwei metrische Merkmale und
,…,
die
erfassten
2
Wertpaare mit der beobachteten Kovarianz s XY und den Standardabweichungen
,
. Dann wird der Bravais-Pearson-Korrelationskoeffizient von X,Y
als
berechnet, d.h.:
r  rXY
2
s XY


s X  sY
1 n
( xi  x) ( yi  y )

n i 1
1 n
1 n
2
2
(
x

x
)

(
y

y
)
 i
 i
n i 1
n i 1
51
Bem1: Kovarianz und Varianz sind alternativ mittels Verschiebesatz berechenbar.
2
2
2
2
0

(
s
)

s

s
Bem2: Man kann zeigen, dass wegen
XY
X
y (Anwendung Cauchy2
2
2
Schwarz-Ungleichung) speziell folgt: 0  (sZ X ZY )  (rXY )  1  1 
Der Bravais-Pearson-Korrelationskoeffizient nimmt nur Werte in [ -1, +1 ] an.
Bsp: (fiktive Daten)
n  5, x  4, y  5
X: Produktpreis in €
Y: verkaufte Exemplare
Ex pro h
10
8
6
4
2
€
0
0
2
4
6
8
x1=2
y1=9
x2=3
y2=5
x3=4
y3=6
x4=5
y4=3
x5=6
y5=2
Bravais-Pearson-Korrelationskoeffizient:

bedeutet, dass die beobachteten
Preise X und Anzahlen verkaufter Exemplare Y
einen
stark
negativen
(d.h.
gegenläufig
gerichteten) linearen Zusammenhang zeigen
 basierend auf dem SP-Wert
kann
später mittels Korrelationstest geprüft werden, ob
generell von einem signifikanten negativen linearen
Zusammenhang zwischen Preis X und Anzahl
verkaufter Exemplare Y auszugehen ist
52
Berechnung von rXY   0.924 :

rXY
2
s XY


s X  sY
1 n
 ( xi  x) ( yi  y)
n i 1
1 n
1 n
2
( xi  x ) 
( yi  y ) 2


n i 1
n i 1
1
[(2  4)(9  5)  (3  4)(5  5)  (4  4)(6  5)  (5  4)(3  5)  (6  4)(2  5)]
5
1
1
[(2  4) 2  (3  4) 2  (4  4) 2  (5  4) 2  (6  4) 2 ] 
[(9  5) 2  (5  5) 2  (6  5) 2  (3  5) 2  (2  5) 2 ]
5
5
(Verschiebesätze:
1

(
2

9

3

5

4

6

5

3

6

2
)
 5
  4  5
)
1 2
1 2
(2  3 2  4 2  5 2  6 2 )  4 2 
(9  5 2  6 2  3 2  2 2 )  5 2
5
5
Aussagekraft linearer Korrelationskoeffizienten:
 Stärke: - liegt keine lineare Korrelation der X- und Y-Werte vor  Ergebnis 0
- liegt schwache /starke lineare Korrelation vor  Betrag klein/groß
 Richtung: - bei gleichsinniger linearer Abhängigkeit  Ergebnis > 0
- bei gegensinniger linearer Abhängigkeit  Ergebnis < 0
53
Interpretation von berechneten Korrelationskoeffizienten rXY (kurz: r):
Je näher der Wert eines Bravais-Pearson-Korrelationskoeffizienten:
- an 0, desto schwächer ist ein LINEARER Zusammenhang von X,Y in der SP
- an +1, desto stärker gleichsinnig ausgeprägt ist ein linearer Zshg. von X,Y…
an -1, desto stärker gegensinnig ausgeprägt ist ein linearer Zshg. von X,Y…
nach Bühl / Zöfel nach Brosius
keine lineare Korrelation
sehr schwach
schwach
mittel
stark
sehr stark
perfekte lineare Korrelation
!!!formaler Zusammenhang impliziert nicht automatisch kausalen Zushg. !!!
54
Bemerkungen zur Kovarianz und Bravais-Pearson-Korrelation:
∑
1. Mittels der Formel
wird nicht die beobachtete,
sondern die für die zugehörige Population geschätzte Kovarianz berechnet.
2. Für die wahre Populations-Kovarianz und auch für die Varianz von (theoretisch hergeleiteten) Verteilungen wird als Bezeichnung
verwendet.
3. Das Ergebnis eines Korrelationskoeffizienten
sollte stets mit dem
zugehörigen Streudiagramm verglichen werden. Zum Beispiel Ausreißer oder
versteckte Gruppen können zu Verzerrungen führen.
pro Gruppe:
; ohne Ausreißer:
55
4. Steckt hinter zwei formal stark linear korrelierten Variablen X,Y in Wahrheit der
Einfluss einer dritten (nicht beachteten) Variablen Z auf X sowie Y, kann man
den tatsächlichen „bereinigten" linearen Zusammenhang von X,Y mittels Partialkorrelation (d.h. unter Ausschaltung des Einflusses von Z) berechnen:
rXY | Z 
rXY  rXZ  rYZ
rXY | Z gibt an, wie stark X,Y korrelieren würden,
wenn der vermutete Einfluss von Z nicht bestünde
(1  r 2 XZ )  (1  r 2 YZ )
(Erhält man rXY | Z  rXY , spricht man von einem sog. „Supressoreffekt“ von Z)
Bsp (Datenmaterial aus M. Rudolf, W.Kulisch: Biostatistik, Pearson, 2008):
Zwischen X: Nitratkonzentration (in mg/l) und Y: Phosphatkonzentration (in g/l) in
Flüssen scheint laut Daten wegen
ein recht starker gleichsinniger
linearer Zusammenhang zu bestehen. Dies Ergebnis beruht aber vor allem auf
dem jeweils starken linearen Zusammenhang von X sowie Y mit der Drittvariable
Z: Entfernung von der Flussquelle (in km):
,
rXY  rXZ  rYZ
0.862  0.96  0.846
0.04984
rXY | Z 


 0.3338
2
2
2
2
0.0784  0.284284
(1  r XZ )  (1  r YZ )
(1  0.96 )  (1  0.846 )
 bereinigte lineare X,Y-Korrelation ist nur schwach: rXY | Z  0.3338  rXY  0.862
56
Document
Kategorie
Gesundheitswesen
Seitenansichten
11
Dateigröße
1 959 KB
Tags
1/--Seiten
melden