close

Anmelden

Neues Passwort anfordern?

Anmeldung mit OpenID

2_Vorlesung 5.11.

EinbettenHerunterladen
Rohdaten
Beispiele für Rohdaten: Fälle, Merkmale, Ausprägungen
Fälle
Ausgefüllte
Fragebögen
mündl. interviewte Personen
Texte
Urliste oder Rohdaten sind die auszuwertenden Daten in der Form, wie sie nach der Datenerhebung vorliegen. Dimensionen der Urliste
sind die Fälle, Merkmale und ihre Ausprägungen.
Voraussetzung für statistische Auswertung:
jeder Fall besitzt in bezug auf jedes Merkmal
genau eine Ausprägung
Müller-Benedict:Statistik I/2
Beobachtete
Objekte, z.B.
Menschen im
Lokal
1
Ausprägungen
angekreuzte Antwort
Antwort-Kategorien
Beurteilungskriterien: z.B. Inhalt,
Länge, Stil
Beobachtete Aktivitäten, z.B. trinken, sich unterhalten
Art des Inhalts, Zahl
der Worte, ...
Intensität der Handlung, z.B. Anzahl
Biere, Anzahl der
Gesprächspartner,
...
Müller-Benedict:Statistik I/2
2
Messwertklassen, gruppierte Daten
Häufigkeitsverteilung
Einkommen der 20 Befragten:
900,1600,800,2300,1300,2700,2100,2500,4000
1700,3300,1400,1900,1480,2900,1200,1150,
600,4100,2700
Die Häufigkeitsverteilung (auch kurz „Verteilung“) eines Merkmals ist die Darstellung seiner Ausprägungen im Verhältnis ihres Auftretens in den Fällen.
20 Antworten auf: „Wie weit stimmen Sie mit der
folgenden Meinung überein: Soziale
Unterschiede sind gerecht“:
4,3,3,2,3,1,4,4,3,3,3,2,2,4,3,4,2,3,2,4
( 1 = stimme voll zu, 2 = stimme eher zu, 3 =
stimme eher nicht zu, 4 = stimme gar nicht zu)
Müller-Benedict:Statistik I/2
Merkmal
Frage im Fragebogen
Frage des Interviewers
Messwertklassen sind die Zusammenfassungen von Ausprägungen zu Gruppen. Die sich
daraus ergebenden Daten heißen gruppierte
Daten.
3
Müller-Benedict:Statistik I/2
4
Aufgaben der Statistik
Relative und prozentuale Häufigkeit
Sei f(Xi) die absolute Häufigkeit der Ausprägung i des
Merkmals X bei N Fällen, dann ist
•
p(Xi) = f(Xi) /N die relative Häufigkeit oder Anteil und
Proz(Xi) = p(Xi)*100 die prozentuale Häufigkeit.
•
Dann gilt:

alle _ k

alle _ k
f(Xk) = N,
 p(Xk) = 1.0,
alle _ k
•
Proz(Xk) = 100.0
Müller-Benedict:Statistik I/2
5
Gültig
BRD
1998
p(X)
Gesamt
X a
STIMME VOLL ZU
STIMME EHER ZU
ST.EHER NICHT ZU
ST.GAR NICHT ZU
Gesamt
Missing
Häufigkeit
125
483
746
517
1871
81
1952
Prozent
6,4
24,7
38,2
26,5
95,9
4,1
100,0
Gültige
Prozente
6,7
25,8
39,9
27,6
100,0
Kumulierte
Prozente
6,7
32,5
72,4
100,0
SOCIAL DIFFERENCES ARE ACCEPTABLE
Verteilungsfunktion eines Merkmals heißt die
Funktion F der kumulierten relativen Häufigkeiten.
Sie hat 2 Eigenschaften:
1. Ihre Werte liegen zwischen 0 und 1.
2. Sie wächst monoton von 0 auf 1.
Gültig
USA
1993
Fehlend
Gesamt
Müller-Benedict:Statistik I/2
6
Soziale Unterschiede sind gerecht
Die kumulierte Häufigkeitsverteilung F gibt zu
jedem Wert a des Merkmals X an, wie viele Fälle
kleiner oder gleich diesem Wert a sind (als
relative Häufigkeit).

Müller-Benedict:Statistik I/2
Beispiel Häufigkeitsverteilung
Kumulierte Häufigkeitsverteilung
F(a) =
Aufgaben der Statistik, mit
Häufigkeitsverteilungen formuliert:
Die Häufigkeitsverteilung mit mathematisch durch
Formeln erzeugten Verteilungen zu vergleichen,
die sich aus einer Theorie über die Daten
ergeben.
Die Häufigkeitsverteilung durch möglichst wenige
Kennzahlen, sog. Parameter, ausreichend zu
beschreiben.
Die Häufigkeitsverteilungen zweier oder mehrerer
Merkmale – u.a. mit Hilfe ihrer Kennzahlen daraufhin zu vergleichen, ob sie in irgendeiner
Weise miteinander verkoppelt sind.
7
Müller-Benedict:Statistik I/2
Häufigkeit
STRONGLY AGREE
120
SOMEWHAT AGREE
631
SOMEWHT DISAGREE
474
STRNGLY DISAGREE
164
Gesamt
1389
NAP
30907
NO OPINION
58
NA
26
Gesamt
30991
32380
Prozent
,4
1,9
1,5
,5
4,3
95,5
,2
,1
95,7
100,0
Gültige
Prozente
8,6
45,4
34,1
11,8
100,0
Kumulierte
Prozente
8,6
54,1
88,2
100,0
8
Grafiken
BRD 2010
Grundprinzipien bei Grafiken
• ausreichend gekennzeichnet
• mathematisch genaue Umsetzung von Zahlen
in grafische Objekte
• die Ausprägungen des Merkmals stehen auf
der Abszisse (horizontale Achse, X-Achse)
• die Häufigkeiten jeder Ausprägung stehen auf
der Ordinate (vertikale Achse, Y-Achse)
Müller-Benedict:Statistik I/2
9
Balkendiagramm
Müller-Benedict:Statistik I/2
10
Histogramm
Ein Balkendiagramm ist eine Darstellung einer
Häufigkeitsverteilung von nominalen Daten in
Säulenform, wobei sich die Säulen nicht berühren.
Ein Histogramm ist eine Darstellung einer Häufigkeitsverteilung von ordinalen oder gruppierten Daten in
Säulenform, wobei die Säulen aneinander anschließen.
1400
600
1200
500
1000
400
Anzahl
Befragter
(pro 650
DM-Block)
800
Absolute Werte
600
200
400
100
200
0
0
White
Black
Other
425,0
Race of Respondent
Müller-Benedict:Statistik I/2
300
1725,0
3025,0
4325,0
5625,0
BEFR.: NETTOEINKOMMEN, OFFENE ABFRAGE
11
Müller-Benedict:Statistik I/2
12
Polygonzug
Feines Histogramm: Dichtefunktion
140
120
1400
100
1200
Anzahl
Befragter
(pro 100
DM-Block)
1000
800
Anzahl Befragte
Anzahl
Befragter
(pro 2300
DM-Block)
600
400
200
80
60
40
20
0
,0
50
67 ,00
50 0
59 0,0
5
53 ,00
50
49 ,00
50 0
44 ,0
50
41 ,00
50 0
38 ,0
50
35 ,00
50
31 ,00
50 0
28 0,0
5
25 ,00
50 0
22 0,0
5
19 ,00
50
16 ,00
50 0
13 ,0
50
10 00
0,
75 ,00
0
45 00
0,
15
0
1250,0
0
5850,0
Einkommen in DM
BEFR.: NETTOEINKOMMEN, OFFENE ABFRAGE
Müller-Benedict:Statistik I/2
13
Grafik der kumulierten Verteilung
Müller-Benedict:Statistik I/2
14
Kumulierte Verteilun g: Beispiel
Kumulierter Anteil Befragter mit Einkommen bis...
F(x)
2000
Befragter
1800
1.0
1600
Einkommen
1
600
2
800
3
900
4
1150
5
1200
0.8
1400
6
1300
7
1400
1200
0.6
1000
8
1480
800
0.4
600
400
0.2
200
00
00
2.000
4.000
6.000
8.000
9
1600
10
1700
11
1900
12
2100
13
2300
14
2500
15
2700
16
2700
17
2900
18
3300
19
4000
20
4100
DM
Müller-Benedict:Statistik I/2
15
Müller-Benedict:Statistik I/2
16
Kreuztabelle (Beziehung zweier kategorialer Merkmale)
Befragter Einkommen
1
900
2
1600
3
800
4
2300
5
1300
6
2700
7
2100
8
2500
9
4000
10
1700
11
3300
12
1400
13
1900
14
1480
15
2900
16
1200
17
1150
18
600
19
4100
20
2700
Randverteilungen
Kreuztabelle zweier Merkmale
Soz.Unt. gerecht
2
4
3
2
4
2
3
3
2
< 1500
3
4
4
1500 2
3000
3
4
3
> 3000
3
4
1
3
Summe
1
2
3
4
Summe
Stimme Stimme Stimme stimme
voll zu eher zu eher gar nicht
nicht zu
zu
-
1
4
3
8
-
3
4
2
9
1
1
-
1
3
1
5
8
6
20
Müller-Benedict:Statistik I/2
In den jeweiligen Summenspalten einer Kreuztabelle stehen die beiden Randverteilungen. Es sind die
Häufigkeitsverteilungen jedes der beiden Merkmale.
Jede Zelle in der Kreuztabelle enthält die Anzahl der
Fälle, die die Ausprägung derjenigen beiden
Merkmale besitzen, durch die die Zelle gebildet wird.
Die „Ursache“ bzw. „unabhängige Variable“ sollte
in den Zeilen, die „Wirkung“ bzw. „abhängige
Variable“ in den Spalten stehen.
17
Prozentuierungen, bedingte Verteilung
Müller-Benedict:Statistik I/2
Beispiel Kreuztabelle
Um relative oder prozentuale Häufigkeiten zu bilden,
hat man bei einer Kreuztabelle drei Möglichkeiten:
man kann auf die Gesamtsumme der Fälle oder auf
eine der beiden Randverteilungen prozentuieren. In
den letzten beiden Fällen spricht man von
Zeilen- oder Spaltenprozenten,
je nachdem, ob die Summen der Zeilen oder die
Summen der Spalten die jeweiligen 100% bilden.
Einkommen * Soziale Unterschiede sind gerecht Kreuztabelle
Soziale Unterschiede sind gerecht
Einkommen
unteres (bis 1500)
mittleres
(über1500-3000)
hohes (über 3000)
Gesamt
Die Verteilung eines Merkmals A unter der Bedingung, dass ein anderes Merkmal B eine bestimmte
Ausprägung hat, heißt
bedingte Verteilung von A unter B
Müller-Benedict:Statistik I/2
18
19
Müller-Benedict:Statistik I/2
Anzahl
% von Einkommen
Anzahl
% von Einkommen
Anzahl
% von Einkommen
Anzahl
% von Einkommen
stimme voll zu
21
3,6%
45
stimme
eher zu
99
17,1%
177
stimme eher
nicht zu
196
33,9%
321
stimme
überhaupt
nicht zu
262
45,3%
315
Gesamt
578
100,0%
858
5,2%
20,6%
37,4%
36,7%
100,0%
12
5,2%
78
4,7%
64
27,9%
340
20,4%
93
40,6%
610
36,6%
60
26,2%
637
38,3%
229
100,0%
1665
100,0%
20
Gruppiertes Balkendiagramm
3D-Säulendiagramm
50
"Soziale Unterschiede sind gerecht"
40
50
30
40
20
%
EINK3
Prozent
20
1-1500
10
0
> 3000
STIMME VOLL ZU
< 1500
STIMME EHER NICHT ZU
STIMME EHER ZU
St. gar nicht zu
St. eher nicht zu
St. eher zu
St. voll zu
10
1501-3000
0
30
15003000
STIMME GAR NICHT ZU
>3000
SOZIALE UNTERSCHIEDE SIND GERECHT
Müller-Benedict:Statistik I/2
21
Streudiagramm (Beziehung zweier metrischer Merkmale)
Müller-Benedict:Statistik I/2
22
3-dimensionale Kreuztabelle
4000
nkommen * SOZIALE UNTERSCHIEDE SIND GERECHT
* ERHEBUNGSGEBIET: WEST - OST
Kreuztabel
% von Einkommen
SOZIALE UNTERSCHIEDE SIND GERECHT
STIMME
EHER
ERHEBUNGSGEBIET:
STIMME STIMME
STIMME GAR
WEST - OST
VOLL ZU EHER ZU NICHT ZU
NICHT ZU
Gesamt
ALTE BUNDESLAENDE Einkommen bis 1500
5,3%
25,0%
35,0%
34,7%
100,0%
über 1500 bis 3000
7,5%
27,1%
36,7%
28,7%
100,0%
über 3000
5,4%
29,4%
42,2%
23,0%
100,0%
NEUE
Einkommen bis 1500
1,6%
7,4%
32,6%
58,5%
100,0%
BUNDESLAENDER
über 1500 bis 3000
1,0%
8,7%
38,7%
51,7%
100,0%
über 3000
6,1%
24,2%
27,3%
42,4%
100,0%
Durchschnittseinkommen
3000
2000
1000
0
0
20
40
60
80
100
ALTER: BEFRAGTE<R>
Müller-Benedict:Statistik I/2
23
Müller-Benedict:Statistik I/2
24
Hausaufgabe:
Zum Nacharbeiten der Vorlesung vor den Hausaufgaben: Müller-Benedict, Kap. 4
Sie haben folgende Daten erhoben (s.Tabelle): für 15 Befragte das monatliche Nettoeinkommen
(in €) und den formalen Schulabschluss.
–
Stellen Sie die absolute und relative Häufigkeitsverteilung (nicht die Kreuztabelle) jeweils
des Schulabschlusses und des Haushaltseinkommens dar, tabellarisch und grafisch.
Gruppieren Sie dafür, wenn nötig, die Daten in geeignete Messwertklassen. Formulieren Sie
eine kurze „Zeitungsmeldung“ über das Ergebnis.
–
Zeichnen Sie die kumulierte Verteilung des Haushaltseinkommens möglichst genau („Haushaltseinkommen“ ist ein metrisches Merkmal!) auf.
–
Gibt es eine Beziehung zwischen beiden Merkmalen? Wie können Sie das darstellen?
Fall Nr.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Müller-Benedict:Statistik I/2
Einkommen
5740
4500
2600
2456
4010
3976
7845
2250
1550
1855
3671
1935
3678
1867
3216
Schulabschluss
Abitur
Abitur
Realschule
Realschule
Hauptschule
Realschule
Abitur
Hauptschule
Realschule
Hauptschule
Abitur
Hauptschule
Realschule
Realschule
Abitur
25
Document
Kategorie
Gesundheitswesen
Seitenansichten
6
Dateigröße
102 KB
Tags
1/--Seiten
melden