close

Anmelden

Neues Passwort anfordern?

Anmeldung mit OpenID

1.VORLESUNG: WAS IST EMPIRISCHE - FSWW.be

EinbettenHerunterladen
Empirische Sozialforschung SS 03
1.VORLESUNG: WAS IST EMPIRISCHE SOZIALFORSCHUNG?
Buch: Kapitel 1 und 2
¾ Empirie =„auf Erfahrung beruhend“. Sozialwissenschaften = Erfahrungswissenschaften.
¾ Alltagswissen / Intuition vs. aufwendige Untersuchungen
Oft kann man anhand Alltagserfahrungen sehr plausible Hypothesen aufstellen, aber plausibel bedeutet nicht immer
auch wahr. Deshalb braucht es wissenschaftliche Untersuchungen. Denn Alltagshypothesen gelten
oft nur unter bestimmten Bedingungen, zudem sind sie oft nur qualitativ, d.h. sie zeigen die Richtung eines Effekts, nicht aber dessen Stärke. Deshalb muss Alltagswissen systematisch überprüft
werden.
Bsp.
Eine Alltagshypothese besagt, dass das Einkommen der inländischen Arbeiter sinkt und die Arbeitslosigkeit steigt, falls mehr ausländische Arbeitskräfte ins Land gelassen werden.
Diese Hypothese erwies sich bei einer wissenschaftlichen Überprüfung als falsch. Der Grund: Die Hypothese geht von einer fixen Arbeitsmenge und perfekter Substituierbarkeit der Arbeit aus, oft sind aber die
Qualifikationen von inländischen und ausländischen Arbeitern sehr unterschiedlich. So stellt eine Firma
zwar vier ausländische Handlanger ein, dafür aber auch einen inländischen Vorarbeiter.
¾ Arten und Ziele sozialwissenschaftlicher Studien:
ƒ Explorative Untersuchungen: Werden in sozialen Bereichen verwendet, die noch relativ unbekannt sind und dienen der Gewinnung von Hypothesen. Oft handelt es sich um Vorstudien
oder Pretests, die einer grösseren Studie vorausgehen, wo dann die Hypothesen der Vorstudie
genauer überprüft werden. Meist verwendet man bei der explorativen Untersuchung qualitative
Methoden.
ƒ Deskriptive Untersuchungen: Es geht weniger um soziale Zusammenhänge, Ursachenforschung
und Erklärung, sondern viel mehr um die Schätzung von Häufigkeiten, Anteilen, Durchschnittswerten und anderen Merkmalen der Verteilung. Man arbeitet mit quantitativen Methoden und legt Wert auf repräsentative Stichproben.
ƒ Prüfung von Hypothesen und Theorien: Dies ist die vorrangige Aufgabe der wissenschaftlichen
Sozialforschung, hierzu gibt es eine Vielzahl von Methoden.
ƒ Evaluationsstudien: Ziel ist, die Wirksamkeit praktischer Massnahmen zu überprüfen, z.B. die
Wirksamkeit eines neuen Gesetzes. Besonders wichtig ist auch die Abschätzung der unbeabsichtigten (positiven oder negativen) Nebenwirkungen einer Massnahme. Ein Problem kann
hierbei die Verzerrung durch Selbstselektion sein, zudem steht der Forscher oft im Spannungsfeld zwischen politischen und wissenschaftlichen Ansprüchen.
¾ Bsp. Coleman-Report
Den Grund für die grossen Unterschiede im Leistungsniveau zwischen schwarzen und weissen Schülern
vermutete man in den unterschiedlichen Ausstattungen der getrennten Schulen. Diese Hypothese erwies
sich in der wissenschaftlichen Untersuchung als falsch, der Grund für die unterschiedlichen schulischen
Leistungen waren andere Faktoren wie Geschwisterzahl, Bildung und wirtschaftliche Situation der Eltern,
sowie die Zusammensetzung der Schülerschaft. Letztere Erkenntnis überraschte, je mehr weisse Schüler
an einer Schule waren, desto höher war das Leistungsniveau. Diese Erkenntnis führte zu sogenannten Desegregationpolitik, man transportierte zum Beispiel schwarze Schüler kilometerweit in hauptsächlich
‚weisse’ Schulen (‚Busing’).
Dieses Beispiel macht verschiedene Gesichtspunkte deutlich:
1. Eine von vielen Fachleuten für wahrgehaltene plausible Erklärung oder Hypothese kann sich
überraschend als falsch herausstellen.
2. Die wissenschaftliche Arbeit steht oft im Spannungsfeld zwischen Wahrheit und politischen
Ansprüchen, was zu ideologischen Verzerrungen führen kann.
3. Es zeigt sich auch, dass eine empirisch-soziologische Untersuchung die praktische Gesellschaftspolitik und Sozialplanung in erheblichem Mass beeinflussen kann.
4. Anwendungsbezogene empirische Studien können auch die theoretische Grundlagenforschung in der Bildungssoziologie beeinflussen.
¾ Probleme bei der Prüfung von Hypothesen
ƒ Pseudo-Regelmässigkeiten: Die meisten Menschen haben die Neigung, überall Regelmässigkeiten
zu entdecken, auch wenn objektiv keine Zusammenhänge bestehen. Zudem halten sie dann auch
noch hartnäckig an den bizarren Hypothesen fest, wenn sie schon längst widerlegt wurden.
ƒ Erwartungsabhängige Beobachtungen: Vorurteile und Erwartungen prägen unsere Wahrnehmungen sehr stark, oft nimmt man nur das wahr, was man sehen will. Ausserdem kann auch soziale
Konformität eine Beobachtung bestimmen: viele Personen weichen von ihrer Beobachtung ab,
-1-
Céline Andereggen
Empirische Sozialforschung SS 03
wenn um sie herum eine Mehrheit die Beobachtung anders schildert. Im Extremfall kommt es
zum Pygmalion-Effekt: falsche Erwartungen und Hypothesen produzieren schliesslich die Tatsachen, die sie fälschlicherweise annehmen. Vorurteile und evtl. Diskriminierung erzeugen oft eine
Eigendynamik, bis sich (falsche) Prognosen selbst erfüllen. (z.B. der Jude in ‚Andorra’)
ƒ Selektive Wahrnehmung bedeutet also, dass jede Person eine Sachverhalt anders wahrnimmt,
denn Erwartungen und Wünsche steuern die Wahrnehmung und filtern die Gedanken. Das Problem ist, dass eben bevorzugt jene Wahrnehmungen registriert werden, die liebgewonnene Vorurteile und Hypothesen bestätigen.
ƒ Ein weiteres Problem sind Deduktionsfehler, d.h. das intuitive Denken führt zu falschen Schlussfolgerungen. Hiergegen hilft allerdings die Kontrolle durch Logik, Mathe und Statistik.
ƒ Oft kommt es auch zu Selektionsverzerrungen, diese kann man aber gut vermeiden, und zwar
durch die Zufallsaufteilung der Versuchspersonen, z.B. in dem man sie durch Münzwurf auf die
Versuchs- und die Kontrollgruppe verteilt.
Bsp.
Man vergleicht zwei Gruppen von Jugendlichen. Gruppe 1 schaut oft Horrorfilme, Gruppe 2 bevorzugt
andere Freizeitbeschäftigungen. Nun zeigt sich bei der Gruppe 1 eine grössere Aggressivität als bei der
Gruppe 2. Dies heisst aber noch lange nicht, dass Horrorfilme die Aggressivität steigern, sondern es
könnte sein, dass die Jugendlichen, die schon höhere Aggressionsneigung haben, lieber Horrorfilme
schauen als die Jugendlichen der Gruppe 2 (Selbstselektion). Deshalb muss man die Probanden zufällig
aufteilen und dann z.B. einer Gruppe einen Horrorstreifen, der anderen eine Komödie zeigen und dann
die Aggressionswerte messen.
ƒ Auch der Versuchsleiter kann die Ergebnisse einer Untersuchung verzerren: Wenn er nämlich die
zu testende Hypothese kennt und ein bestimmtes Resultat erwartet, so beeinflusst er möglicherweise durch unbewusste Reaktionen das Verhalten der Probanden (Versuchsleitereffekt). Deshalb
kommt es oft zu Dopelblindversuchen, d.h. weder die Versuchspersonen, noch der Versuchsleiter
kennen die zu testenden Hypothesen.
ƒ Ein weiteres Problem ist der Einfluss von Drittvariablen, ein extremer Fall davon ist die Scheinkorrelation, bei der ein nicht-kausaler Zusammenhang zwischen zwei Merkmalen durch eine dritte Variable produziert wird.
Bsp. Die Anzahl der Störche geht schon seit einiger Zeit zurück, zugleich verzeichnen wir auch
einen Geburtenrückgang. Stimmt es also etwa doch, dass der Storch die Babys bringt? Es handelt sich hier zwar um eine Korrelation zwischen dem Rückgang in der Storchenpopulation und
dem Geburtenrückgang, aber der Zusammenhang ist nicht kausal, sondern wird durch eine
Drittvariable verursacht. Die zunehmende Urbanisierung führt nämlich zu dem Rückgang in der
Storchenpopulation genauso wie zu dem Geburtenrückgang.
¾ Werturteilsproblem und Forschungsethik
ƒ Wertbasis der Wissenschaften: ethischen Verpflichtungen, wie z.B. das Gebot wissenschaftlicher
Wahrhaftigkeit. Wer dagegen verstösst, also etwas fälscht, muss mit Sanktionen rechnen. Bei einer Forschung, die eindeutig zweckorientiert und einseitig ist und daher mit wissenschaftlichen
Idealen konfligiert, z.B. bei der militärischen Forschung oder der Vertuschung eines Umweltskandals, können Forscher durchaus ihr Mitarbeit aufkündigen.
ƒ Wertentscheidungen spielen aber trotzdem eine wichtige Rolle. Mit der Auswahl eines Forschungsproblems wertet der Forscher ein erstes Mal (Relevanzproblem). Auch die Auswahl bestimmter Methoden spiegelt ein Werturteil wieder.
ƒ Werturteile in sozialwissenschaftlichen Aussagen: Werturteile dürfen nicht verschleiert werden,
sondern müssen explizit gekennzeichnet werden und die einzelnen methodischen Schritte müssen
genau dokumentiert werden. Trotzdem bleibt immer ein kleiner Raum für wert- und interessengerichtete Entscheide.
ƒ Persönlichkeitsschutz von Versuchspersonen: Versuchspersonen wird in der Regel Anonymität
zugesichert, wenn die Daten gespeichert werden, so müssen vorher persönliche Angaben gelöscht
werden. Und obwohl man Probanden im Voraus normalerweise nicht über Ziele und Hypothesen
des Versuchs aufklären kann, um keine Verfälschung entstehen zu lassen, so empfiehlt es sich
doch, sie im Nachhinein darüber aufzuklären. Fragwürdig sind auch Experimente, die Versuchspersonen über das üblich Mass psychischem Stress aussetzen oder körperlich beeinträchtigen.
(Bsp. KZ-Experiment)
-2-
Céline Andereggen
Empirische Sozialforschung SS 03
2.VORLESUNG: DER ABLAUF EINER EMPIRISCHEN UNTERSUCHUNG
Buch: Kapitel 5
I.
II.
III.
IV.
V.
Formulierung des Forschungsproblems
Planung der Untersuchung
Datenerhebung
Datenauswertung
Umsetzung der Forschungsergebnisse
I.
Formulierung des Forschungsproblems
¾ Woher kommt die Anregung zu dieser Untersuchung? (Entstehungszusammenhang)
ƒ Aus wissenschaftlicher Literatur
ƒ Idee des Forschers
ƒ Praktisches Problem
ƒ Auftraggeber
ƒ Anregung aus einer explorativen Studie
ƒ Evaluation (politischer) Massnahmen
ƒ Replikation einer schon vorliegenden Untersuchung
¾ Was genau soll untersucht werden? (Fragestellung)
ƒ Präzise Forschungshypothese
ƒ Präzises Forschungsziel
ƒ Abhängige und Unabhängige Variable genau bestimmen
⇒ Obwohl man am Anfang alles genau zu formulieren und zu planen versucht, steht man während der eigentlichen Untersuchung doch immer wieder vor verschiedenen Optionen. Die
Entscheidungen, die man dann treffen muss, hängen vor allem vom Forschungsziel, von
den zur Verfügung stehenden Ressourcen und von der eigenen Einschätzung ab.
II. Untersuchungsplanung
¾ Konstruktion eines Erhebungsinstrumentes
ƒ Definition der Begriffe
ƒ Konzeptspezifikation = einzelne Dimensionen des Begriffs herausarbeiten
ƒ Operationalisierung = geeignete Messmethoden und Skalen für die Dimensionen suchen
Bsp. Wie misst man Leistungsmotivation?
- Konzeptspezifikation: Dimensionen von Leistungsmotivation sind z.B. Ehrgeiz, Fleiss, Zeitaufwand, Gewissenhaftigkeit etc
- Operationalisierung: Die obengenannten Dimensionen von Leistungsbereitschaft lassen sich
wohl am besten durch Befragung ermitteln, z.B. mit konkreten Fragen und Antwortmöglichkeiten von „trifft immer zu“ über mehrere Stufen bis „trifft nie zu“
¾ Festlegen der Untersuchungsform (Forschungsdesign)
ƒ Je nach Hypothese werden verschiedene Ebenen untersucht:
- Aggregat-/Kollektivhypothese: untersucht werden Kollektive z.B. Gemeinden
- Kontexthypothese: es geht um das Verhältnis zw. Individuen und Kollektiven
- Individualhypothese: es interessieren nur Individuen
ƒ Zeitlicher Aspekt: Querschnitt-, Trend-, Panel- oder Kohortendesign
ƒ Braucht es eine Kontrollgruppe (quasi-experimentelles und experimentelles Untersuchungsdesign) oder nicht (nicht-experimentelles Untersuchungsdesign)?
¾ Stichprobenverfahren
ƒ Definition der Population : Welche Gruppe interessiert uns, untersuchen, befragen wir?
ƒ Art der Stichprobenziehung
Bsp. Zufallsverfahren bei einer telephonischen Befragung
Wähle die ersten zehn Privatanschlüsse der mittleren Spalte jeder zehnten Seite, beginnend mit der
ersten Adressseite bis zur letzten. Damit erwerbstätige Haushaltsmitglieder stark unterrepräsentiert.
Daher muss man eine zweite Zufallsauswahl treffen, z.B. man befragt die Person, die älter als 18 ist
und zuletzt Geburtstag hatte.
ƒ
Umfang der Stichprobe: Die Grösse der Stichprobe hängt vom Forschungsziel und von den
vorhandenen Ressourcen ab, muss aber je nach Untersuchung nicht unbedingt repräsentativ
sein
¾ Pretest = Test des Erhebungsinstruments
Man befragt eine kleine Anzahl von Personen mit der vorläufigen Version des Fragebogen. Um
Mängel, wie z.B. mehrdeutige oder schlecht verständliche Fragen auszusortieren.
-3-
Céline Andereggen
Empirische Sozialforschung SS 03
III Datenerhebung
¾ Befragung (persönlich: face-to-face, telefonisch, schriftlich)
Wichtig ist, dass die Interviewer vorher geschult werden und eventuell auch einige Testdurchläufe machen. Ausserdem sollten die Interviewer kontrolliert werden, z.B. kann der Supervisor im Telefonlabor Gespräche mithören.
Bei einer telephonischen Untersuchung kann es ausserdem zweckmässig sein, die Haushalte
etwa eine Woche vorher anzuschreiben.
¾ Beobachtung: (teilnehmend oder nicht teilnehmend)
¾ Inhaltsanalyse (Textdokumente, Fernsehreportagen)
¾ Nicht reaktive Methoden (die befragte/beobachtete Person weiss nicht, dass sie Objekt einer
Untersuchung ist)
⇒ Meistens ist es sinnvoll, verschiedene Erhebungsmethoden miteinander zu kombinieren.
IV Datenauswertung
¾ Aufbau eines Datenfiles
ƒ Datenerfassung
ƒ Fehlerkontrolle (evtl. nochmals Kontakt mit den Befragten aufnehmen um Unklarheiten zu
klären)
ƒ Fehlerbereinigung
¾ Statistische Datenanalyse
ƒ Bildung von Indizes und Itemanalysen, Konstruktion von Skalen
ƒ Univariate Statistik, deskriptive Informationen
ƒ Analyse von Zusammenhängen
V. Umsetzung der Forschungsergebnisse
¾ Forschungsbericht (einzelne methodische Schritte in nachvollziehbarer Weise dokumentieren,
Ergebnisse zusammenfassen)
¾ Veröffentlichung in Fachzeitschriften
¾ Praktische Umsetzung der Ergebnisse
-4-
Céline Andereggen
Empirische Sozialforschung SS 03
3.VORLESUNG: VARIABLEN, HYPOTHESEN, THEORIEN
Buch: Kapitel 4
I. VARIABLEN:
- Merkmal / Eigenschaft von Personen / Gruppen / Organisationen...
- mindestens 2 Ausprägungen (dichotome Variable), sonst polytome Variable
Variablenarten
- Diskrete Variable: z.B. Schulbildung mit den Kategorien „kein Abschluss“, „Hauptschulabschluss“, „Realschulabschluss“ oder „Abitur“
- Kontinuierliche Variable, z.B. die Körpergrösse
- Absolute Variable: z.B. Alter, Geschlecht, Bildung
- Relationale Variable: diese wird durch die Beziehung zu einem anderen Element charakterisiert,
z.B. Intensität von Freundschaftsbeziehungen
¾Merkmalsausprägung: Wert der Variable, oft eine Zahl oder durch eine Zahl kodiert
Konstruktionsregeln für die Merkmalskategorien:
Kategorien müssen disjunkt sein, d.h. dürfen sich nicht überlappen
Kategorien müssen erschöpfend sein, d.h. jeder Merkmalsträger muss einwandfrei einer Kategorie zugewiesen werden können.
Bsp. Einkommen: <1000 Fr, 1000-1999 Fr, 2000-2999 Fr, 3000-3999 Fr, >4000 Fr
Die Zuordnung der Merkmalsträger auf Kategorien ist aber nicht immer so einfach, z.B. beim Freizeitverhalten, wo es unter anderem die Kategorien Sport, Verein, Musik, Lesen.... gibt. Wenn nun
ein Merkmalsträger seine Freizeit in einem Segelclub verbringt, gehört er dann zu „Verein“ oder zu
„Sport“?
¾Merkmalsträger
• Individualmerkmale z.B. Geschlecht, Bildung einer Person
• Kollektivmerkmale z.B. Anteil der Ausländer in der Schweizer Bevölkerung
- analytische Kollektivmerkmale: Aggregation von absoluten Individualmerkmalen
z.B.
% Frauen im Nationalrat
- strukturelle Kollektivmerkmale: Aggregation von relationalen Individualmerkmalen
z.B. Integration einer Gruppe = Anzahl der sozialen Beziehungen aller Mitglieder untereinander
- globale Kollektivmerkmale: genuine Eigenschaft eines Kollektivs,
z.B.
die politische Verfassung
Hier ist ein Streit darüber entbrannt, ob man globale Merkmale nicht auch als Aggregation
von Individualhandlungen sehen kann (Reduktionismus) oder ob Systeme tatsächlich emergente Eigenschaften haben können (Holismus)
II.
HYPOTHESEN
Vermutung über einen bestehenden Sachverhalt, meist eine Aussage über einen Zusammenhang
¾ Wenn – dann, je – desto:
- Wenn / je: unabhängige Variable
- Dann / desto:
abhängige Variable
¾ Deterministische Hypothese: Wenn A, dann B
A
¬A
B
K
K
• A ist hinreichende Bedingung: Implikation
F
K
¬B
- Wenn A, dann B
K=Konfirmator, F=Falsifikator
- Wenn ¬ A, dann B oder ¬ B
• A ist hinreichende und notwendige Bedingung: Äquivalenzbeziehung
A
¬A
- Wenn A, dann B
B
K
F
F
K
¬B
- Wenn ¬ A, dann ¬ B
¾ Probabilistische Hypothese: Wenn A, dann mit einer gewissen W’keit auch B
Ein vorgesehener Merkmalswert tritt nur mit einer gewissen Wahrscheinlichkeit auf. Der
relative Anteil der Falsifikatoren sollte im Vergleich zu den konfirmatorischen Fällen gering sein, d.h. die K-Diagonale sollte viel grösser als die F-Diagonale sein:
⇒ P(B/A) >> P(B/¬A) : die W’keit des Ereignisses B unter der Bedingung von A ist grösser als die
⇒ Vierfeldertafel: A=
¬A=
B=
¬B=
W’keit B unter der Bedingung von ¬A
Frühehe
A
¬A
Spätehe
B
350
150
Scheidung
650
850
¬B
Keine Scheidung
-5-
P(B/A) = 0.35
P(B/¬A) = 0.15
Céline Andereggen
Empirische Sozialforschung SS 03
¾Je-desto-Hypothesen
• Kausalhypothesen
Wenn-Komponente ist die Ursache, dann-Komponente die Wirkung
Bsp. Je länger die Studienzeit, desto länger die Dauer der Stellensuche
• Entwicklungs- oder Trendhypothesen
Zeit / Zeitdauer nimmt die Rolle der unabhängigen Variablen ein
Bsp. Mit zunehmender Ehedauer steigt das Scheidungsrisiko
• Zusammenhänge bei kontinuierlichen Variablen
- Monoton steigend
positiver Zusammenhang
- Monoton fallend
negativer Zusammenhang
- u-förmig oder umgekehrt u-förmig (nicht-monoton)
keine je-desto Hypothesen, ausser man grenzt eine bestimmten Bereich ein
- stetige Funktionen (konvex, konkav)
¾ Arten von Hypothesen
• Individualhypothese: Zusammenhänge zwischen Individualmerkmalen
• Kollektivhypothese: Zusammenhänge zwischen Kollektivmerkmalen
• Kontexthypothesen: Auswirkung eines Kollektivmerkmals auf ein Individualmerkmal
Bsp. In Kulturen wo Frauen grösseren Unterdrückungen ausgesetzt sind, ist deren Stimmlage höher als die von Frauen in weniger repressiven Gesellschaften.
• Transformations-/Aggregationsregel: Individualmerkmale bestimmen Kollektivmerkmale
Bsp. Abweichendes Verhalten bestimmt die Kriminalitätsrate
⇒ Bsp.: Kriminalität
Kollektivhyp.
Urbanisierung
Kriminalitätsrate
Kontexthyp.
Aggregationsregel
Soziale Integration
abweichendes Verhalten
Individualhyp.
• Ökologischer Fehlschluss: falscher Schluss von einer Kollektiv- auf eine Individualhypothese, denn Zusammenhänge auf der Kollektivebene müssen nicht mit entsprechenden Zusammenhängen auf der Individualebene korrespondieren.
Bsp. In einem Stimmbezirk ist der Anteil der Katholiken 20%, und die CVP erhält bei den
Wahlen in dem betreffendem Bezirk genau 20% der Stimmen.
Kann man daraus schliessen, dass alle
Kath.
NichtKatholiken die CVP gewählt haben?
Wähler kath.
Nein, wie die nebenstehende Tafel zeigt,
CVP
0
20
20
kann es sogar sein, dass kein einziger
Katholik die CVP gewählt hat.
Andere
Parteien
20
60
80
20
80
100
III. THEORIEN, WISSENSCHAFTLICHE ERKLÄRUNGEN
¾ Aufbau einer wissenschaftlichen Erklärung (deterministisch):
1) Hypothese; Wenn A, dann B (nomologische Aussage, Gesetz, Theorie)
niedriger der Preis der Energie, desto höher ist der Energieverbrauch)
2) Anfangs- oder Randbedingungen: Es gilt A (singulärer Satz)
(je
Explanans
(in den USA sind die Energiepreise tiefer als in Europa)
3) Singulärer Satz, der das zu erklärende Ereignis beschreibt: Es gilt B
(in den USA ist der Pro-Kopf Energieverbrauch höher als in Europa)
Explanandum
¾ Probabilistisch-statistische Erklärungen
Falls kein deterministisches Gesetz vorliegt, so kann dies durch eine Wahrscheinlichkeitsaussage ersetzt werden:
Rand- oder Anfangsbedingung A und P(B/A) sehr hoch → Explanandum „B“ tritt ein
1) Randbedingung: Einstein machte eine besondere Entdeckung
2) Probabilistisches Gesetz, statistischer Zusammenhang: Individuen, die eine besondere
Entdeckung gemacht haben, erhalten mit hoher W’keit den Nobelpreis
3) Konklusion: Einstein hat den Nobelpreis erhalten
-6-
Céline Andereggen
Empirische Sozialforschung SS 03
¾Arten von Sätzen
• Empirische Sätze
Empirische Sätze sind Aussagen, die auf empirisch beobachtbare Sachverhalte verweisen.
Singuläre Sätze: Aussagen / Prognosen über einzelne Ereignisse, raum-zeitlich fixiert.
Bsp.: Die Arbeitslosenquote im Wallis betrug im Jahr 2002 6.3%.
Das BIP wird 2003 um 0.5% wachsen.
Hypothetische Sätze: Aussagen über Zusammenhänge, deren Gültigkeitsanspruch
raum-zeitlich unbegrenzt ist. Man spricht deshalb auch von All-Sätzen.
Bsp. Menschen streben nach Reichtum.
⇒ Wenn eine empirische, hypothetische Aussage mit raum-zeitlich unbegrenztem Gültigkeitsanspruch als bestätigt gelten kann, so bezeichnen wir sie als Gesetz.
-
Bsp. Nachfragegesetz der Ökonomie (inverse Relation zw. dem Preis und der nachgefragten
Menge eines Gutes)
• Logische Sätze
Der Wahrheitsgehalt logischer Sätze ist unabhängig von der Beschaffenheit der empirischen Welt und kann ausschliesslich durch logisch-mathematische Beweisverfahren ermittelt werden. Bsp.: Satz des Pythagoras
analytisch wahre Sätze / Tautologien: zusammengesetzte Sätze, die immer wahr sind.
Bsp.: Kräht der Hahn auf dem Mist, ändert sich’s Wetter oder bleibt wie’s ist.
Kontradiktionen: Widerspruch in sich, immer falsch
⇒ Der Informationsgehalt von Tautologien oder Kontradiktionen ist gleich Null!
• Präskriptive Sätze (Werturteile, soziale Normen, Soll-Sätze...)
Sie schreiben spezifische Verhaltensweisen vor, haben aber keinen empirischen Gehalt.
⇒ Man kann aus der empirischen Forschung nicht präskriptive Sätze ableiten: Aus dem
Sein folgt kein Sollen!
¾Informationsgehalt von Sätzen
• Wenn-dann / je-desto Aussagen
Der Informationsgehalt wächst gleichsinnig mit der wenn- bzw. je-Komponente und gegensinnige mit dem Gehalt der dann- bzw. desto-Komponente.
Je genauer die dann-/ desto-Komponente und je allgemeiner die wenn-/je-Komponente,
desto grösser der Informationsgehalt.
-
Bsp. H1: Wenn eine Person eine Liter Bier trinkt, dann verlängert sich ihre Reaktionszeit.
H2: Wenn eine Person einen Liter eines Getränks mit einem Alkoholgehalt von 4-7% trinkt,
dann erhöht sich ihre Reaktionszeit um 30-50%.
• Logische Sätze: Tautologien
Der Informationsgehalt ist gleich Null, denn es wird kein Sachverhalt ausgeschlossen.
¾Gütekriterium von Theorien
- Theorien sind umso besser, je allgemeiner (wenn-Komponente) und je spezifischer (dannKomponente) sie sind,
- weil dann die Menge der ausgeschlossenen Sachverhalte zunimmt
- und sich damit die Testbarkeit erhöht.
¾Verifikation und Falsifikation
• Einfache singuläre Aussagen können verifiziert oder falsifiziert werden.
Bsp. In diesem Raum sitzen jetzt gerade 123 Personen.
• Existenzaussagen ohne Raum-Zeit-Bezug können verifiziert, aber nicht falsifiziert werden.
Bsp. Es gibt irgendwo und irgendwann einen Raum, in dem 123 Personen sitzen.
• All-Aussagen (Theorien, Hypothesen) können nur falsifiziert, nicht aber verifiziert werden.
Bsp. Alle Unternehmer wollen ihren Gewinn maximieren.
Es ist unmöglich, alle Unternehmer der Welt zu beobachten, um die Theorie zu bestätigen. Findet man
aber nur einen Unternehmer, der nicht maximalen Gewinn will, so ist die Hypothese falsifiziert.
⇒ Man wird aber eine Hypothese nie schon bei der ersten Falsifikation verwerfen, sondern
noch genauer testen, denn es kann auch zu einer irrtümliche Falsifikation kommen.
⇒ Alles Wissen ist unsicher und vorläufig. Dennoch können wir unser Wissen vermehren,
indem wir unsere Hypothesen harten Bewährungsproben unterziehen und sie so lange akzeptieren, wie sie allen Falsifikationsversuchen widerstehen.
-7-
Céline Andereggen
Empirische Sozialforschung SS 03
4.VORLESUNG: MESSUNG UND SKALIERUNG
Buch: Kapitel 6
I.
MESSUNG
• Direkte Messung: direkt beobachtbare Merkmale, z.B. Gewicht, Körpergrösse
• Indirekte Messung: nicht direkt beobachtbare Grössen, z.B. Leistungsmotivation
⇒ Man versucht, die Grösse mittels multipler Indikatoren zu messen.
Vorgehen:
1) Konzeptspezifikation = genaue Definition der Begriffe, die gemessen werden sollen
2) Operationalisierung =
Wie werden die im theoretischen Begriff spezifizierten Eigenschaften beobachtbaren Sachverhalten zugeordnet?
Bsp. Leistungsmotivation → beobachtbare Sachverhalte: Arbeitsaufwand, Abschneiden in Prüfungen....
3) Messung = Zuordnung von Zahlen zu Objekten nach bestimmten Regeln
Man ordnet Objekten eine Menge von Zahlen zu, so dass diese die empirische Relation
der Objekte durch eine numerische Relation abbilden
¾Gütekriterien der Messung
1) Objektivität
Eine Messung ist objektiv, wenn ihre Ergebnisse unabhängig sind von der Person, die das
Messinstrument anwendet. Man misst die Korrelation der Messergebnisse von Versuchsleiter A
mit denen von Versuchsleiter B, der Korrelationkoeffizient sollte 1 oder nahe 1 sein.
- Durchführungsobjektivität: z.B. Interviewereffekte (Interviewer A löst mit denselben Fragen
beim Befragten X ein wesentlich anderes Antwortverhalten aus als Interviewer B)
- Auswertungsobjektivität: Problem bei qualitativen Verfahren (Zwei Lehrer benoten den gleichen Aufsatz oft mit unterschiedlichen Noten)
2) Reliabilität
Eine Messung ist reliabel, wenn auch bei mehrfacher Messwiederholung die Resultate übereinstimmen; d.h. Reliabilität eines Messinstruments ist ein Maß für die Reproduzierbarkeit von
Messungen. Man berechnet wiederum die Korrelation zwischen den einzelnen Ergebnissen.
• Paralleltest-Methode: Man misst dieselbe Eigenschaft mit zwei verschiedenen Messinstrumenten, die Korrelation sollte möglichst hoch sein.
• Test-Retest-Methode: Man wiederholt die Messung mit demselben Messinstrument nach einiger Zeit, auch hier sollte die Korrelation hoch sein. Problematisch kann sein, dass man die
Stabilität der zu messenden Eigenschaft annimmt und dass wegen Übungseffekten die erste
Messung Auswirkungen auf die zweite haben kann.
• Methode der Test-Halbierung: Man halbiert die Liste der Items und berechnet dann die Korrelation der Ergebnisse der beiden Testhälften. Diese Methode wird am häufigsten angewendet,
das Problem ist nur, das die Reliabilität ja mit der Testlänge wächst, d.h. die Korrelation der
beiden Testhälften unterschätzt die Reliabilität des gesamten Tests → Korrekturformeln
- Spearman-Brown-Formel: r(neu) = (2*r)/(1+r)
(r =Korrelation zw. den Testhälften)
- Cronbachs α : Man stellt eine Tabelle auf und berechnet den Wert aller möglichen Korrelationen zwischen den Items. Daraus errechnet man dann die durchschnittliche Korrelation r
(nur Werte unterhalb der Diagonalen nehmen). Cronbachs Formel lautet dann:
α=(n*r)/(1+r(n-1))
(n= Anzahl der Items)
3) Validität
Die Validität eines Tests gibt den Grad der Genauigkeit an, mit dem der Test dasjenige Merkmal, das er messen soll oder vorgibt zu messen, auch tatsächlich misst.
• Inhaltsvalidität liegt dann vor, wenn die Itemauswahl die zu messende Eigenschaft tatsächlich
repräsentiert. Oft sieht man übereinstimmende Expertenurteile als Zeichen für hohe Inhaltsvalidität an.
• Kriteriumsvalidität gibt an, wie stark ein Testergebnis mit einem Aussenkriterium korreliert,
z.B. Umweltbewusstsein mit der Mitgliedschaft in Umweltorganisationen.
• Konstruktvalidität zeigt an, wie hoch zwei möglichst unterschiedliche Messmethoden (z.B.
Befragung und Beobachtung) im Bezug auf die Messung des gleichen Konstrukts korrelieren.
⇒ Objektivität, Reliabilität und Validität stehen in einem hierarchischen Verhältnis:
- Objektivität ist notwendige, aber keine hinreiche Bedingung für Reliabilität.
-8-
Céline Andereggen
Empirische Sozialforschung SS 03
Reliabilität ist notwendige, aber keine hinreichende Bedingung für Validität.
Ziel ist es, valide Messinstrumente zu haben.
II. TESTTHEORIE.
1) Der betrachtete Wert setzt sich aus dem „wahren“ Wert und dem Messfehler
zusammen.
-
Ist erfüllt, wenn sich bei einer korrekt gehenden Uhr die Zeitmessungen durch die
Personen A,B,C nur zufällig unterscheiden.
Y=X+ε
2) Messfehler streuen sich um den wahren Wert, sind mal grösser, mal kleiner.
Bei einer grossen Zahl von Messungen ist also der Erwartungswert des Messµ(ε)=0
fehlers gleich Null.
Ist verletzt, wenn eine Uhr systematisch vorgeht (Messfehler gleichen sich nicht aus.)
3) Zudem nimmt man an, dass der wahre Wert nicht mit dem Messfehler korreliert ist.
Ist verletzt, wenn der Messfehler mit wahren Zeit systematisch zu- oder abnimmt.
4) Auch Messfehler zwischen zwei Messungen dürfen nicht korreliert sein.
Ist verletzt , wenn der Messfehler bei einer bestimmten Uhrzeit den Messfehler bei
einer anderen Uhrzeit beeinflusst.
5) Und auch die Korrelation zwischen dem Messfehler einer ersten Messung
und dem wahren Wert der zweiten Messung ist gleich Null.
Ist verletzt, wenn die Uhr z.B. immer von 11.00 auf 12.00 springt.
rxε=0
rε1 ε2=0
rε1 x2=0
III. SKALEN
Nominalskala
Klassifikation
Ordinalskala
Rangfolge
Intervallskala
Abstände
Bedeutsamkeit
Interpretation Mittelwert
zulässige Transformationen
Gleich oder
verschieden
Modalwert
Unterscheidbarkeit bewahrende
Median
Rangfolge bewahrende:
positiv monotone
Arithmetischer
Mittelwert
Differenzen erhaltende:
positiv lineare
y’=a+by
Grösser,
kleiner,
gleich
Vergleich
von Differenzen
Beispiele
Geschlecht,
Nationalität
Religion
Schulnoten,
Leistungsmotivation,
Guttman-Skalierung
Celsius-Skala
Gewicht, Grösse,
Schuljahre
Verhältnisse, Geometrischer
Ehedauer
prozentuale Mittelwert
Häufigkeitsverteilungen,
Absolutheitsskala
Vergleiche
Keine!
genau festgelegte
W’keiten, Anzahl von
Skalenabstände
Teilnehmern
⇒ Das Skalenniveau bestimmt die Interpretationen und zulässigen Transformation der Skalenwerte, sowie
die erlaubten statistischen Verfahren und Kennzahlen.
⇒ Die Klasse der zulässigen Transformationen wird mit steigendem Skalenniveau kleiner, der Informationsgehalt und die Bedeutsamkeit dagegen grösser, d.h. statistische Kennzahlen, die auf niedrigem Niveau
sinnvoll berechnet werden können, dürfen auch auf höherem Niveau berechnet werden.
positiv proportionale
y’=by
Ratioskala
abs. Nullpunkt
IV. SKALIERUNG
- Skalierung = Messung auf Basis eines Skalierungsmodells (z.B. Likert-Skala)
- Index
= Variable, deren Wert sich aus mehreren anderen Variablen zusammensetzt
¾Polaritätsprofil (eigentlich keine Skalierung)
Ziel ist die Beschreibung eines Objekts durch eine charakteristische Kombination von Variablenwerten (Profil). Die Erhebung erfolgt normalerweise durch ein semantisches Differential, d.h.
man bittet Personen, die Produkte auf Beurteilungsskalen einzustufen. Meist möchte man dann
die Profile von zwei oder mehreren Objekten bezüglich des ausgewählten Bündels von Eigenschaften vergleichen.
Bsp: Man will wissen, welche Unterschiede Konsumenten zwischen Freiland- und Bodenhaltungseier sehen. Für verschiedene Attribute wird ein Gegensatzpaar an die Pole einer Beurteilungsskala geschrieben,
und die Kunden ordnen diesen dann Zahlenwerte von –3 bis +3 zu. (siehe Rückseite)
⇒ Das Polaritätsprofil ist also eine einfache Methode zur Ermittlung des Images von Objekten.
¾Likert-Skala
-9-
Céline Andereggen
Empirische Sozialforschung SS 03
Die Likert-Technik verwendet man bei der Messung eines Konstrukts durch mehrere Items. Ziel
ist es, geeignete von weniger geeigneten Items zu trennen und auf der Basis der für gut befundenen Items jedem Befragten einen Skalenwert für das untersuchte Konstrukt zuzuordnen.
Bsp. Umweltengagement → mehrere Items
Grad der Zustimmung
keine
voll
A Wissenschaft und Technik werden in der Lage sein, die Umweltprobleme zu lösen
1 2 3 4 5
B Wirtschaftswachstum ist die wichtigste Voraussetzung dafür, dass auch die Um1 2 3 4 5
weltprobleme gelöst werden.
C Wenn wir so weitermachen wie bisher, steuern wir auf eine Umweltkatastrophe zu.
1 2 3 4 5
D Umweltschutzmassnahmen sollen auch dann durchgesetzt werden, wenn dadurch
1 2 3 4 5
Arbeitsplätze verloren gehen.
Reaktionen der ersten 10 Befragten, für die Tabelle mussten die gegenläufigen Items A und B umgepolt
werden und zwar nach der Formel 6-gewählten Wert.
A
B
C
D
Summenscore
1
3
4
5
2
14
Der Grund für die inkonsistenten Antwortmuster
2
3
5
5
5
18
sind entweder zufällige Messfehler oder systemati3
5
3
1
5
14
sche Verzerrungen durch einzelne Items.
4
3
5
5
4
17
Deshalb berechnet man nun die Korrelation zwi5
3
4
5
*
*
schen jedem einzelnen Item und dem Summenscore,
6
3
*
5
3
*
den sogenannten Trennschärfekoeffizient. Ist die7
2
5
5
4
16
ser bei den meisten Items recht hoch und bei einigen
8
4
5
5
5
19
signifikant niedriger, so sind letztere zur Messung
9
5
5
5
4
19
weniger geeignet und werden ausgesondert.
10
1
1
5
5
12
Berechnung der Korrelation: siehe Rückseite
¾Guttman-Skala
Grundidee der Guttman-Skalierung ist, dass ein theoretisch durch eine hierarchische Ordnung
von Items erfasst werden kann. Das Modell geht davon aus, dass die Zustimmung zu einem „intensiveren“ Item mit hoher W’keit auch die Zustimmung zu einem „schwächeren“ Item einschliesst. Wenn man also die Aussagen hierarchisch ordnet und Zustimmung und Ablehnung
durch Zahlen (z.B. 1 bzw. 0) kodiert, so kann man eine Tabelle mit den „idealen“ Antwortkombinationen erstellen.
A B C D Skalenwert
Rechts haben wir ein Beispiel für eine solche Tabelle.
0 0 0 0 0
Hier ist D das intensivste Item, wer diesem zustimmt, hat
1 0 0 0 1
mit hoher W’keit auch A, B, und C zugestimmt.
1 1 0 0 2
Dem Modell zufolge dürfen bei n Items höchstens n+1
1 1 1 0 3
Antwortkombinationen auftreten. Empirisch gibt es aber
1 1 1 1 4
2n Antwortmöglichkeiten. Bei den nicht-idealen Antwortmustern zählt man nun die Fehler. (s. Rückseite)
Schliesslich berechnet man dann den Reproduzierbarkeitskoeffizienten
CR= 1-(Anzahl Fehler)/(Anzahl Items*Anzahl Befragte)
Die Empfehlung lautet, dass bei einer akzeptablen Skala der Reproduzierbarkeitskoeffizient nicht
unter 0.9 liegen sollte.
- 10 -
Céline Andereggen
Empirische Sozialforschung SS 03
5. UND 6.VORLESUNG: DESIGNS, DATENTYPEN, EXPERIMENTE
Buch: Kapitel 7 und 8
I.
Erhebungsdesigns (siehe auch Rückseite)
- einmalige Messung
Momentaufnahme und Vergleiche
Querschnittdesign
(Zeitpunkt oder kurze Zeitspanne)
von Untersuchungseinheiten
- Werte der gleichen Variablen
zusätzlich Analyse von Verände- zu mehreren Zeitpunkten
Trenddesign
rungen auf der Aggregatebene
- mit jeweils unterschiedlichen Stichproben
- Werte der gleichen Variablen
zusätzlich noch Analyse von indiPaneldesign
- zu mehreren Zeitpunkten
viduellen Veränderungen
- mit einer identischen Stichproben
• Die Schätzungen von Trends mit einer Panelanalyse und einer Trendanalyse können durchaus
auseinanderfallen, auch wenn keine Stichproben- oder Messfehler vorliegen. Dann nämlich,
wenn sich die Zusammensetzung der Bevölkerung im Beobachtungszeitraum verändert. Denn für
die erste Panelwelle wird zwar eine Zufallsstichprobe gezogen, aber wenn sich die Zusammensetzung der Population im Beobachtungszeitraum verändert, so ist die erste Stichprobe bei der
zweiten Panelwelle keine Zufallsstichprobe der Bevölkerung mehr. Bei einem Trenddesign werden dagegen jeweils neue „aktuelle“ Stichproben gezogen.
• Panelmortalität: durch Sterblichkeit, Wegzug oder andere Nicht-Erreichbarkeit muss man mit
einer Panelmortalität von ca. 10% von Welle zu Welle rechnen. Problematisch ist hier, dass die
Ausfälle meist nicht zufällig, sonder systematisch sind, so wechseln z.B. jüngere Personen öfters
den Wohnort oder sind Erwerbstätige öfters nicht erreichbar; dies führt zu einem systematischen
Stichprobenfehler. Man muss also die Panelmortalität möglichst gering halten, was einen gewissen Aufwand verursacht.
II. Daten und Designs
Der Zeitpunkt, auf den sich die Messung bezieht und der Erhebungszeitpunkt fallen oft auseinander. Daten der Vergangenheit ermittelt man mit Retrospektiv-Fragen, so kann man z.B. Paneldaten
statt mit mehreren Wellen auch mit einer Querschnitterhebung und Retrospektiv-Fragen ermitteln.
Problematisch ist aber, dass es hierbei je nach Erinnerungsvermögen zu Erinnerungsfehlern kommen kann.
- Die Daten beziehen sich nur auf einen
N Messwerte xit mit i=1,2, ..,N
Querschnittdaten
Zeitpunkt oder eine kurze Zeitspanne
und t=1
- Sequenz von Werten einer Variablen
T Messwerte xit mit i=1 und
Zeitreihendaten
- zu unterschiedlichen Zeitpunkten
t=1,2,...,T
- bei einer Untersuchungseinheit
- Sequenz von Werten einer Variablen
N*T Messwerte xi mit i=1,2,...,N
Paneldaten
- zu unterschiedlichen Zeitpunkten
und t=1,2,...,T
- bei mehreren Untersuchungseinheiten
Verlaufs- oder
- beziehen die Zeitintervalle zwischen zwei
Ereignisdaten
Ereignissen mit ein z.B. Dauer einer Ehe
- Während Paneldaten nur über zwei Zeitpunkte, nicht aber das zwischenzeitlich Geschehen informieren, beziehen Ereignisdaten dieses mit ein. Deshalb spielen Ereignisdaten eine wichtige
Rolle bei der Analyse von sozialen Prozessen.
- Ereignisdaten können durch Querschnitt- oder Paneldesigns erhoben werden, die Ereignisgeschichte muss retrospektiv erfasst werden.
III. Kohortendesign
• Kohorte = Bevölkerungsgruppe, die durch ein zeitlich-gemeinsames, längerfristig prägendes
Startereignis definiert ist, z.B. Alters- oder Geburtskohorte, Heiratskohorte, Berufskohorte
• Idee: Die Mitglieder einer Kohorte sind gemeinsamen kulturellen und sozialökonomischen Einflüssen ausgesetzt, die sich in einem mehr oder minder starken Grad auf den Lebensverlauf auswirken.
• Kohortendesigns können mit Querschnitt- oder Paneldesigns erhoben werden.
- Ex-ante-Kohortendesign: bestimmte zu vergleichende Kohorten werden gezielt für eine Befragung ausgewählt
- Ex-post-Kohortendesign: man fügt nachträglich einzelne Elemente zu Kohorten zusammen
- 11 -
Céline Andereggen
Empirische Sozialforschung SS 03
1) Kohorteneffekte: systematische Unterschiede zwischen den Kohorten, Generationeneffekt
z.B. Scheidungsrisiko: steigt seit Mitte der 90er Jahre in der Abfolge der Heiratskohorten
2) Lebenszykluseffekte: systematischer Zusammenhang zwischen den interessierenden Merkmalen und der seit dem Startereignis verstrichenen Zeit
z.B. Scheidungsrisiko: ist kurz nach der Eheschliessung klein, steigt dann an, erreicht mit etwa 3 Jahren
den Gipfel und fällt dann langsam wieder
3) Periodeneffekte: Einfluss von historisch einmaligen Effekten
z.B. neue Ehescheidungsgesetze: weil die Rechtssprechung die Reform abwartet, werden in dem Jahr
nur wenige Ehen richterlich geschieden; der Effekt macht sich in allen Kohorten bemerkbar.
•
Lebenszyklus-Fehlschluss: Effekt wird fälschlicherweise dem Lebenszyklus- statt dem
Kohorteneffekt zugerechnet
Bsp. Intelligenzabbau im Alter
Ältere Leute wiesen geringere Werte im Intelligenztest auf als jüngere Personen. Aber wie man herausfand, liegt dies nicht am Alter, sondern an der Schulbildung, die sich stetig verbessert hat, so
dass alte Leute im Durchschnitt eine schlechtere Schulbildung haben.
•
Kohorten-Fehlschluss: Effekt wird dem Kohorten- statt Lebenszykluseffekt zugerechnet
Bsp. Postmaterialismushypothese
Jüngere Leute neigen stärker zu postmaterialistischen Werten als ältere Generationen: ist dies ein
sozialer Wandel? Es könnte sein, der Effekt könnte aber auch einfach ein Lebenszykluseffekt sein:
jüngere Leute sind noch idealistisch und postmaterialistisch und werden dann mit zunehmendem
Alter immer materialistischer.
⇒ Die Unterscheidung beider Effekte kann nur durch Längsschnittuntersuchungen gemacht
werden.
IV. Experimentelle und quasi-experimentelle Designs
Varianzkontrolle: Ziel ist es, ein Merkmal zu isolieren und seine Auswirkungen zu untersuchen.
¾ Vorexperimentelles Design:
Design: X O oder O1 X O2 (wobei X für den Stimulus und O für die Beobachtung steht)
Weil hier eine Kontroll- oder Vergleichsgruppe fehlt, sind die Informationen unvollständig und
wir können keine Schlussfolgerungen ziehen.
Ein typisches Beispiel für ein vorexperimentelles „X O“ Design ohne Kontrollgruppe:
Die Hypothese „Schnelles Autofahren ist nicht gefährlich, denn die
Tempo
meisten Unfälle ereignen sich bei moderaten Geschwindigkeiten“
80
200
wird von nebenstehender Tabelle bestätigt, wenn man nur die UnUnfallfreie Fahrten
?
?
Fahrten mit Unfall
10
1
fallzahlen betrachtet.
Nehmen wir nun aber mal an, dass bei Tempo 80 100'000 Fahrten
Tempo
unfallfrei enden, bei Tempo 200 nur deren 1000. Dann sieht die Ta80
200
belle schon ganz anders aus und wir können die UnfallwahrscheinUnfallfreie
Fahrten
100’000
1000
lichkeiten vergleichen: Und die ist bei Tempo 200 dann nicht 10 mal
Fahrten mit Unfall
10
1
niedriger, sondern 10 mal höher als bei Tempo 80!
Oder : Bei einer Massnahme zur Förderung von Kindern aus sozial schwächeren Milieus zeigt sich nach
einem Jahr eine Leistungssteigerung bei den betroffenen Kindern, d.h. eine Differenz zwischen O1 und O2.
Aber weil eine Vergleichsgruppe fehlt, ist nicht sicher, ob die Leistungssteigerung sowieso eingetreten wäre oder wegen der Förderung.
¾ Experimentelle Designs
• Bedingungen:
1) Es werden mindestens 2 experimentelle Gruppen gebildet.
2) Die Aufteilung der Versuchspersonen auf die Gruppen erfolgt zufällig (Randomisierung)
3) Der Forscher manipuliert die unabhängige Variable, d.h. den Stimulus X.
• Design: R
z.B. die Versuchsgruppe bekommt ein neues
X O
Versuchsgruppe
Medikament, die Kontrollgruppe ein Placebo
R
O
Kontrollgruppe
• Allgemeines Design
R
R
X1 O1
X2 O2
z.B. Test verschiedener Unterrichtsmethoden
R Xm Om
• Hauptvorteil des experimentellen Designs:
Die Randomisierung neutralisiert den Einfluss aller Drittvariablen, sogar der unbekannten; so
kann es nicht zu Selbstselektion und Scheinkorrelationen kommen.
- 12 -
Céline Andereggen
Empirische Sozialforschung SS 03
Bsp. In einer Studie zeigt sich, dass Arbeitslose, die einen Fortbildungskurs besucht haben, schneller
wieder eine Stelle fanden. Dies ist aber noch kein Beweis für den Erfolg des Programms, möglicherweise wurden die Ergebnisse durch Selbstselektion verzerrt, denn vielleicht haben nur motivierte und besser
qualifizierte Arbeitslose teilgenommen, die auch ohne den Kurs bald wieder eine Stelle gefunden hätten.
Anders sieht es aus, wenn die Platzzahl beschränkt ist und die Plätze ausgelost werden. Diejenigen, die
nicht teilnehmen können, bilden dann die Kontrollgruppe. Eine Verbesserung der Beschäftigungschance
der Teilnehmer kann jetzt mit grösserer Gewissheit dem Kurs zugeschrieben werden.
• Mögliche Fehlerquellen von experimentellen Designs:
ƒ Wenn mit dem Stimulus X noch eine andere versteckte Variable verbunden ist, können
trotz Randomisierung Fehlschlüsse auftreten.
Bsp. (s.oben): mit der Kursteilnahme X ist eine Regelmässigkeit im Tagesablauf verbunden, die der
Entmutigung durch die Arbeitslosigkeit entgegenwirkt.
ƒ
Reaktivität: Falls die Teilnehmer wissen, dass sie Objekt wissenschaftlicher Forschung
sind, kann dies zu Verhaltensänderungen führen (Hawthorne-Effekt). Auch Forschungsleiter können, wenn sie die Hypothesen kennen, unbewusst die Teilnehmer beeinflussen.
Entgegenwirken kann man der Reaktivität aber mit Blind- oder Doppelblindversuchen.
ƒ Zufallschwankungen : besonders bei kleinen Fallzahlen kann die Randomisierung misslingen und die Merkmale werden ungleich auf die Versuchsgruppen verteilt. Dies kann man
aber mit Matching oft verhindern.
- Gruppenmatching: Man achtet darauf, dass die Verteilung der bekannten Merkmale in
den Gruppen gleich ist, z.B. gleich viele Frauen und Männer pro Gruppe. Dies erreicht
man, indem man Frauen und Männer getrennt randomisiert.
- Paarweises Matching: Jede Person hat einer Gruppe hat einen Zwilling in der Vergleichsgruppe, der genau die gleiche Merkmalskombination aufweist (z.B. weiblich, 20,
Abitur).
• Weitere experimentelle Designs
ƒ Vorher-Nachher-Messung:
Design: R O1 X O2
R O3
O4
Vorteil:
zusätzliche Messung und Kontrolle der Ausgangsniveaus O1 und O3
Nachteil: die Vorher-Messung kann möglicherweise die Nachher-Messung beeinflussen,
z.B. bei Lerneffekten in Tests
ƒ Solomons Vier-Gruppen-Design
- Die Wirkung des Stimulus wird hier doppelt überprüft.
R O1 X O2
- Ausserdem wird der Effekt des Messinstruments isoliert.
R O3
O4
- Bei einem positiv kausalen Effekt ist zu erwarten:
R
X O5
O2>O1, O2>O4, O5>O6, O5>O3
R
O6
• Gütekriterien von Experimenten
ƒ Interne Validität: Wie gut ist die Isolation des Stimulus, d.h. wie gut werden Störvariablen ausgeblendet?
ƒ Externe Validität: Lassen sich die (Labor-)Ergebnisse des Experiments verallgemeinern?
Gelten die Ergebnisse für alle Personen ? (da ja Versuchspersonen
meist Studenten sind!)
• Vor- und Nachteile von Experimenten:
Vorteile
Nachteile
- Durch die Randomisierung werden Störfakto- - Problem der externen Validität
ren kontrolliert
- Problem der Reaktivität
- Zeitliche Ordnung: zuerst wird der Stimulus
- Randomisierung ist bei der Untersuchung vie„produziert“, dann folgt der Effekt
ler sozialer Zusammenhänge nicht möglich.
- Simultane Prüfung komplexer Zusammenhänge
verursacht einen hohen Aufwand.
¾ Quasi-experimentelle Designs
- Quasi-Expeimente sind Versuchsanordnungen, die dem Vorbild des Experiments nahekommen, aber nicht alle strengen Anforderungen erfüllen, es fehlt (meist) die Randomisierung.
Denn bei der Untersuchung rechtlicher, wirtschaftlicher oder sozialer Maßnahmen ist eine Zufallsaufteilung von Versuchspersonen meist nicht möglich.
- Das zentrale Problem sind dann Drittvariableneffekte.
- 13 -
Céline Andereggen
Empirische Sozialforschung SS 03
• Design: O1 X O2
O3
O4
- Bei einer Randomisierung gibt es nur minime Unterschiede zwischen O1 und O3.
- Da diese hier nicht möglich ist, wendet man die Vorher-Nachher-Messung an, so können
Veränderungen in den beiden Gruppen trotzdem verglichen werden.
- Problematisch bleiben aber Verzerrungen, z.B. durch Selbstselektion.
Bsp.: Man untersucht den Einfluss eines schulischen Förderprogramms auf die Leistungen von Schulkindern. Tatsächlich ist am Ende (O2 - O1) > (O4 – O3). Doch Trotzdem ist dies kein 100%iger Nachweis, dass das Förderprogramm wirksam ist, sondern der Effekt könnte auch durch Selbstselektion
(nur motivierte Schüler melden sich an) oder durch einen systematisch Ausfall von Probanden (leistungsschwache Schüler brechen den Förderunterricht eher ab) verursacht werden.
-
Die Verzerrung kann man allerdings mit Gruppen- oder paarweisem Matching noch verkleinern.
Regressionseffekt: Regression zur Mitte kommt häufig vor, wenn sich die Werte von O1 und
O3 stark unterscheiden.
Bsp. Die schlechtesten Schüler im Förderprogramm können gleich schlecht bleiben oder besser werden und die besten können auch nur gleich gut oder schlechter werden. Tendenziell streben also die
Leistungen zu Mitte hin.
• Zeitreihendesign
O1 O2 O3 X O4 O5 O6
Das Zeitreihendesign ermöglicht längerfristige Vergleiche, so kann man Regression und Reifungsprozesse kontrollieren. (Allerdings ist die Unterscheidung zwischen einem längerfristigen
Trend und einem Massnahmeneffekt oft schwierig.)
Bsp.: Verlauf der Scheidungsrate, X ist ein neues Ehescheidungsgesetz.
Das Zeitreihendesign zeigte, dass das neue Gesetz den Trend kurzfristig unterbrochen hat, aber keine
längerfristigen Effekt hat.
- 14 -
Céline Andereggen
Empirische Sozialforschung SS 03
7. VORLESUNG: STICHPROBENTHEORIE
Buch: Kapitel 9
I.
Grundbegriffe
• Grundgesamtheit (Population) und Stichprobe (Sample):
Eine Stichprobe ist eine Auswahl von Elementen der Grundgesamtheit.
Bsp. Wählerbefragung: Grundgesamtheit sind alle Wahlberechtigten, daraus werden nach bestimmten
Verfahren eine Anzahl Wähler herausgezogen.
• Erhebungseinheiten sind Elemente der Population, auf die sich die Auswahl bezieht und die
überhaupt eine Chance haben, in die Stichprobe aufgenommen zu werden.
• Erhebungseinheiten sind nicht immer gleich mit Untersuchungseinheiten.
Zieht man z.B. aus einer Lehrerschaft Stichproben, um diese zu ihren Schülern zu befragen, sind die
Lehre zwar Erhebungseinheit, Untersuchungseinheit sind aber die Schüler.
• Typen von Stichproben:
(Vollerhebung: in der Regel zu aufwendig und zu teuer, z.B. eine Volkszählung)
- Wahrscheinlichkeitsauswahl: Zufallsstichproben
- bewusste Auswahl:
Quotenstichproben
- Willkürliche Auswahl:
Vorgang der Stichprobenziehung wird nicht kontrolliert
Bsp. psychologische Experimente mit freiwilligen Versuchskaninchen
⇒ Wenn das Ziel ist, bestimmte Parametern der Population mittels der Stichprobeninformation
zu schätzen, muss man Zufallsstichproben oder Quotenstichproben brauchen.
Zusammenhangshypothesen können dagegen auch an willkürlichen Stichproben geprüft
werden.
II. Wahrscheinlichkeitsauswahl
⇒ Bedingung: Jedes Element der Grundgesamtheit hat eine von Null verschiedene, angebbare
Wahrscheinlichkeit, in der Stichprobe berücksichtigt zu werden.
¾Einfache Zufallsstichproben
Bedingungen:
1. Die Auswahlwahrscheinlichkeit ist für alle Elemente identisch grösser als Null.
2. Es erfolgt eine direkte Auswahl in einem einstufigen Auswahlvorgang.
• Listenauswahl: nur möglich, wenn eine Urliste, d.h. ein Verzeichnis sämtlicher Elemente der
Grundgesamtheit existiert.
Bsp. Grundgesamtheit = Privathaushalte mit Telefonanschluss einer Stadt, Urliste = Telefonbuch,
die Auswahl erfolgt per Zufallszahl
• Random-Digit-Dialing (RDD): Der Computer wählt zufällig eine Telefonnummer
Dies ist z.B. sehr sinnvoll in Ländern, in denen die Telefonverzeichnisse unvollständig sind, so
werden auch Nummern erreicht, die im Telefonbuch nicht dringestanden wären.
• Lotterieauswahl: Zufallsziehung aus einer ‚Lostrommel’
• Random-Route-Verfahren (meist bei Umfragen mit persönlichen Interviews)
Da die Melderegister der Gemeinden oft nicht aktuell sind und die Gemeinde sie ausserdem
meist nicht so ohne weiteres zur Verfügung stellt, arbeitet man folgendermassen:
- Zufallsauswahl von Gebieten oder Gemeinden
- Zufallsauswahl einer Startadresse
- Anweisungen zu Auswahl einer Adresse, z.B. geradeaus bis zur ersten Kreuzung, dort links
abbiegen, dann die zweite Strasse rechts nehmen, Befragung im dritten Haus, 2.Etage
(Probleme sind allerdings Sackgassen, Kasernen u.ä., deshalb sind die Anweisungen in der Praxis
sehr kompliziert.)
⇒ Ausserdem ist es zweckmässig, wenn die Adressermittlung und das Interview von zwei
verschiedenen Personen durchgeführt wird. Denn wenn eine Person zugleich die Adressen
ermittelt und das interview macht, besteht die Gefahr, dass die Zufallsregeln verletzt werden, meist aus dem einfachen Grund der Bequemlichkeit.
• Schwedenschlüssel: dient der Zufallsaus- Haushaltsgrösse
1 2 3 4 5 6 7 8
wahl innerhalb eines Haushalts
Auszuwählende Person
1 1 3 2 2 5 7 4
Auf jeden Fragebogen wird eine Kombination von Zufallsziffern aufgedruckt, diese unterscheidet sich von Fragebogen zu Fragebogen. In einem 5-Personen-Haushalt, dann müssen wir
dann die zweitälteste (oder je nach Anweisung die zweitjüngste) Person befragen.
• Geburtstagsmethode: dient ebenfalls der Zufallsauswahl in einem Haushalt, man befragt diejenige Person, die über 18 ist und als letzte Geburtstag hatte.
- 15 -
Céline Andereggen
Empirische Sozialforschung SS 03
¾Mehrstufige Zufallsauswahl
Man kombiniert verschiedene einstufige Methoden miteinander.
Bsp. Zufallsauswahl von Gemeinden, danach eine zufällige Adressauswahl in den betreffenden Gemeinden (z.B. per Random-Route-Verfahren), und schliesslich eine zufällige Auswahl einer Person im Haushalt
(z.B. mit dem Schwedenschlüssel)
⇒ Gewichtung: Während in einem 8-Personen-Haushalt die Wahrscheinlichkeit, in die Stichprobe zu kommen bei 1/8 liegt, ist sie bei einem 1-Personen-Haushalt gleich1. Deshalb gewichtet man jede Person mit dem reziproken Wert ihrer Wahrscheinlichkeit; eine Person aus
einem 8-Personen-Haushalt wird also mit 8, dem reziproken Wert von 1/8, gewichtet. Dadurch erhält man eine „personenrepräsentative“ Stichprobe“
¾PPS-Samples (probability proportional to size)
- Die Auswahlwahrscheinlichkeit auf der ersten Stufe ist proportional zur Grösse der Auswahleinheiten. So wird also eine Gemeinde mit grösserer Einwohnerzahl auch mit höherer Wahrscheinlichkeit gewählt als eine kleinere Gemeinde.
- Auf der zweiten Stufe werden dann in jeder der ausgewählten Gemeinden die gleiche Anzahl
von Personen ausgewählt, die nachträgliche Gewichtung entfällt.
¾Klumpenstichproben
- Auf der Ersten Stufe wählt man die Klumpen aus, z.B. 15 Schulklassen aus 6 Gymnasien
- Auf der zweiten Stufe kommt es zu keiner Auswahl mehr, es gehen alle Elemente des Klumpens in die Stichprobe ein, also z.B. alle Schüler der ausgewählten Klassen.
⇒ Die Fehlerbreite
- ist invers zur Anzahl der Klumpen
- wächst mit der Grösse der Klumpen relativ zur Population
- wächst mit der Homogenität der Elemente innerhalb der Klumpen
- wächst mit der Heterogenität der Elemente zwischen den Klumpen
¾Schichtung
Eine Schichtung kann sinnvoll sein, wenn die Heterogenität eines Merkmals in der Grundgesamtheit sehr hoch ist.
⇒ Bedingungen, um überhaupt eine Schichtung durchführen zu können:
1. Vorwissen bezüglich der Merkmalsverteilung in der Population
2. Möglichkeit, Elemente der Grundgesamtheit separat nach Schichten auszuwählen
Falls beide Bedingungen erfüllt sind, zieht man die Zufallsstichproben getrennt nach Schichten.
Bsp. Wir wollen das Durchschnittseinkommen einer Population schätzen. In einer einfachen Stichprobe werden dann nur wenige Grossverdiener erhalten sein. Je nach dem, ob diese zufällig unter- oder
überrepräsentiert sind, wird der Schätzwert erheblich verzerrt. Wenn wir aber wissen, wie die Einkommen verteilt sind, können wir verschiedene Schichten machen, z.B. Grossverdiener, Mittelstand
und Leute mit einem Lohn unter dem Existenzminimum.
• Proportionale Schichtung:
Der Umfang jeder Schicht-Stichprobe ist genau proportional zur Grösse der Schicht.
• Disproportionale Schichtung
Aus Schichten unterschiedlicher Grösse wird die gleiche Anzahl von Elementen gezogen.
¾Vergleich zwischen Klumpen und Schichten
Klumpen
Schichten
- Homogenität in den Klumpen unerwünscht
- Homogenität in den Schichten erwünscht
- Verlust an Präzision verglichen mit der
- Verbesserung der Präzision verglichen mit
Zufallsstichprobe
der Zufallsstichprobe
III. Quotenauswahl
• Quote: Merkmalsverteilung z.B. Geschlecht: weiblich 54%, männlich 46%
• Die Quoten in der Stichprobe sollen im Hinblick auf die ausgewählten Merkmale den Merkmalsverteilungen in der Grundgesamtheit entsprechen. Um die Quoten zu erfüllen, erfolgt die Auswahl nicht zufällig, sondern nach vorgegebenen Regeln.
• Bedingung ist aber auch hier, dass man die Merkmalsverteilung in der Grundgesamtheit kennt,
was oft problematisch ist, da man nicht immer aktuelle Informationen über die Merkmalsverteilung der interessierenden Gruppe hat.
• Oft werden kombinierte Quoten verwendet, d.h. es muss die Verteilung mehrere Merkmale berücksichtigt werden. (Quotenanweisung: s. Rückseite)
Bsp.: 30% Beamtinnen und 70% Beamten, wobei ihr Anteil an allen Erwerbstätigen 15% betragen soll;
Angestellte: 60% Frauen und 40% Männer, mit einem Anteil an den Erwerbstätigen von 50%....usw
- 16 -
Céline Andereggen
Empirische Sozialforschung SS 03
• Argumente für das Quotenverfahren und was dagegen spricht
a) Die Quotenmerkmale sind mit anderen, eigentlich interessierenden Merkmalen korreliert,
sind also auch für diese repräsentativ.
⇒ Diese Korrelation ist nicht garantiert und eher unwahrscheinlich. Oder sind etwa die Einstellung zum Rechtsradikalismus, die Vorliebe für Nescafé und Wahlentscheide alle mit
den gleichen oder zumindest ähnlichen Quotenmerkmalen korreliert?!
b) Zumindest innerhalb der Quoten wird annäherungsweise eine Zufallsauswahl getroffen.
⇒ Dies dürfte in der Regel nicht der Fall sein, da viele Interviewer aus Bequemlichkeit auf
Freunde und Bekannte zurückgreifen. Um diesen Effekt etwas zu mildern, sollte man Interviewer aus verschiedenen Regionen und sozialen Schichten einstellen.
⇒ Ausserdem kommt es zudem oft zu Fälschungen, weil die Anweisungen zur Quotierung
zu kompliziert sind. Die statistischen Daten der Befragten werden dann einfach der Quote angepasst.
c) Eine Quotenstichprobe entspricht dem Design einer geschichteten Stichprobe, einfach mit
proportionaler Schichtung. Wenn die Schichten relativ homogen sind, wird die Schätzung
auch relativ unverzerrt sein.
⇒ Untersuchungen haben gezeigt, dass auch innerhalb der Quoten ziemlich heterogene
Antworten gegeben werden, die Schichthomogenität ist also eher unwahrscheinlich.
IV. Stichproben aus speziellen Populationen
Bei speziellen Populationen ist eine Listenwahl oft nicht möglich, insbesondere dann nicht, wenn
sie durch abweichendes Verhalten definiert werden, z.B. Spielsüchtige, Drogensüchtige
¾Capture-Recapture-Methode
- Man wartet in einer Spielhalle, jeder 5. Eintretende wird befragt. Ausserdem muss ein Name
oder eine Kennziffer notiert werden, die es ermöglicht, den Befragten später wiederzuerkennen. Schliesslich erhält man eine Stichprobe mit u Elementen.
- Einige Zeit später wiederholt man die Befragung und man erhält eine zweite Zufallsstichprobe
mit v Elementen.
- Daraus bildet man die Zahl w, das ist die Zahl der Personen, die bei Beiden Stichproben erfasst
wurden.
⇒ Die Schätzung aller Spieler X, die sich regelmässig in Spielhallen aufhalten, erfolgt nach der
Formel:
X=(u*v)/w
⇒ Voraussetzungen für dieses Verfahren sind allerdings zwei voneinander unabhängige Stichproben, sowie eine konstante Grundgesamtheit (Annahme).
¾Schneeballtechnik oder Nominationstechnik
- Bei der Schneeballtechnik gibt man Fragebogen an eine Person der interessierenden Population
(z.B. Homosexuelle) ab mit der Bitte, die Fragebogen an Freunde und Bekannte weiterzuverteilen.
- Bei der Nominationstechnik werden von der befragten Person (anonym) weitere Personen angegeben, die für die Untersuchung interessant sind, z.B. andere Drogensüchtige.
⇒ Es handelt sich aber bei keiner der beiden Methoden um eine Zufallsauswahl!
V. Theorie der Zufallsstichprobe
• Mit den Informationen aus eine Stichprobe wollen wir die jeweiligen Anteilwerte in der Population schätzen. Zur Schätzung von des unbekannten Parameters p der Population verwenden wir
den Anteilswert in der Stichprobe:
p = Stichprobenschätzwert des Parameters
p = n/N
N= Umfang der Zufallsstichprobe
n = Anzahl Personen der interessierenden Merkmalskategorie
Bsp. Zufallsstichprobe von N=120 Personen eines Stimmbezirks. Davon geben n=48 an, die SP zu wählen.
Der Schätzwert p für den Anteil der SP-Wähler in dem Stimmbezirk beträgt dann 48/120=0.4.
• Wenn man nun statt einer ganz viele Stichproben zieht, so gleicht sich die Binomialverteilung
der Normalverteilung an. Anhand der Streuung der Stichprobenverteilung kann man so den
Standardfehler (Streuung) s berechnen:
Streuung = √ p(1-p)/N
• Und schliesslich kann man so das Fehlerintervall (meist für 95% oder 99%) berechnen:
I1,2 = p ± zw √ p(1-p)/N
wobei zw=1.96 für 95% und zw=2.58 für 99%
Bsp.: s. Rückseite
- 17 -
Céline Andereggen
Empirische Sozialforschung SS 03
• √n –Gesetz: Der Vertrauensbereich ist umgekehrt proportional zur Wurzel aus dem Stichprobenumfang. Will man also die Präzision der Schätzung verbessern, z.B. den Vertrauensbereich halbieren, dann muss man den Umfang der Stichprobe vervierfachen.
• Berechnung des Umfangs, der nötig wäre, um eine gewünschte Präzision einer Schätzung zu erzielen:
N = p(1-p)( zw/h)2
h = Länge des Vertrauensintervalls
VI. Zufallsstichproben in der Praxis
¾ ADM-Design
(ADM = Arbeitsgemeinschaft deutscher Marktforschungsinstitute)
Grundgesamtheit des Designs sind alle deutschen Privathaushalte und die darin lebenden Personen, daraus wird eine dreistufige Zufallstichprobe mit Gebietsauswahl gezogen.
1.Stufe: Auswahl von Stimmbezirken mit Auswahl-Wahrscheinlichkeit proportional zur Grösse
(PPS-Design)
2.Stufe: Zufallsstichprobe von Adressen durch Random-Route-Verfahren. Es werden in jedem
ausgewählten Bezirk die gleiche Anzahl von Adressen ermittelt, jeder deutsche Haushalt hat also theoretisch die gleich W’keit, in die Stichprobe aufgenommen zu werden.
3.Stufe: Mittels Schwedenschlüssel wird nun eine Person des Haushalts ausgewählt und dann
erfolgt noch die Gewichtung anhand der Haushaltsgrösse.
¾ Fehlerquellen
• Zufallsfehler der Stichprobe: Diese Fehler kann man mittels Vertrauensintervallen in etwa abschätzen. (siehe oben)
• Systematische Fehler der Auswahl aufgrund praktischer Probleme: Manchmal hält sich der
Interviewer aus Bequemlichkeit nicht an die Regeln von Random-Route oder Schwedenschlüssel. (Wenn eigentlich die zweitälteste Person befragt werden sollte, diese aber nicht da ist und
dafür die drittälteste sehr auskunftsfreudig ist.... Fälschung)
• Verzerrungen, die nicht durch das Auswahlverfahren verursacht werden (Non-sampling-bias):
ƒ Messfehler
ƒ Fehlerquellen im Interview (siehe nächst Vorlesung)
ƒ Diskrepanz zwischen der Ziel- und der Surveypopulation: Undercoverage
Das ADM-Design bezieht sich z.B. nur auf Privathaushalte. Aber was ist mit Obdachlosen,
Heimbewohnern, Ordensleuten, Polizisten und Soldaten in Kasernen usw.? Allein die Anstaltsbevölkerung bewegt sich in einer Grössenordnung von 1-2% der Wohnbevölkerung.
Dies fällt als Fehlerquelle vor allem bei speziellen Untersuchungen ins Gewicht, die Alter,
Armut Einkommen oder soziale Schichtung untersuchen.
ƒ Non-Response: Ausfallquote durch Verweigerung oder Nicht-Erreichbarkeit
Ausschöpfungsquote A=
-
Anzahl realisierter Interviews
Bereinigte Bruttostichprobe
*100
Bereinigte Bruttostichprobe = Bruttostichprobe – stichprobenneutrale Ausfälle
z.B. Adresse existiert nicht, ist kein Privathaushalt; Bewohner gehört nicht zur Grundgesamtheit...
-
Anzahl realisierter Interviews = bereinigte Bruttostichprobe – andere Ausfälle – nicht auswertbare Interviews
Bsp.:
Bruttostichprobe
4620 Interviews
Stichpr.neutrale Ausfälle
-367
Bereinigte Bruttostichprobe 4235
Andere Ausfälle
- 1226
Nicht auswertbare Interviews -72
Anzahl realisiert Interviews 2955
Ö Ausschöpfungsquote A = (2955/4235)*100 = 69.5%
-
-
Unterschiedliche Ausschöpfungsquoten sind auch oft ein Resultat von der Interpretation
der Ausfälle: Je mehr Ausfälle man in die Kategorie „stichprobenneutral“ packt, desto höher die Ausschöpfungsquote. Denn im Einzelfall ist es oft schwer zu entscheiden, ob ein
Ausfall stichprobenneutral ist oder nicht. (siehe Rückseite)
Das Problem bei einer niedrigen Ausschöpfungsquote ist nur, dass die Ausfälle oft systematisch erfolgen, so sind etwa Singles in 1-Personen-Haushalten oder besonders mobile
Personen schwerer erreichbar und daher unterrepräsentiert.
Bsp. Mittelschichtbias: Man hat herausgefunden, dass die Kooperationsbereitschaft mit dem Bildungsgrad steigt und in der Mittelschicht grösser ist als ganz oben im Schichtgefüge. Deshalb ist die
Mittelschicht überrepräsentiert und der durchschnittliche Bildungsgrad der Bevölkerung nach oben
verschoben.
Unterdurchschnittliche Ausschöpfungsquoten gibt es oft auch bei älteren Menschen und sozialen
Randgruppen, wie oben schon beschrieben. (Undercoverage)
- 18 -
Céline Andereggen
Empirische Sozialforschung SS 03
-
Veränderungen der Ausschöpfungsquoten bei replikativen Untersuchungen können ausserdem die Interpretation erschweren.
Bsp. Der Anteil der Befragten, die sich zur Unterschicht zählen, ist seit Mitte der 80er Jahre rückläufig. Grund ist aber nicht der tatsächliche Wandel, sondern eine sinkende Ausschöpfungsquote:
denn je tiefer die Ausschöpfungsquote, desto tiefer der Anteil der Befragten aus der Unterschicht.
⇒ Rezepte gegen Ausfälle
- Kontaktversuche erhöhen und zeitlich streuen
- Verschiedene Arten des Kontakts anwenden: telefonisch, schriftlich, face-to-face
- Anreize zur Teilnahme erhöhen, z.B. durch kleines Geschenk oder Entlöhnung
- Verweigerung gering halten, indem die Interviewer gut geschult werden und bei Erstverweigerern ein Zweitversuch unternommen wird
- Item-Non-Response: Wenn ein Befragter die Beantwortung einzelner Items verweigert,
was z.B. bei der Einkommensfrage oft geschieht, dann ist das Interview nur eingeschränkt
brauchbar. Die komplette Verweigerung (Unit-Non-Response) kann zusammen mit der
Verweigerung einzelner Items kann eine drastische Senkung der Ausschöpfungsquote bewirken.
Bsp. Die Ausschöpfungsquote der gesamten Umfrage ist 70%. Von diesen 70% beantworten dann
wiederum nur 70% die Einkommensfrage. Dies ergibt für diese Frage nur gerade eine Ausschöpfungsquote von 0.7*0.7=0.49!
¾ Gewichtung
• Theoretisch-statistische Gewichtung (Designgewichtung):
Die Gewichtung erfolgt aufgrund bekannter Unterschiede in der Auswahlwahrscheinlichkeit
Bsp. Die Gewichtung nach Haushaltsgrösse beim Schwedenschlüssel
• Nachgewichtung, Redressment:
Die Verteilungen der Stichprobe werden nachträglich an die bekannten Verteilungen der
Grundgesamtheit angepasst.
Bsp. Bei einer eiligen Befragung hat man 70% Frauen und nur 30% Männer. Da man nun aber weiss,
dass die wirkliche Verteilung 53% Frauen und 47% Männer sind, wird man umgewichten, d.h. die Werte der Männer werden mit 47/30=1.57 gewichtet, die der Frauen mit 53/70=0.76.
• Gewichtung aufgrund empirischer Hypothesen:
Dies wird vor allem bei der Wahlforschung gemacht.
Bsp. Man stell die Recall-Frage „Wie haben sie sich bei der letzten Wahl entschieden?“ und vergleicht
die Antworten mit dem tatsächlichen Wahlergebnis. Wird eine Partei bei der Rückerinnerung unterschätzt, so werden aktuelle Werte der Sonntagsfrage (welche Partei würden sie wählen, wen diesen
Sonntag Wahlen wären?) „hochgewichtet“ und umgekehrt.
¾ Repräsentative Stichproben??
Eine Stichprobe kann niemals sämtliche Merkmale der Population repräsentieren, „repräsentativ“ ist also nur bildhaft zu verstehen. Wichtig ist, dass die Methoden und Schritte der Untersuchung genau dargelegt werden, gefordert ist also Transparenz. Da aber viele Meinungsforschungsinstitute ihre Methoden und Schritte nicht gründlich darlegen, ist eine gesunde Portion
Skepsis bei der Betrachtung sogenannt „repräsentativer“ Untersuchungen notwendig.
- 19 -
Céline Andereggen
Empirische Sozialforschung SS 03
8. UND 9. VORLESUNG: DIE BEFRAGUNG
I.
Die Befragung
Das Interview wird oft als „Königsweg“ der Sozialforschung bezeichnet, Skeptiker nenn es aber
wegen seiner Fehleranfälligkeit aus mal den „Holzweg“. Wie auch immer, sicher ist nur, dass es
die am häufigsten eingesetzte Methode der Sozialforschung ist.
¾Formen der Befragung
• Persönliches „face-to-face“ Interview
• Telephonisches Interview
• Schriftliche Befragung (Questionnaire)
¾Grad der Strukturierung
• Völlig strukturiert:
- Alle Fragen sind vorgegeben
- Alle Antwortkategorien sind vorgegeben
- Die Reihenfolge der Fragestellung ist vorgegeben
• Völlig offen:
- Vorgegeben wird nur das Thema, alles andere ist völlig offen
• Dazwischen gibt es natürlich noch viele Mittelwege
¾Vor- und Nachteile der Strukturierung
- Je höher die Strukturierung, desto eher sind Objektivität und Reliabilität erfüllt.
- Bei unstrukturierten Interviews hängt das Ergebnis stärker vom Interviewer ab, d.h. die Durchführungsobjektivität (und evtl. auch die Auswertungsobjektivität) ist geringer.
- Da bei der Strukturierung keine Antworten ausserhalb der vorgegebenen Kategorien möglich
sind, müssen die Kategorien alle Antwortmöglichkeiten abdecken, dazu ist ein grosses Vorwissen über das Thema nötig – oder man macht eine offenen Kategorie, z.B. „Sonstiges“.
- In der Praxis wendet man stark strukturierte Befragungen vor allem bei grösseren, quantitativen
Studien an.
- Unstrukturierte Interviews sind hingegen viel zweckmässiger bei explorativen Studien.
II. Theorie des Interviews
¾Unterschied zwischen Alltagsgespräch und Interview:
- Einmalig
- Anonym (Interaktion unter Fremden) => Distanz
- Ankündigung der Vertraulichkeit und neutrale Gesprächsführung (Interviewer darf Antwortreaktionen weder positiv noch negativ sanktionieren) : aus Sicht der Befragten bleiben die Auskünfte im Interview folgenlos und man erreicht unverfälschte Antworten.
(In der Wirklichkeit ist die vollkommene Neutralität allerdings schwierig zu erreichen, Mimik
und Körpersprache ändern sich oft unbewusst.)
Ö Nebst der neutralen gibt es auch noch die weiche Gesprächsführung (durch zustimmende Reaktionen Hemmungen abbauen und zu weiteren Antworten ermuntern) oder die harte Gesprächsführung
(autoritär, Verhörstil), aber beide werden nur selten angewandt, normalerweise braucht man die
neutrale Gesprächsführung.
¾Voraussetzungen für ein Interview
• Kooperationsbereitschaft der Befragten: Hier spielen da Interesse am Thema und Neugier eine
wichtige Rolle, ausserdem freuen sich viele Befragte darüber, dass die eigene Meinung von
anderen als wichtig erachtet wird.
• Norm, wahrheitsgetreu zu antworten: Diese Norm haben in den westlichen Kulturen die meisten Menschen verinnerlicht, solange die Kosten der Aufrichtigkeit einen bestimmten Schwellenwert nicht überschreiten. Dies bedeutet also, dass bei unangenehmen, heiklen Fragen eher
verzerrte Antworten zu erwarten sind.
• Gemeinsame Sprache: Der Interviewer und der Befragte müssen die Bedeutung von Fragen
und Antworten in gleicher Weise interpretieren. Insbesondere bei Randgruppen oder Subkulturen ist diese Bedingung oft nicht gegeben. Man bemüht sich hier, Verständigungsprobleme in
Pretests herauszufinden oder setzt Interviewer ein, die mit der Sprache der Zielgruppe vertraut
sind.
¾ Theorie des Interviews
• Man geht von einer „wahren“ Antwort aus, die aber oft durch Zufallsfehler oder systematische Abweichungen verzerrt ist. Ziel ist es, diese Verzerrungen (in Abhängigkeit von der Interviewsituation) zu erklären, um dann mögliche Gegenmassnahmen ergreifen zu können.
- 20 -
Céline Andereggen
Empirische Sozialforschung SS 03
• Holms Modell der Faktoranalyse
- Voraussetzung: Eine Einstellungsfrage wird mittels einer Itembatterie gemessen.
- Idee: Die Antwortreaktionen der einzelnen Personen sind durch Fremddimensionen und
soziale Erwünschtheit verzerrt.
„Soziale Erwünschtheit“ nennt man die Tendenz, das eigene Verhalten oder die eigene Meinung
in Richtung auf das sozial Erwartete zu verzerren, dies geschieht oft unbewusst.
Ö Antwortreaktion = a (Zieldimension) + b1 (Fremddimension 1)
+ b2 (Fremddimension 2) +.... + bm (Fremddimension m)
+ c (soziale Wünschbarkeit)
+ Zufallsfehler
- Mittels Faktoranalyse kann man dann die empirischen Gewichte von a, b1, b2, ...., bm und c
bestimmen. Man wählt dann nur diejenigen Items aus, die hohe a- und tiefe b- und cGewichte haben.
• Das Antwortverhalten von Befragten: Rationale Entscheidungstheorie
- Individuen müssen sich für eine Antwort entscheiden, dazu wägen sie die positiven gegen
die negativen Konsequenzen ab: Kosten-Nutzen-Perspektive.
- Befragte wollen die positiven Konsequenzen maximieren, dies sind in der Regel soziale
Anerkennung bzw. Vermeidung von Missbilligung.
• Hypothesen zur Informationsverarbeitung (Kognitionspsychologie)
- Retrospektivfragen fordern zunächst mal eine Erinnerungsleistung, dazu sind oft sekundäre
Informationen nötig.
Bsp. Die erste feste Partnerschaft wird oft mit anderen zeitlich parallele, relevanten Ereignissen verknüpft, z.B. mit dem Beginn des Studium oder einem wichtige politischen Ereignis.
Wenn man sich zuvor positive Ereignisse ins Gedächtnis ruft, dann ist oft auch die Beurteilung der jetzigen Situation positiv.
III. Fehlerquellen im Interview
• Befragtenmerkmale
ƒ Je weiter der tatsächliche Variablenwert von dem abweicht, was der Befragte für sozial erwünscht hält, desto unangenehmer wird die Angabe des wahren Werts empfunden. Die wahre
Antwort kostet dann etwas, z.B. Missbilligung, und je höher diese Kosten scheinen, desto grösser wird die Verzerrung in Richtung auf den Ort der sozialen Erwünschtheit.
-
Bsp. Eine Studie aus Grossbritannien ermittelte für englische Frauen durchschnittlich 2,9 verschiedene
Sexualpartner über das Leben verteilt, für Männer dagegen 11. Haben den die Engländer ausländische
Geliebte?! Hier spielt wohl der Effekt der sozialen Erwünschtheit kräftig mit, bei den Frauen wird dann
der Wert nach unten verzerrt, bei den Männern nach oben.
⇒
Gegenmassnahmen:
- Fragen möglichst neutral formulieren, wertbesetzte Begriffe vermeiden.
- In Ausnahmefällen versucht man durch suggestive Fragestellung den Ort der sozialen
Erwünschbarkeit auf der subjektiven Skala zu verschieben.
Bsp. „Viele Menschen lassen in einem Geschäft mal etwas unbezahlt mitgehen, wie ist dass mit
ihnen...?“ statt „Haben sie schon mal Ladendiebstahl begangen?“
Bei unangenehmen Fragen kann der Befragte auch die Antwort in einem Kuvert verschliessen und dieses dem Interviewer überreichen, z.B. bei Wahlabsichten.
- Randomized-Response-Technik (siehe später)
- Man kann auch Items nachträglich auf den Grad sozialer Erwünschtheit untersuchen
und solche mit hohen Werten bei der Auswertung weglassen.
ƒ Nichtwissen
„Nichtwissen“ gibt man nicht gerne zu, nicht einmal wenn es die Kategorie „Weiss nicht“ gibt.
Viele Leute kreuzen dann einfach irgend etwas an und falls es nur drei Kategorien inklusive
„Weiss nicht“ gibt, ist die W’keit, die Antwort zufällig zu treffen ja immerhin 50%.
Nichtwissen kann man aber durch Phantom-Fragen testen.
-
Bsp. Man fragt Leute danach, ob sie den Nationalrat Fritz Bünzli kennen, den es gar nicht gibt.
⇒ Befragte mit positivem Testergebnis bleiben dann bei der Datenanalyse unberücksichtigt.
ƒ Response-Set
Darunter versteht man systematische Antwortmuster von Befragten, die unabhängig vom Inhalt der Fragen zustande kommen, z.B. wenn eine Person immer die „goldene Mitte“ ankreuzt.
- 21 -
Céline Andereggen
Empirische Sozialforschung SS 03
⇒ Gegenmassnahme: Items mal positiv ,mal negativ in Richtung auf die Zieldimension polen. So kann man dann direkt die Antwortprofile kontrollieren und Befragte, die
inhaltsunabhängig antworten außchließen.
ƒ Ja-Sage-Tendenz, Akquieszenz: Messung mit der Anomie-Skala
Bsp. Man legt zwei Gruppen von Personen 9 Items vor, auf die sie mit Ja oder Nein antworten sollen.
Ein Item der Gruppe A lautete z.B. „Heute weiss man wirklich nicht mehr, auf wen man zählen kann.“
Die Gruppe B bekommt die gleichen Items, nur gerade invers formuliert, z.B. „Heute weiss man, auf
wen man zählen kann.“
Bei Gruppe A lag der Ja-Anteil bei 60%, also wäre zu erwarten, dass in Gruppe B 60% die Frage verneinen. Dies ist aber keineswegs der Fall, in Gruppe B verneinen nur gerade 10% die inversen Fragen!
⇒ Gegenmassnahme: Itembatterie sollte positive und negative Formulierungen enthalten. Zudem wird sich ein hohes Ausmass an Akquieszenz auch in tiefen Reliabilitätskoeffizienten
bemerkbar machen.
ƒ Meinungslosigkeit (Non-Attitude-Problem)
Nicht alle Befragten haben eine Meinung zum Thema, häufig wird dann eine spontane oder
rein zufällige Antwort gegeben.
⇒ Gegenmassnahme
- Vor den eigentlichen Fragen zum Thema eine Filterfrage stellen, z.B. Kennen sie das
Problem XY?“ Befragt werden dann nur Personen, die die Filterfrage mit „Ja“ beantworten.
Problem: Die Filterfrage schreckt möglicherweise einige Personen ab, weil sie glauben,
daß die folgenden Fragen sehr komplex sind.
- Oder man macht eine zusätzliche Kategorie „Weiss nicht“, aber Nichtwissen gibt man ja
auch nicht gerne zu. (s. oben)
9 Alternative zu Umfragen: Wahlbörse
Wahlprognosen sind oft sehr verzerrt, was durch Gewichtung zu lindern versucht. Eine anderes Verfahren zur Wahlprognose hat in Tests aber viel genauere Ergebnisse als Umfragen produziert: Die Wahlbörse. Hier kaufen die Teilnehmer Aktien einer Partei oder eines
Kandidaten und handeln diese untereinander, am Wahltag findet dann die Auszahlung je
nach prozentualem Abschneiden der Partei oder des Kandidaten statt. Der Vorteil dieser
Methode ist, daß die Teilnehmer ein Eigeninteresse haben, das Ergebnis möglichst exakt
zu prognostizieren.
Die Frage ist nur, ob und wieweit Umfrageergebnisse einen Einfluß auf die Teilnehmer der
Wahlbörsen haben.
• Frageeffekte
ƒ Die Frageformulierung hat einen grossen Einfluß auf die Antwortreaktion.
Bsp. Glauben sie, daß die USA öffentliche Angriffe auf die Demokratie verbieten sollten?
Ja: 54%
Nein: 46%
Glauben sie, daß die USA öffentliche Angriffe auf die Demokratie nicht erlauben sollten?
Ja: 75%
Nein: 25%
ƒ Rating vs. Ranking
- Beim Rating wird jedes Element separat auf einer Skala mit den Polen „sehr wichtig“ bis „überhaupt nicht wichtig“ eingeordnet.
- Beim Ranking werden einzelne Elemente nach ihrer Wichtigkeit in eine Reihenfolge bringen.
⇒ Die Werte sind also beim Rating höher als beim Ranking, wo auch Alternativen einbezogen
werden müssen. (Bsp.: siehe Rückseite)
ƒ Einfluß vorgegebener Antwortkategorien
- Je mehr die Befragten auf Schätzungen angewiesen sind, desto grösser ist der Effekt vorgegebener Antwortkategorien auf die Reaktion der Befragten.
- Vor allem bei Fragen nach der genauen Zeitdauer beruhen häufig auf Schätzungen. Die Antwortkategorien bieten den Befragten hier Anhaltspunkte zur Erinnerung, aber auch zur sozialen
Erwünschtheit. (Bsp.: siehe Rückseite)
⇒ Gegenmassnahme
- Fragen offen stellen, also keine Antwortkategorien vorgeben.
- Wenn es um detaillierte Zeitangaben geht, diese auf einen überschaubaren Zeitraum beziehen, z.B. „wie lange haben sie gestern ferngesehen?“ statt „wie lange sehen sie im
Monat fern?“
- 22 -
Céline Andereggen
Empirische Sozialforschung SS 03
ƒ Retrospektivfragen
Erinnerungen an negative Ereignisse werden häufig verdrängt oder nach hinten verschoben, sie
scheinen dann schon sehr lange her zu sein. Umgekehrt ist es mit den positiven Ereignissen, sie
bleiben besser im Gedächtnis und rücken zeitlich häufig näher – der Teleskop-Effekt.
Bsp. Die Frage „Haben sie in den letzten drei Jahren ein neues Auto gekauft?“ werden viele auch dann
bejahen, wenn der Autokauf schon vier oder fünf Jahre zurükliegt.
ƒ Fragereihenfolge: Halo-Effekt
Fragen können auf nachfolgende Fragen einen Einfluß haben = Halo-Effekt.
Bsp.: In einer Studie wurden 60 Studenten zuerst nach ihrer Lebenszufriedenheit und dann nach ihrer
Dating-Häufigkeit befragt; es ergab sich eine nicht signifikante Korrelation zwischen den beiden Antworten. Einer zweiten Gruppe wurden dieselben Fragen gestellt, aber in umgekehrter Reihenfolge und
hier ergab sich eine stark positive Korrelation von 0.66!
⇒ Gegenmassnahme: Effekte der Fragereihenfolge können im Pretest ermittelt werden.
• Interviewer und Interviewsituation
ƒ Äußere Interviewer-Merkmale (Kleidung, Auftreten....)
Je geringer die soziale Distanz zwischen Interviewer und Befragtem ist, desto weniger werden
die Ergebnisse bei sensiblen Fragen verzerrt sein.
Bsp. Bei einer Frage zur Verschärfung der Strafbestimmung bei Vergewaltigung werden weibliche und
männliche Interviewer sehr unterschiedliche Aussagen hören.
ƒ Fälschung durch den Interviewer
Da Interviewer pro Interview und nicht pro Stunde bezahlt werden, kommt es oft zu Teilfälschungen oder auch vollständigen Fälschungen, frei nach dem Motto „Kernfragen stellen,
Kontakte sichern und die Bögen am heimischen Schreibtisch vervollständigen.“.
In Untersuchungen hat sich allerdings gezeigt, daß ein gewisser Anteil an Fälschungen (5%)
die Ergebnisse nicht beeinträchtigt.
⇒ Gegenmassnahme: Will man Fälschungen wirklich reduzieren, muß man wohl die Art und
Höher der Entlöhnung der Interviewer ändern und auch die Interviewdauer in Betracht ziehen – aber aus Kostengründen wollen oder müssen wohl viele Meinungsforschungsinstitute Fälschungen stillschweigend dulden.
ƒ Verzerrung durch die Wahrnehmung des Interviewers
Teilweise sind die Interviewer direkt an der Datenerhebung beteiligt, nämlich immer dann,
wenn es darum geht, den sozialen Status (anhand der Kleidung, Wohnung...) oder die Attraktivität (für Partnerwahlinstitute) zu erheben. Hier ist natürlich keine objektive Einschätzung zu
erwarten, sondern eine stark subjektive.
ƒ Interviewsituation
- Die Umgebung, in der das Interview stattfindet, aktiviert Vergleichsstandards.
Bsp.
-
-
Interview in einem schönen, bunten Raum: höhere Lebenszufriedenheit.
Interview in einem sehr luxuriösen Raum: eigene Wohnzufriedenheit tiefer
Insbesondere bei Befragungen über Familie, Ehe und Ehezufriedenheit kann die Anwesenheit Dritter, z.B. eines Familienmitglieds / des Partners dem Befragten Zurückhaltung auferlegen, denn es gilt „Der Interviewer geht, der Partner bleibt.“
Sponsorship-Effekt: Auch Kenntnis über den Auftraggeber der Studie kann die Antworten
beeinflussen.
Bsp. Ein Arbeiter wird wohl nicht gleiche Antworten zum Thema Arbeitszeiten geben, wenn eine
Studie vom Arbeitgeberverbund, die andere von einer Gewerkschaft ist.
IV. Die Fragen
• Fragetypen
1) Einstellungen, Einstellungsfragen
z.B. politische Einstufungen, häufig mit Ratingskala oder Likertskala
2) Überzeugungen, Wissensfragen, auch subjektive Schätzungen: meist offene Fragen, weil Kategorien ungewollt Informationen vermitteln könnten
3) Verhalten, Verhaltensfragen
z.B. Umweltverhalten, meist Retrospektivfragen, während Fragen nach dem zukünftigen Verhalten
eher zu Meinungsäußerungen gezählt werden
4) Sozialstatistische Fragen, soziodemographische Fragen
z.B. Alter, Geschlecht, Zivilstand, Einkommen; durch Selbstauskunft oder Fremdauskunft
a) Direkte Fragen
b) Indirekte Fragen : Die Idee ist, daß Verzerrungen durch soziale Erwünschtheit weniger ins
Gewicht fallen und eventuell verborgene Motive enthüllt werden.
- 23 -
Céline Andereggen
Empirische Sozialforschung SS 03
-
Einstellungen über Faktfragen zu messen
Bsp. „Eine Bank mit einer Bilanzsumme von 100 Mia. Franken hat ein großes Machtpotential.“
Stimmt jemand der Frage zu, so geht man davon aus, daß er eher kritisch gegenüber Banken eingestellt ist.
-
Projektive Fragen
Bsp. Imagestudie von Nescafé: Befragte beschreiben anhand eines Einkauzettels die Person, die
einkauft → siehe Rückseite
⇒ Indirekte Fragen sollten allerdings nur in Ausnahmefällen angewendet werden, generell
ist davon eher abzuraten.
• Form der Fragen
1) Offene Fragen: keine vorgegebenen Kategorien, meistens bei explorativen Studien mit kleinen Fallzahlen
Ausnahme: formal offene Fragen, z.B. Dauer, Häufigkeit, Mengenangaben
2) Halboffene Fragen (Hybridfragen): geschlossene Antwortkategorien plus eine offene Kategorie, z.B. „Sonstiges, nämlich..........“
3) Geschlossene Fragen: geschlossene Antwortkategorien (präzise, disjunkt und erschöpfend),
Regelfall in standardisierten Interviews: Vorteile sind Vergleichbarkeit, geringer Aufwand
bei der Auswertung sowie hohe Durchführungs- und Auswertungsreliabilität, Nachteil ist,
daß nur Antworten innerhalb der vorgegebenen Kategorien möglich sind.
a) Filterfragen: leiten nur Betroffene in den entsprechenden Frageblock
Bsp. Frage nach dem Zivilstand, falls verheiratet folgt ein Frageblock zur Ehezufriedenheit, falls ledig
einer zur Datinghäufigkeit
b) Trichterfragen: Man beginnt ein Thema mit eher harmlosen Fragen und arbeitet sich zu den
schwierigen Fragen vor, wird vor allem bei heiklen Themen angewandt.
c) Eisbrecherfragen: haben keine bestimmten Informationswert, sollen aber eine Atmosphäre
aufbauen, in der sich der Befragte wohl fühlt.
• Grundregeln der Frageformulierung
1) Kurze, präzise und verständliche Fragen stellen, weder hochtrabende Sprache noch Fremdwörter verwenden, die in der Zielgruppe nicht üblich sind.
2) Anbiederungen sind zu vermeiden, man verwendet die formale Ansprechweise und keine
Subkulturformulierungen oder Dialekt (Ausnahme in der Schweiz: persönliche oder Telephoninterviews werden im Dialekt geführt.)
3) Keine doppelte Verneinung, dies würde die Frage nur unnötig verkomplizieren.
4) Antwortkategorien müssen präzise, disjunkt und erschöpfend sein.
5) Wertbesetzte Begriffe sind mit Vorsicht zu verwenden, z.B. Gerechtigkeit
6) Keine mehrdimensionalen Fragen stellen, daraus besser zwei Einzelfragen machen.
7) Keine indirekten Fragen zur Messung von Einstellungen verwenden, denn hier ist die Antwort nicht eindeutig.
8) Keine Suggestivfragen stellen, denn damit wird die Antwort in eine bestimmte Richtung gelenkt.
9) Nicht zu lange Itembatterien erstellen, und die Items sollten in verschiedene Richtungen gepolt werden.
10) Die Befragten sollen nie überfordert werden!
⇒ Wie immer gilt: Keine Regel ohne Ausnahme!
• Grundregeln der Fragebogenkonstruktion
1) Den Fragebogen mit Eröffnungsfragen beginnen, die allgemein sind und zum Thema hinführen, evtl. Eisbrecherfragen stellen.
2) Da die Aufmerksamkeitskurve zuerst ansteigt bevor sie mit zunehmender Fragedauer wieder
absinkt, werden wichtige Fragen im zweiten Drittel des Fragebogens gestellt.
3) Die Fragen sollten nach Themen geordnet sein.
4) Unterscheiden sich die Fragen nach Schwierigkeitsgrad, geht man mit Fragetrichtern vom
Allgemeinen zum Besonderen, Heikleren hin.
5) Man setzt Filterfragen, um überflüssige Fragen zu vermeiden und die Fragedauer zu verkürzen.
6) Neue Themen sollten mit einer Überleitung eingeführt werden.
7) Sozialstatistische Fragen stellt man am Ende des Fragebogens, da sie für die Befragten weniger interessant sind.
- 24 -
Céline Andereggen
Empirische Sozialforschung SS 03
8) Interviews sollten eine vernünftige Dauer haben, denn je länger ein Interview, desto größer
die Gefahr von Fälschungen und desto tiefer die Antwortqualität.
Erfahrungsregel:
Persönliche Interviews können bis zu 1½ Stunden dauern
Telephonische Interviews bis etwa 40 Minuten
Schriftliche Fragebögen sollten nicht mehr als 30 Minuten Bearbeitungszeit verlangen
9) Das Kontaktprotokoll wird vom Interviewer ausgefüllt und am Schluß vom Fragebogen getrennt, so können den Daten nicht mehr Personen und Adressen zugeordnet werden.
ƒ Pretest: Ein Fragebogen und die Erhebungsmethode werden zuerst getestet:
Ermittlung der Befragezeit
Prüfung der Verstänlichkeit der Fragen
Prüfung der Skalen auf Reliabilität und Validität z.B. Prüfung von Itembatterien mit der
Itemkonsistenzanalyse
Test auf Kontexteffekte, evtl. alternative Fragestellung
⇒ Falls nötig wird ein Pretest mehrmals wiederholt.
V. Durchführung der Befragung
• Vorbereitung
- Interviewerschulung, die Interviewer sollten wenn möglich auch 1-2 Probeinterviews durchführen
- Bei persönlichen Interviews sollte man darauf achten, jedem Interviewer etwa 10 bis höchstens
20 Interviews zuzuteilen, bei einer höheren Quote steigt die Fälschungsgefahr und sinkt die
Antwortqualität.
- Normalerweise schreibt man den zu befragenden Haushalt vorher an und kündigt das Interview
an. Man sichert dem Befragten Anonymität zu, das Thema nennt man aber besser noch nicht.
• Checkliste für die Auftragserteilung:
- Wie wurde die Stichprobe gezogen?
- Wie wurden die Interviewer geschult?
- Wie viele Interviews pro Interviewer?
- Wie erfolgt die Bezahlung?
- Wie werden die Interviews kontrolliert? Feldkontrolle?
- Wie viele Kontaktversuche sind vorgeschrieben?
- Werden mehrere Themen behandelt und welche?
- Wie lange soll das Interview dauern?
VI. Spezielle Fragetechniken: Die Randomized-Response-Technik
RRT ist ein Verfahren, welches vollständige Anonymität gewährleistet, denn dem Interviewer
bleibt die persönliche Antwortreaktion. Daher ist diese Technik ideal für sehr heikle Fragen,
z.B. zu Drogenmißbrauch oder anderen Straftaten.
Zur Durchführung benötigt man zwei Zufallsverfahren, bei denen die W’keiten bekannt sind,
z.B. zuerst einen Münzwurf und dann die Geburtstagsfrage (Sind sie an einem geraden Monat
geboren?).
⇒ Vorgehen:
ƒ Zufallsmechanismus: Münzwurf entscheidet, welche Frage man beantwortet
Zahl: „Sind sie in einem geraden Monat geboren?“ Ja Nein
Kopf: „Haben sie in den letzten fünf Jahren einmal in einem Laden bewußt etwas mitgehen
lassen, ohne zu bezahlen?“ Ja Nein
Frauen Männer
ƒ Man erhält eine Tafel mit den Antworten:
Ja
28
94
122
Obwohl der Interviewer nicht weiß, auf welche Frage
Nein
45
91
136
sich die Ja-Antwort bezieht, kann man die Häufigkeit
73
185
285
auf die Zahl-Frage nachträglich ermitteln:
- Von den 185 Männern haben ungefähr 50% die Zahl- und ungefähr 50% die eigentlich interessierende Kopf-Frage beantwortet, also in etwa 92.5 Personen pro Frage.
- Von denen, die die Geburtstagsfrage beantwortet haben, kann man wiederum einen Ja- und
Nein-Anteil von je 50%, also 46.25 Personen annehmen.
- Insgesamt wurden von dem Männern aber 94 Ja-Antworten abgegeben, davon subtrahieren
wir nun die 46.25 der Geburtstagsfrage und erhalten so 47.75 Ja-Antworten für die Frage
nach dem Ladendiebstahl, was einen Anteilswert von 47.75/92.5=0.52 ausmacht. Schätzungsweise 52% der Männer haben also in einem Geschäft schon mal etwas mitgehen lassen. (formale Rechnung: siehe Rückseite)
- 25 -
Céline Andereggen
Empirische Sozialforschung SS 03
⇒ Die Methode ist sehr aufwendig und der Erfolg hängt davon ab, ob die Befragten die Funktionsweise verstehen, man muß ihnen also die Methode genau und verständlich erklären, wobei
viele sicher sehr skeptisch sind.
VII. Soziometrie und soziale Netzwerke
• Es geht hier um die Analyse der sozialen Beziehungen zwischen Gruppenmitgliedern, z.B. in
einer Firma oder in einer Schulklasse.
• Typische Fragen sind zum Beispiel:
- Mit wem (welchem Arbeitskollegen) würden sie ein wichtiges Problem besprechen?
- Welche drei Klassenkameraden möchtest du am liebsten zu deinem Geburtstag einladen?
• So erhält man Namen (Namensgeneratoren) und kann dann das Beziehungsgeflecht in einer
Beziehungsmatrix darstellen → siehe Rückseite
• Ganze Netzwerke sind oft sehr komplex, oft aber betrachtet man dann nur einen Ausschnitt aus
dem ganzen sozialen Netz, nämlich egozentrische Netzwerke, hierbei steht eine Person im
Mittelpunkt. Das Vorgehen bleibt in etwa gleich: Zuerst muß man wie oben „Namen“ erzeugen
(Namensgeneratoren) und dann fragt man nach den sozialen Beziehungen zwischen den „Namen“ und erhält so eine Information über einen Ausschnitt der sozialen Umgebung der Befragten. → Beispiel: Rückseite
⇒ Ziele der Netzwerkanalyse:
- Beschreibung verschiedener Netzwerke
Bsp. Individuelle Netzwerke in einer Organisation; Verflechtung von Unternehmen
- Untersuchung von Zusammenhängen:
- Welche Netzwerke in einer Firma sind für den Aufstieg besonders günstig?
- Hängt das Verhalten vom Ego vom Netzwerk ab, z.B. beim Wahlverhalten?
VIII. Befragungsformen
¾Telephonische Befragung
Die telephonische Befragung ist heute sehr weit verbreitet, ⅔ aller Umfragen werden telephonisch durchgeführt.
Vorteile:
Leichte Stichprobenziehung, vor allem da heute aktuelle Telephonverzeichnisse für (nahezu) alle Privatanschlüsse auf CD-Rom vorliegen. Ist das Telephonregister unvollständig,
muß man allerdings auf Random-Route zurückgreifen.
Die Interviewer können gut kontrolliert werden, vor allem wenn die Befragung von einem
Telephoninstitut aus gemacht wird.
Die Anonymität ist sehr hoch und dadurch die Gefahr der sozialen Erwünschtheit tiefer.
Man erreicht auch sehr hohe Ausschöpfungsquoten (70% und mehr), weil man ohne große
Kosten viele Kontaktversuche unternehmen kann.
Eine Befragungszeit von 30 Minuten erlaubt schon etwa 100 Fragen.
Die Interviewkosten sind gering und das CATI (computer-assistiertes Telephon-Interview,
Antworten werden fortwährend eingetippt) erleichtert das Datenmanagement und erlaubt
eine höhere Standardisierung.
Bei einem CATI sind außerdem Filterfragen besonders leicht zu bewältigen, der Computer
springt automatisch zur Frage.
Auch differenzierte Antwortskalen wie z.B. die Likertskala oder Ratinskalen können (bis
zu einem gewissen Maß) problemlos angewendet werden.
Der Computer kann außerdem schon während dem Interview Konsistenzanalysen durchführen, wenn z.B. bei der Zivilstandsfrage „ledig“ angegeben wird und danach eine Ehefrau erwähnt ist, weist der Computer den Interviewer an, eine Nachfrage zu stellen.
⇒ Methodische Studien zeigen keinen wesentlichen Qualitätsunterschied zwischen persönlicher und Telephon-Befragung.
¾Persönliche (face-to-face) Befragung
• Vorteile:
- Der Interviewer kann nachfragen, die Anwesenheit Dritter kontrollieren und auch eine eignen Einschätzung über den Status der Person vornehmen.
- Man kann dem Befragten außerdem Bildmaterial vorlegen.
- Auch komplexere Fragen sind möglich und können erläutert werden.
- Man kann Anonymisierungsverfahren wie verschlossenen Antwortkuverts oder RRT einsetzen.
- 26 -
Céline Andereggen
Empirische Sozialforschung SS 03
• Nachteile:
- Die Interviews sind teuer und aufwendig, man kann nicht beliebig viele Kontaktversuche
starten.
- Die Kontrolle der Interviewer ist schwierig und die Gefahr von Fälschungen daher groß.
- Die persönliche Befragung ist anfälliger für den Effekt der sozialen Erwünschtheit.
¾Schriftliche Befragung
• Arten
- Schriftliche Befragung mittels Postversand (Normalfall)
- Schriftliche Befragung in Gruppen in Anwesenheit eines Versuchsleiters
- Kombination einer schriftliche Befragung mit einer telephonischen oder persönlichen Befragung (meist schriftliche Nachbefragung)
• Vorteile:
- Die Methode ist kostengünstig und nicht sehr aufwendig.
- Die Befragten können in Ruhe über die Fragen nachdenken.
- Der Interviewer hat keinen Einfluß auf das Antwortverhalten und die Anonymität verringert den Effekt der sozialen Erwünschtheit.
• Nachteile:
- Die Rücklaufquoten sind eher tief → aber können erhöht werden durch kleine Anreize
(Verlosung, Geschenk). Am wirkungsvollsten ist aber eine telephonische Erinnerung.
- Man hat keine Kontrolle darüber, wer den Fragebogen ausfüllt.
- Rück- und Verständnisfragen sind nicht möglich (oder es wird eine Hotline eingerichtet.)
- Wissensfragen kann man nicht so gut stellen, da sonst Lexika oder Dritte konsultiert werden.
- Damit Filterfragen u.ä. die Befragten nicht vor Probleme stellen, muß der Fragebogen sehr
einfach und übersichtlich gestaltet werden.
- Mittelschichtbias
¾Online-Befragungen
• Vorteile:
- Geringe Kosten (Druck und Versandkosten entfallen)
- Arbeitsschritte der nachträglich Kodierung und Dateneingabe entfallen
- Programmierte Filterführung und Konsistenzprüfung möglich.
- Flexibilität bei der graphischen Gestaltung.
- Auch große Datenmengen sind leicht handhabbar.
• Nachteile:
- Geringe Verbreitung des Internets (66% der Haushalte), daher nur für spezielle Zielgruppen einsetzbar
- Viele Befragte sind eher skeptisch wegen der Daten- und Übertragungssicherheit
- Die Ausschöpfung ist eher gering, geringe Verpflichtung
- Wissensfragen können nicht gut gestellt werden.
IX. Qualitative Methoden der Befragung
¾ Kritik an den quantitativen Methoden
- Künstliche Interviewsituation
- Strukturierung der Erhebungsmethoden, vorgegebene Antwortkategorien
- Dabei kommt die subjektive Sinndeutung der Befragten zu wenig zum Zug.
¾ Merkmale der qualitativen Forschung
- Subjektsbezogenheit
- Offenheit bezüglich den Fragen, Antworten und Methoden
- Untersuchung in alltäglichen Situationen
¾ Ziele
- Deskription empirischer Sachverhalte
- Aufstellung von Typologien
- Gewinnung von Hypothesen
- Prüfung von Hypothesen
¾ Methode
Offene, unstrukturierte Interviews mit kleinen, willkürlichen Stichproben
⇒ Stärker in die Tiefe gehen, Material intensiver auswerten, vertraute Gesprächsatmosphäre
- 27 -
Céline Andereggen
Empirische Sozialforschung SS 03
¾Das fokussierte Interview
1. Alle Befragten haben eine konkrete Situation erlebt, z.B. einen bestimmten Film gesehen.
2. Der Forscher analysiert die Situation und erarbeitet einen Interviewerleitfaden, der alle thematischen Aspekte enthält, die im Interview angesprochen werden sollen.
3. Das Interview erfolgt anhand des Leitfadens, Ziel ist die Erfassung der subjektiven Erfahrung des Befragten.
4. Die Antworten werden nachher vom Forscher klassifiziert und ausgewertet.
• Methodische Regeln beim fokussierten Interview
- Nicht-Beeinflussung: die Antworten sollen dem Befragten nicht nahe gelegt werden.
- Spezifität: genaues Nachfragen von Erlebnissen oder Meinungen; man versucht, auch
Reaktionen auf Details der erlebten Situation herauszufinden.
- Erfassung eines breiten Spektrums: man versucht, möglichst alle Aspekte des Themas
anzusprechen
- Tiefgründigkeit und personaler Bezugsrahmen: affektive Nachfragen (z.B. Wörter wie
„gut“, „schön“) sollen durch Nachfragen genauer ergründet werden.
¾Das narrative Interview
- Das Ziel beim narrativen Interview ist es, erfahrungsnahe, subjektive Aussagen über Ereignisse und biographische Abläufe zu erlangen.
1. Der Interviewer gibt ein Thema an: Stimulierung.
2. Es folgt die eigentliche Erzählung, der Interviewer soll möglicht nicht mit Fragen eingreifen.
3. Nachfragphase: Am Schluß kann dann der Interviewer noch offenen Punkte klären, „wie
kam es dazu?, „wie ging es weiter?“
- Das Interview wird auf Tonband aufgezeichnet und dann ausgewertet.
⇒ Mit der Auslösung der Erzählflusses wird eine Dynamik wirksam, aber trotzdem folgt die
Erzählung dem Zwang zur Gestalterschliessung (Erzählung muß vollständig, verständlich
und ausgewogen sein), dem Kondensierungszwang (der Erzähler muß Schwerpunkte setzen) und dem Detaillierungszwang (Motive und Zusammenhänge müssen verständlich
sein).
¾Das problemzentrierte Interview (Mischform zw. fokussiertem und narrativem Interview)
- In der Praxis sind nicht alle Personen fähig oder willens, frei zu erzählen. Deshalb spielt der
Interviewer hier auch während der Erzählphase eine aktive Rolle, greift mit eventuellen Fragen ein und orientiert sich dabei an einem Leitfaden.
- Zudem wird das Interview durch einen quantitativen Kurzfragebogen ergänzt.
¾Probleme qualitativer Methoden
• Qualitative Interviews kann man vor allem bei explorativen Untersuchungen und Untersuchungen von Subkulturen, sozialen Randgruppen und sozialer Probleme gut brauchen, nicht
aber zur Überprüfung von Hypothesen.
• Stichprobenauswahl: Die kleinen, willkürlichen Fallzahlen erlauben keine Übertragungen auf
die Grundgesamtheit.
• Objektivität, Reliabilität und Validität:
- Interviewereffekte
- Effekte der Fragereihenfole
- Soziale Erwünschtheit
- Selektive Wahrnehmung
• Datenauswertung:
- Durchführungs- und Auswertungobjektivität
- 40 Interviews von 2-3 Stunden füllen gut und gerne 2000 Seiten.
- Die vorgegebenen Ziele lassen sich nicht ohne quantitative Methoden erreichen.
⇒ Obwohl immer die quantitativen Methoden immer noch am meisten eingesetzt werden, ist eine
Kombination von qualitativen und quantitativen Methoden oft sinnvoller.
Bsp. Marienthal-Studie
Man bat Kinder aus Marienthal und einem anderen Dorf, eine Aufsatz über ihre Weihnachtswünsche zu
schreiben (qualitative Methode). Denn Weihnachtswünschen ordnete man dann ihre Preise zu (quantitative Methode). Die Kosten der Weihnachtswünsche der Marienthaler Kinder waren ganz klar tiefer als
die der anderen Kinder, man sah darin ein Indiz für die Resignation.
- 28 -
Céline Andereggen
Empirische Sozialforschung SS 03
10. VORLESUNG: DIE BEOBACHTUNG
I.
Die Beobachtung
• Wissenschaftliche Beobachtung vs. Sozialreportage
Die wissenschaftliche Beobachtung nimmt immer Bezug auf eine Forschungshypothese.
Die Beobachtung ist viel stärker kontrolliert und systematischer als bei einer Sozialreportage.
• Probleme bei Beobachtungen
Verzerrung durch selektive Wahrnehmung: Autoren haben eine Hypothese im Kopf und sehen dann nur bestätigende Ereignisse
Risiko der Fehlinterpretation: gleiche Gesten oder Verhaltensweisen können je nach Kultur
oder Milieu unterschiedliche Bedeutungen haben.
⇒ Deshalb ist es so wichtig, daß auch die Beobachtung systematisch abläuft und die Hypothesen im Voraus genau erklärt werden.
II. Beispiele aus sozialwissenschaftlichen Beobachtungstudien
¾Der Klassiker: Die Marienthal-Studie
ƒ Objekt der Beobachtung: Marienthal, ein kleiner Ort in Österreich, der schwer von Massenarbeitslosigkeit betroffen ist. Viele Leute leben von der „Nothilfe“, diese reicht kaum für das Nötigste aus.
ƒ Fragestellung der Studie: Führt die Arbeitslosigkeit zu Apathie oder zum Aufstand?
ƒ Abhängige Variable ist die subjektive Bewältigung der Arbeitslosigkeit.
ƒ Die Erhebung erfolgt durch einen Multi-Methoden-Mix:
-
Prozessgenerierte Daten: Bevölkerungsstatistik, Abonnements von Zeitungen, Konsumstatistik,
Ausleihziffer der Bibliothek, Mitgliederzahl der Vereine etc
Qualitative Interviews mit 30 Frauen und Männern
Standardisierte Befragungen über Zeitverwendung
Inhaltsanalyse von Schulaufsätzen der Kinder zum Thema „Weihnachtswunsch“, „Berufswunsch“
Beobachtung: Zeitmessung von Gehgeschwindigkeiten
• Bsp: Kleidersammlung
Die Forscher veranstalteten in Wien eine Kleidersammlung, die Kleider wurden dann an einige der bedürftigsten Marienthaler Firmen verteil. So erlangten die Forscher einen Zugang zum Beobachtungsfeld,
ohne Argwohn zu erregen.
Sie beobachteten den Zustand der Wohnung (Größe, Sauberkeit, Ordnung) sowie die Kleidung der Familienmitglieder, insbesondere der Kinder.
⇒ Beobachtung in der natürlichen Situation = Feldbeobachtung
⇒ Der Forscher nimmt an den Interaktionen in der sozialen Situation teil =teilnehmende Beobachtung
⇒ Die Beobachtungsergebnisse werden meist nachträglich protokolliert. (Gefahr der Verzerrung durch Erinnerungslücken)
Nach der Beobachtung erstellten die Forscher eine Typologie:
Familientypen
Indikatoren
ungebrochen
resigniert verzweifelt
Keine Zukunftsplänee
+
+
Verzweifelt
+
Apathisch
Keine ordentliche Haushaltsführung
Diese Typologie wurde dann noch am Außenkriterium Einkommen überprüft:
Familientyp
%-Anteil
Einkommen
ungebrochen
16
34
resigniert
48
30
verzweifelt
11
25
apathisch
25
19
apathisch
+
+
+
⇒ Die Typologie ist allerdings nicht fest, sondern dynamisch:
Mit zunehmender Dauer der Arbeitslosigkeit werden anfangs ungebrochene Familien auf
der Stufenleiter der einzelnen Phasen langsam bis zur Apathie absteigen.
• Bsp: Umgang mit der Zeit
Mit einer versteckten, nicht-teilnehmenden und nicht-reaktiven Beobachtung ermittelten die Forscher
dann noch die Gehgeschwindigkeit von Männern und Frauen und zählten auch, wie oft sie stehenblieben. Per Beobachtung wurden also in diesem Fall direkt quantitative Daten erhoben.
Die Ergebnisse zeigen markante Unterschiede zwischen Männern und Frauen: Die Männer bleiben deutlich häufiger stehen und laufen langsamer als die Frauen.
- 29 -
Céline Andereggen
Empirische Sozialforschung SS 03
⇒ Die Erklärung der Forscher ist einleuchtend
Die Zeitstruktur ist mit der Arbeit gekoppelt, bei den Frauen mit der Hausarbeit, bei den
Männern mit der Erwerbsarbeit. Die arbeitslosen Männer verlieren mit der Arbeit also
auch die Zeitstruktur, für sie verliert die Stundeneinteilung den Sinn.
• Die Ergebnisse der Marienthal-Studie zusammengefaßt:
- Arbeitslosigkeit „produziert“ nicht Aufstand, sondern Apathie, wobei die Quote der apathischen Familien mit der Zeit ansteigt
- Diese Apathie zeigt sich an rückläufigen Mitgliederzahlen in den Vereinen, an rückläufigen
Bücherausleihen der Bibliothek und an den Gehgeschwindigkeiten der arbeitslosen Männer,
die langsamer als die Frauen laufen.
¾Studie: Wenn Prophezeiungen fehlschlagen
ƒ Zwei Gruppen einer Weltuntergangssekte erwarten den Weltuntergang, den ihre Führerin für
ein bestimmtes Datum angekündigt hat. Die Hauptgruppe in Salt Lake City um die Führerin
weist eine sehr dichten Zusammenhalt unter den Anhängern auf, während bei der „Filiale“ in
Collegeville die Mitglieder stärker voneinander isoliert sind.
ƒ Hypothese: Bei einem Fehlschlag der Prognose tritt ein Spannungsverhältnis zwischen dem
Glaube an die Prophezeiung und der Wahrnehmung der Realität auf. Diese Dissonanz kann auf
zwei Arten beseitigt werden:
a) Der Glaube wird aufgegeben
b) Der Glaube wird so uminterpretiert, daß es zur Realität paßt, dies ist dann wahrscheinlich,
wenn andere Gläubige die Uminterpretierung teilen. In diesem Fall ist dann auch eine rege
„Missionstätigkeit“ zu erwarte, um die Unterstützung der Umdeutung zu sichern.
ƒ Probleme der Forscher:
- Zugang zum sozialen Feld: Obwohl die Gruppen sehr verschossen waren, erreichte man
durch präparierte Geschichten über okkulte Erlebnisse den Zugang.
- Probleme der Beeinflussung des sozialen Geschehens durch den Beobachter: Um nicht aufzufallen, mußte sich der versteckte Beobachter an den Aktivitäten beteiligen, aber er durfte
zumindest keinen Einfluß auf die abhängige Variable der „Missionstätigkeit“ ausüben.
- Protokollierung: Der „Spion“ mußte sich gelegentlich ins Bad oder auf die Toilette verziehen, um Notizen anzufertigen.
ƒ Als der Weltuntergang nicht eintrat, wurden die Hypothesen bestätigt:
- In Collegeville verließen Mitglieder die Sekte oder wurden zumindest sehr skeptisch.
- In Salt Lake City dagegen erfolgte eine Umdeutung (der feste Glaube der Sektenmitglieder
hat die Katastrophe gerade noch abgewendet) und die Mitglieder nahmen eine rege Missionstätigkeit auf.
III. Verschiedene Arten der Beobachtungstechnik
¾ teilnehmende vs. nicht-teilnehmende Beobachtung
ƒ Eine teilnehmende Beobachtung erfolgt dann, wenn der Beobachter eine definierte Rolle im
sozialen Feld übernehmen kann, z.B. als Besucher in einer fremden Kultur (passiv) oder als
Erzieher in einer Jugendgruppe (aktiv).
ƒ Allerdings besteht bei der teilnehmenden Beobachtung das Problem des „going native“, der
Beobachter fängt an, sich mit der beobachteten Gruppe zu identifizieren.
ƒ Ein weiteres Problem bei der teilnehmenden Beobachtung ist, das der Beobachter das Geschehen beeinflusst.
ƒ Ein Nachteil ist auch, daß der Beobachter mitwirken und protokollieren muß, während er
sich bei der nicht-teilnehmenden Beobachtung ganz auf das Geschehen konzentrieren und direkt notieren kann.
¾ offene vs. verdeckte Beobachtung
ƒ Bei der verdeckten Beobachtung gibt es zwei Varianten:
- Der Beobachter nimmt teil, gibt sich aber nicht als solcher zu erkennen: Spion-Methode.
- Der Beobachter will von den beobachteten Personen unentdeckt bleiben : SchlüssellochMethode.
ƒ Falls die verdeckte Beobachtung machbar und ethisch auch vertretbar ist, hat sie den großen
Vorteil, daß sie nicht-reaktiv ist.
¾ Feld- vs. Laborversuch
ƒ Beim Laborversuch kann man die Stimuli vorgeben und die Störfaktoren genau kontrollieren: interne Validität. Aber die Nachteile sind, daß es langfristige Studien im Labor nicht
- 30 -
Céline Andereggen
Empirische Sozialforschung SS 03
machbar sind, und daß es auch nicht immer möglich ist, die interessierenden Merkmale in
einem Labor zu erzeugen, z.B. Arbeitslosigkeit.
ƒ Der Feldversuch hat eine geringere interne Validität als der Laborversuch, aber dafür eine
größere externe Validität. Ausserdem kann man bei Feldversuchen auch langfristige Untersuchungen durchführen und dies auch mit Variablen, die im Labor nicht erzeugt werden
können wie eben z.B. Arbeitslosigkeit.
¾ Selbst- vs. Fremdbeobachtung
Selbstbeobachtung ist dann nützlich, wenn es um das eigene Verhalten und vor allem um die
eigenen Gefühle geht, aber es ist natürlich nicht intersubjektiv nachprüfbar.
¾ Unstrukturierte vs. strukturierte Beobachtung
ƒ Bei der unstrukturierten Beobachtung bleibt Raum für Spontaneität und unvorhergesehene
Ereignisse, allerdings besteht das Problem von Verzerrungen.
ƒ Die strukturierte Beobachtung erhöht dagegen Objektivität und Zuverlässigkeit der Beobachtung (nächster Abschnitt).
IV. Die strukturierte Beobachtung
ƒ Der Grad der Strukturierung wird von der total unstrukturierten Beobachtung über die Beobachtung mit Leitfaden (der Beobachter hat eine Liste mit Punkten, auf die er achten muß) bis zur
hochstrukturierten Beobachtung immer größer.
ƒ Bei der hochstrukturierten Beobachtung sind nicht nur die zu beobachtenden Merkmale vorgegeben, sondern auch die Kategorien für die einzelnen Merkmalsdimensionen.
ƒ Ziel der Strukturierung ist es, die subjektiven Einflüsse des Beobachters möglichst weitgehend
auszublenden, idealerweise sollten dann zwei Beobachter übereinstimmende Resultates erzielen.
Bsp für eine strukturierte Beobachtung: Status und Aggression
Man wollte herausfinden, ob ein Zusammenhang zwischen dem sozialen Status und der Durchsetzungsbereitschaft oder dem Ausmaß aggressiven Verhaltens existiert. In einem Feldexperiment zum Strassenverkehr stellte sich eine bemerkenswerte Korrelation zwischen der Aggressionsneigung und dem Autotyp
heraus.
Das Experiment lief wie folgt ab: Mit einem Versuchsfahrzeug wurde eine Ampel blockiert. Sobald die
Ampel auf Grün schaltete, wurde mit der Stopuhr gemessen, nach welcher Zeitspanne der Fahrer des blockierten Autos die Hupe betätigte. Der versteckte Beobachter mußte außerdem Automarke, Autofarbe sowie den Fahrer beschreiben.
Das Resultat: Je höher der Status (teures Auto etc) desto schneller wurde gehupt.
⇒ Die unstrukturierte Beobachtung ist ideal, um Vorwissen zu erlangen, zur genauen Überprüfung
von Hypothesen brauch man dann die strukturierte Beobachtung.
V. Beobachtung oder Befragung?
Da zwischen dem, was die Leute angeben (oft gar nicht bewußt) und ihrem tatsächlichen Verhalten oft ein großer Unterschied besteht, empfiehlt sich wo möglich die Bebachtung, oft ist auch
eine Kombination sinnvoll.
VI. Ablauf einer Beobachtungsstudie
1) Fragestellung, Hypothesen
2) Auswahl der Indikatoren, Operationalisierung
3) Konstruktion eines Beobachtungsprotokolls
4) Auswahl der Beobachtungssituation
5) Pretest, Beobachterschulung
6) Durchführung, Feldphase
7) Datenauswertung
- 31 -
Céline Andereggen
Empirische Sozialforschung SS 03
11. VORLESUNG: DIE INHALTSANALYSE
I.
Die Inhaltsanalyse
• Die Inhaltsanalyse muss sich nicht immer nur auf den Inhalt von Texten, Bildern oder Filmen
beziehen, sondern sie kann auch formale, stilistische Merkmale betrachten:
- Satzlänge (Worte pro Satz)
- Anzahl Substantive
- Aktionsquotient: Anzahl Verben/Anzahl Adjektive:
-
Märchen 4.11, Prosa 2.5, Naturwissenschaften 1.3, Geisteswissenschaften 1.03
Akteure im Faust: Faust 2.8, Mephisto 3.6, Gretchen 5.2
Type-Token-Ratio (Mass für die Reichhaltigkeit des Vokabulars): Anzahl verschiedener
Worte/Textlänge
Im Gegensatz zur subjektiven Interpretation von Texten ist für die sozialwissenschaftliche Inhaltsanalyse Systematik und intersubjektive Nachvollziehbarkeit kennzeichnend.
Ziel der Analyse ist es, anhand des Inhalts eines Textes (Films....) und eventuell zusätzlichen
Hintergrundinformationen Schlussfolgerungen, sogenannte Interferenzen, über den Text, seinen Produzenten oder seinen Empfänger zu formulieren. (siehe Rückseite)
Bedeutungsproblem: tritt immer dann auf, wenn man nicht nur an formalen Eigenschaften interessiert ist und die Mitteilung nicht aus einem vertrauten Milieu/einer vertrauten Kultur
kommt. Dann müssen zuerst die Bedeutungsregeln der Zeichen erklärt und erlernt werden, so
hat z.B. das Wort „Bullen“ unter Börsenmaklern, jugendlichen Straftätern oder Bauern eine
unterschiedliche Bedeutung.
Anwendungsbereich
-
•
•
•
•
-
Analyse von Massenkommunikation
Printmedien und Fernsehen
Literarische Texte
Leserbriefe, Briefe, Reden
Stellenanzeigen,(Heirats-) Annoncen
Schulbücher, Schulaufsätze
Ratgeber, Tagebücher
Kriegspropaganda, Parteiprogramme
Internetkommunikation
¾Ziele der Inhaltsanalyse
• Diagnostische Analysen
Beziehung zwischen Sender und Mitteilung, was will der Produzent mitteilen, welche Worte
treten in der Nachricht hervor; semantische Analysen, Zeichen-Bedeutungsrelation
• Formal-deskriptive Analysen
Analyse der formalen Aspekte des Texts, z.B. Type-Token-Ration,; syntaktische Analysen;
Zeichen-Zeichen-Relation
• Prognostische Analysen
Welchen Einfluss, welche Auswirkung hat eine Mitteilung; pragmatische Analyse; SenderZeichen- bzw. Zeichen-Empfänger-Relation
¾Besondere Vorteile der Inhaltsanalyse
• Vergangenheitsbezug
Die Inhaltsanalyse ermöglicht die Untersuchung von Material, das aus weiter Vergangenheit
stammt.
• Sozialer Wandel
Es sind Vergleiche über lange Zeiträume möglich.
• Nicht-Reaktivität
Die Inhaltsanalyse geschieht im Nachhinein und ist nicht reaktiv (falls sie vom Produzenten
nicht antizipiert wurde)
II. Vorgehen
1) Fragestellung oder Hypothese festlegen
2) Die Grundgesamtheit der Stichprobe bestimmen.
3) Die Analyseeinheiten (Wörter, Wortkombinationen, Sätze, Abschnitte) bestimmen.
4) Bestimmung von Kategorien und evtl. Subkategorien, in die die Worte eingeordnet werden
können
Bsp. Freiheit: (1) Freiheit allgemein, (2) nationale Unabhängigkeit, (3) Religionsfreiheit, (4) Meinungsfreiheit, (5) Wirtschaftsfreiheit,.....
- 32 -
Céline Andereggen
Empirische Sozialforschung SS 03
5) Kodierung: jede Analyseeinheit soll genau den einzelnen Kategorien zugewiesen werden, dazu
sind präzise und eindeutige Regeln nötig (Bsp. siehe Rückseite)
6) Überprüfung mittels Pretest und zwei Kodierern
• Interkoder-Reabilität: Wie hoch ist der Grad der Übereinstimmung der Zuordnungen
der beiden Kodierer?
• Intrakoder-Reabilität: Der gleiche Kodierer bearbeitet das Material ein zweites Mal,
Grad der Übereinstimmung?
⇒ Berechnung der Kodier-Reabilität = 2Ü/(K1+K2)
K1= Anzahl von Kodierungen des ersten Kodierers
K2= Anzahl von Kodierungen des zweiten Kodierers
Ü= Anzahl der übereinstimmenden Kodierungen
7) Hauptuntersuchung
III. Spezielle Formen der Inhaltsanalyse
¾ Frequenzanalyse:
Man zählt die Häufigkeit von bestimmten Merkmalen, Worten oder Begriffen, z.B. TTR, AQ
Kann sich nicht nur auf Texte, sondern auch auf Bilder beziehen, z.B. den Wandel der Bartmode
¾ Kontigenzanalyse:
Untersuchung von Zusammenhängen: Man vergleicht die erwartet Häufigkeit mit der tatsächliche Häufigkeit, unter der Annahme, dass keine Verknüpfung existiert. Positive oder negative
Abweichungen liefern Hinweise auch die Verknüpfung von Begriffen. (s. Rückseite)
→Aber Achtung: Eine positive Assoziation bedeutet nicht, dass die zwei Begriffe verknüpft
als positiv bewertet werden.
¾ Bewertungsanalyse:
Methode zur Messung der Intensität von Bewertungen, die ein Sender in einem Text gegenüber Objekten oder Ereignissen zum Ausdruck bringt.
1) Alle Objekte werden kodiert:
AO: Einstellungsobjekt, dessen Bewertung gemessen werden soll, wird von verschiedenen Sendern
unterschiedlich bewertet, z.B. Kernkraftwerk
cm: allgemeines Material, die Bewertungen von Person zu Person variieren nicht wesentlich z.B.
Risiko
cm0: neutral bewertetes allgemeines Material, z.B. Hamburg
c: Ausdrücke für Handlungen z.B. sprechen
2) Sämtliche Sätze des Textes werden standardisiert:
a) Kernkraftwerke (AO) bergen (c) ein hohes Risiko (cm).
AO c cm
b) Die SP (AO1) missbilligt (c) den Bau des Kernkraftwerks (AO2).
AO1 c AO2
c) Die SP (AO) tagt (c) in Hamburg (cm0)
AO c cm0
Standardsätze wie c) bleiben in der Analyse unberücksichtigt.
3) Die c und cm werden mit Ratingskalen kodiert, z.B. von –3, -2, -1, 0, 1, 2, 3
Der Text besteht dann aus Sätzen der Form:
a) XY bergen (+2) ein hohes Risiko (-3)
b) AB mißbilligt (-3) XY
4) Die Bewertung von XY in Satz a) beträgt dann (+2)*(-3)=-6
Fortsetzung: siehe Rückseite
⇒ Das Verfahren ist sehr aufwendig, außerdem kann man an der Reliabilität durchaus zweifeln, denn die Einteilung in AO und cm sowie die Einstufung der cm auf der Ratingskala
sind doch sehr subjektiv.
IV. Computerunterstützte Inhaltsanalyse
¾ Geringer Computereinsatz:
Texte werden von Textbearbeitungsprogrammen sortiert und dann von Hand ausgewertet.
¾ Halbautomatisiertes Verfahren:
Die Textstellen werden von Hand kodiert und dann mit Hilfe eines Computerprogramms ausgewertet.
¾ Vollständiger Computereinsatz:
- Die Texte werden vollständig vom Computer erfasst.
- Alle Worte werden vom Programm aufgelistet.
- Verschiedene Formen von Wörtern werden auf die Stammform reduziert z.B. lebensfroh für
lebensfrohe, lebensfroher, lebensfrohen....
- 33 -
Céline Andereggen
Empirische Sozialforschung SS 03
Mehrdeutige Wörter müssen manuell identifiziert werden.
Ausgangspunkt der Textanalyse ist dann schliesslich eine bereinigte Liste von Eigenschaftswörtern.
- Mit diese Liste kann dann die Verwendung der Worte untersucht werden.
- Programme können natürlich auch Type-Token-Ratio etc berechnen.
V. Qualitative Inhaltsanalyse
• Merkmale:
- Verzicht auf quantitative Analysen wie Häufigkeitszählungen, Type-Token-Ration etc.
- Zusammenfassung des Grundmaterials um ein überschaubares Abbild zu erstellen
- Explikation: problematische Textstellen werden einer genauen Bedeutungsanalyse unterzogen,
der Kontext der Teststele oder des Textes ist wichtig, z.B. Informationen zum Verfasser
- Strukturierung: Man versucht, Strukturmerkmale des Textes (formale und inhaltliche Aspekte)
zu indentifizieren.
• Vorgehen:
1) Bestimmung der Analyseeinheit: Was soll untersucht werden?
2) z.B. das Selbstvertrauen von Berufseinsteigern
3) Festlegung der Einschätzungsdimension
4) Welche Formulierungen beschreiben Selbstvertrauen?
5) Bestimmung der Ausprägungen
6) geringes, mittleres oder hohes Selbstvertrauen
7) Definitionen und Ankerbeispiele
8) Fundstellenbezeichnung: Im Text werden die relevanten Stellen markiert.
9) Einschätzung: Wie werden die Textstellen zugewiesen und kodiert?
10) Überarbeitung: mehrer Durchläufe durchführen, Kategoriensystem überarbeiten
11) Ergebnisaufbereitung
-
- 34 -
Céline Andereggen
Document
Kategorie
Seele and Geist
Seitenansichten
17
Dateigröße
1 056 KB
Tags
1/--Seiten
melden