close

Anmelden

Neues Passwort anfordern?

Anmeldung mit OpenID

Einführung in die Cluster-Analyse mit SPSS

EinbettenHerunterladen
SPSS-Treff: Einführung in die
Clusteranalyse
11. Juli 2003
Einführung in die
Cluster-Analyse mit SPSS
Inhalt
1.
Clusteranalyse im allgemeinen
Definition, Distanzmaße, Gruppierung,
Kriterien
SPSS-Benutzertreffen am URZ
Carina Ortseifen
11. Juli 2003
2.
b)
3.
1. Cluster (dt.: Traube, Haufen)
{
{
{
heuristisches Verfahren zur systematischen
Klassifizierung von Beobachtungen, z.B.
Personen, Autos, Schallplatten)
Ziel: Auffinden von Gruppen, in denen sich
Beobachtungen befinden, die innerhalb der
Gruppe möglichst ähnlich sind und extern
(zwischen den Gruppen) verschieden.
{
Hierarchische Clusteranalyse
Prozedur Cluster
Clusterzentrenanalyse
Prozedur Quick Cluster
Literatur
Ähnlichkeit / Unähnlichkeit
{
{
{
Anwendungsgebiete: Sozialwissenschaften,
Biologie, Wirtschaftswissenschaften,
Marktforschung
Beispiel
Clusteranalyse mit SPSS
a)
Die Ähnlichkeit bzw. Unähnlichkeit
wird auf der Basis von Merkmalen
definiert.
Z.B. gleiches Alter, gleiche Haarfarbe.
Andere Begriffe für
Unähnlichkeit: Distanz
Ähnlichkeit: Proximität
Euklidische Distanz allgemein
Zehn Fälle, zwei stetige Merkmale A/B
1/ 2
P Merkmale:
B
c
a
 p

dii ′ = ∑ ( xij − xi ′j)2 
 i =1

b
Euklidische Distanz c:
a2 + b2 = c2
Beispiel für 2 Fälle A und B, 7 Merkmale:
A: 5 7 8 1 3 2 5
B: 9 5 8 2 7 8 2
d ab =
(5 − 9 ) 2 + ( 7 − 5 ) 2 . . . . . .+ (5 − 2 ) 2 = 9 , 0 5 5
A
Dr. Carina Ortseifen, URZ Heidelberg
1
SPSS-Treff: Einführung in die
Clusteranalyse
11. Juli 2003
Distanzmaße für metrische Variabl.
{
{
Euklidische Distanz
City Block-Distanz
z
Distanzmaße für metrische Var. (2)
{
dij=(xi-xj)‘ S-1 (xi-xj)
Summe der absoluten Differenzen
= Spezialfälle der Minkowski-Distanz
z
z
wobei S-1 die Inverse der Stichproben-Varianz-Kovarianzmatrix
der p Merkmale ist.
Hohe Unterschiede werden stark
gewichtet.
Maße sind translationsinvariant,
aber nicht skaleninvariant.
(Einkommen in Dollar oder Euro)
Dichotome Merkmale (Beispiel)
Zwei Beobachtungen, A und B, 9 Merkmale,
die angeben, ob ein Sachverhalt gegeben ist
oder nicht
A: 0 0 1 1 0 0 1 1 1
B: 1 0 1 0 0 0 0 1 1
Translations- und Skaleninvariant
Ähnlichkeitskoeffizient von Jaccard
{
{
B
A
1
0
1
3a
2b
0
1c
3d
Mahalanobis-Distanz
{
pij=a / (a+b+c) (d spielt keine Rolle)
Das entsprechende Distanzmaß ist:
dij=1- pij = (b+c) / (a+b+c)
pij nimmt Werte zwischen 0 und 1 an.
Für das Beispiel: pAB= 3/6 = 0.5.
Distanzmaße für binäre Merkmale
Mögliche Probleme
(Simple) Matching Koeffizient
pij=a+d / (a+b+c+d)
Jaccard- (Tanimoto-) Koeffizient
pij=a / (a+b+c)
RR-Koeffizient
pij=a / (a+b+c+d)
Dice-Koeffizient
pij=2 a / (2 a+b+c)
{
Ungleiche Skala
{
Ungleiches Skalenniveau der Merkmale
Dr. Carina Ortseifen, URZ Heidelberg
Æ Standardisierung
Æ binäre Merkmale als metrische betrachten
Æ metrische Merkmale binär kodieren
Æ Aggregation der verschiedenen Distanzmaße
{
Merkmale sind korreliert
Æ Berechnung von Faktorwerten
Æ Mahalanobis-Distanz
{
Ordinalskalierte Merkmale
Æ Merkmale am Median dichotomisieren
Æ Merkmale als metrische Daten behandeln
2
SPSS-Treff: Einführung in die
Clusteranalyse
11. Juli 2003
Cluster-Analyse-Verfahren
Hierarchische
Verfahren
Nichthierarchische
Verfahren(*)
Start
feinste Partionierung, Vorgabe einer
jedes Objekt bildet ein Startgruppierung
eigenes Cluster
Clusterbildung
Fusionierung von
Clustern
Verschieben der
Objekte
Ziel
Das zuvor festgelegte
Kriterium ist erfüllt.
Das zuvor festgelegte
Kriterium ist erfüllt.
Nicht-Hierarchische Verfahren
{
{
Objekte werden solange in
verschiedene Gruppen sortiert, bis
die beste Lösung im Sinne des
Kriteriums gefunden ist.
Problem: enormer Arbeits- und
Zeitaufwand (bei 10 Objekten gibt
es schon 115 975 verschiedene
Möglichkeiten), deshalb sind meist
nur Annäherungen möglich.
* Auch: Partitionierendes Cluster-Analyse
Verfahren, Clusterzentrenanalyse
Hierarchische Verfahren
1.
2.
3.
4.
5.
Berechnung der Distanzen
zwischen den Clustern
Fusionierung der beiden Cluster,
die die geringste Distanz
zueinander haben
Berechnung des Ende-Kriteriums
Wenn erfüllt, dann Ende; sonst
weiter.
Berechnung der neuen Distanzen
Zurück zu Punkt 2
Beispiel
{
Zehn Fälle, zwei stetige Merkmale A/B
B
Single
Linkage
Average Linkage
Complete
L.
Zentroid
A
Distanzen zwischen den Clustern
Distanzen zwischen Clustern (2)
Single Linkage: Nächst gelegener Nachbar
Kleinste Distanz zwischen einem Objekt des
einen Clusters und einem Objekt des
anderen Clusters
Average Linkage: Linkage zwischen den
Gruppen
Durchschnitt aller Distanz zwischen den
Objekten der beiden betrachteten Cluster
¾
Ketten-Tendenz
Complete Linkage: Entferntester Nachbar
größte Distanz zwischen einem Objekt des
einen Clusters und einem Objekt des
anderen Clusters
¾
anfällig für Ausreißer
¾
Linkage innerhalb der Gruppen
Zentroid: Zentroid Clustering
Quadrierte Euklidische Distanz zwischen
Cluster-Mittelwerten
¾
Dr. Carina Ortseifen, URZ Heidelberg
tendiert dazu Cluster mit kleinen Varianzen zu
verbinden, neigt zu Clustern mit gleicher Varianz
nur für metrische Merkmale, robust gegenüber
Ausreißern)
3
SPSS-Treff: Einführung in die
Clusteranalyse
Distanzen zwischen Clustern: Ward
{
{
¾
¾
Distanz ist die Anova-Quadratsumme
zwischen zwei Clustern
(nur für intervallskalierte normalverteilte
Daten)
vereinigt diejenigen Elemente, deren
Fusion die Gesamtvarianz innerhalb der
Cluster am geringsten erhöht
findet Cluster mit annährend gleicher
Besetzungszahl
anfällig für Ausreißer
Überprüfung der Cluster-Lösung
{
Inhaltliche Interpretation
z
Deskriptive Unterschiede zwischen den
Clustern auf weiteren Variablen
{
Diskriminanzanalytische Überprüfung
{
Graphische Veranschaulichung
z
z
Clustervariable als Gruppenvariable
Eiszapfen, Dendogramm, Plot
11. Juli 2003
Bewertungskriterium
{
Distanz zwischen zwei Clustern
z
z
z
z
Bestimmtheitsmaß r2 (RSQ)
Semipartielles Bestimmheitsmaß
Pseudo-F
Pseudo-t2
2. Cluster-Analyse in SPSS
Prozeduren für Cluster-Analysen:
Analysieren > Klassifizieren
CLUSTER (hierarchische Methoden)
QUICK CLUSTER (besonders für große
Tabellen, nicht-hierarchisch, kmeans)
TWO STEP CLUSTER (für sehr große
Tabellen, verarbeitet gleichzeitig
unterschiedlich skalierte Variablen)
Variablenauswahl
a. Hierarchische Clusteranalyse
5 Probanden wurden gefragt, wie viele
Stunden pro Woche sie für Sport,
Medien, Hobbies aufbringen.
data list free /
nr sport medien hobbies.
begin data
1153
2063
3228
4531
5540
end data.
formats nr, sport, medien, hobbies (f1.0).
Dr. Carina Ortseifen, URZ Heidelberg
Clusterzugehörigkeit
als neue Variable
Clusterverfahren
Distanzmaß
Transformation
Distanzmatrix
Zuordnung
Clusterzugehörigkeit
Dendrogramm
Eiszapfendiagramm
4
SPSS-Treff: Einführung in die
Clusteranalyse
11. Juli 2003
Zuordnungsübersicht
Ergebnisse
Verarbeitete Fällea
N
Fälle
Fehlend
N
Prozent
0
,0
Gültig
Prozent
5
100,0
N
Gesamt
Prozent
5
100,0
a. Single Linkage
Schritt
1
2
3
4
Zusammengeführte
Cluster
Cluster 1
Cluster 2
4
5
1
2
1
4
1
3
Koeffizienten
2,000
2,000
24,000
35,000
Erstes Vorkommen
des Clusters
Cluster 1
Cluster 2
0
0
0
0
2
1
3
0
Nächster
Schritt
3
3
4
0
Näherungsmatrix
Fall
1
2
3
4
5
1
,000
2,000
35,000
24,000
26,000
Quadriertes euklidisches Distanzmaß
2
3
4
2,000
35,000
24,000
,000
45,000
38,000
45,000
,000
59,000
38,000
59,000
,000
38,000
77,000
2,000
Cluster-Zugehörigkeit
5
26,000
38,000
77,000
2,000
,000
Fall
1
2
3
4
5
Bewertungskriterium
= Quadrierte Eukl. Distanz
3 Cluster
1
1
2
3
3
Dies ist eine Unähnlichkeitsmatrix
Diagramme
Plot der Cluster-Lösung
Vertikales Eiszapfendiagramm
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
1
2
4
5
3
Fall
Anzahl der Cluster
1
2
3
4
X
X
X
6
X
X
X
X
5
4
•* * H I E R A R C H I C A L C L U S T E R
•
Dendrogram using Single Linkage
{
{
2
Rescaled Distance Cluster Combine
0
5
10
15
20
25
+---------+---------+---------+---------+---------+
òûòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòø
ò÷
ùòòòòòòòòòòòòòòòø
òûòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷
ó
ò÷
ó
òòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷
Syntax der Prozedur Cluster
{
3
wird fast vollständig von der Dialogbox abgedeckt.
Ausnahme: Matrix In|Out
Einlesen bzw. Rausschreiben von
Distanz-/Ähnlichkeitsmatrizen
Beispiel:
CLUSTER sport medien hobbies
/METHOD SINGLE
/MEASURE= SEUCLID
/PRINT SCHEDULE CLUSTER(3)
/PRINT DISTANCE
/PLOT DENDROGRAM VICICLE
/SAVE CLUSTER(3)
/MATRIX OUT("d:\test.sav") .
Dr. Carina Ortseifen, URZ Heidelberg
Single Linkage
1
3
SPORT
C A S E
Label Num
4
5
1
2
3
A N A L Y S I S * *
0
2
1
-1
1
2
3
4
5
6
7
MEDIEN
b. Clusterzentrenanalyse
{
{
Prozedur Quick Cluster
Nearest Centroid Sorting-Verfahren
z
z
z
z
z
Distanzmaß: Quadr. eukl. Distanz
1. Schritt: Festlegung der Startwerte
(n Beobachtungen mit Mindestdistanz)
2. Schritt: Zuordnung der übrigen
Beobachtungen zu den Startwerten
Evtl. 3. Schritt: Berechnung der
Zentroide und erneute Zuordnung
4. Schritt: Wiederholung der Schritte 1- 3
bis sich Zentroide nicht mehr ändern
5
SPSS-Treff: Einführung in die
Clusteranalyse
11. Juli 2003
Iterationsprotokolla
Anfängliche Clusterzentren
Beispiel
Cluster
2
1
SPORT
MEDIEN
HOBBIES
5
4
0
3
0
6
3
2
2
8
Cluster-Zugehörigkeit
Distanz von Clusterzentrum
1
5,523
8,216
2
5,523
3
8,216
6,285
Anzahl der Fälle in jedem Cluster
Cluster
1
2
3
2,000
2,000
1,000
5,000
,000
Gültig
Fehlend
6,285
1
2
3
4
5
{
{
{
SPORT
MEDIEN
HOBBIES
2
2
2
2
2
3
1
1
Distanz
,707
,707
,000
,707
,707
Cluster
2
1
SPORT
MEDIEN
HOBBIES
5
4
1
3
1
6
3
2
2
8
Literatur
ANOVA
Cluster
Mittel der
Quadrate
df
10,350
4,500
18,750
Cluster
a. Konvergenz wurde aufgrund geringer oder keiner
Änderungen der Clusterzentren erreicht. Die
maximale Änderung der absoluten Koordinaten
für jedes Zentrum ist ,000. Die aktuelle Iteration
lautet 2. Der Mindestabstand zwischen den
anfänglichen Zentren beträgt 6,164.
Statistiken (Anfängl. Clusterzentren,
ANOVA- Tabelle, Clusterinformation)
Behandlung fehlender Werte
Distanz zwischen Clusterzentren der endgültigen Lösung
Cluster
1
2
3
NR
Änderung in Clusterzentren
1
2
3
,707
,707
,000
,000
,000
,000
Clusterzentren der endgültigen Lösung
Cluster-Zugehörigkeit
Fallnummer
1
2
3
4
5
Iteration
1
2
Fehler
Mittel der
Quadrate
,250
,500
,250
{
df
2
2
2
F
41,400
9,000
75,000
Sig.
,024
,100
,013
Die F-Tests sollten nur für beschreibende Zwecke verwendet werden, da die Cluster so
gewählt wurden, daß die Differenzen zwischen Fällen in unterschiedlichen Clustern
maximiert werden. Dabei werden die beobachteten Signifikanzniveaus nicht korrigiert und
können daher nicht als Tests für die Hypothese der Gleichheit der Clustermittelwerte
interpretiert werden.
{
{
{
{
Dr. Carina Ortseifen, URZ Heidelberg
SPSSBASE.PDF (Online Doku, SPSS-Systemordner)
The SPSS TwoStep Cluster Component.
White Paper – Technical Report von www.spss.com
A. Bühl, P. Zöfel: SPSS Version 10.
Addison-Wesley, 2000.
F. Brosius: SPSS 8.
mitp, 1998.
E. Bellgardt: Statistik mit SPSS.
Verlag Vahlen, 1997.
Bortz, J. : Statistik für Sozialwissenschaftler
Springer Lehrbuch, 4.Aufl. 1993.
Späth, H. :Cluster-Analyse-Algorithmen zur
Objektklassifizierung und Datenreduktion.
Oldenbourg, 1977.
Backhaus et.al.: Multivariate Analysemethoden
Springer Lehrbuch, 8. Auflage, 1996.
6
Document
Kategorie
Internet
Seitenansichten
2
Dateigröße
265 KB
Tags
1/--Seiten
melden