close

Anmelden

Neues Passwort anfordern?

Anmeldung mit OpenID

Anleitung für Statgraphics

EinbettenHerunterladen
Statgraphics-Anleitung
(Oktober 2007)
basierend auf STATGRAPHICS Centurion XV Version 15.1.02
Inhalt
0 Allgemeines & Einleitung
Data Book
StatGallery
StatReporter
Dateneingabe und Speichern der Beispieldaten
1 Beschreibende Statistik
Eindimensionale Daten
Häufigkeitsdiagramme/Histogramme
Stamm-Blatt-Diagramm
Lageparameter und Streumaße für metrisch skalierte Daten
Box-Plot
Zweidimensionale Daten
Kontingenztafeln
Korrelationskoeffizienten
Streudiagramm/Scatterplot
Regressionsgerade nach der Methode der kleinsten Quadrate
Tukey-Ausgleichsgerade
Zeitreihen
Trendschätzung, Trendabspaltung
Kleinste-Quadrate-Anpassung
Glättung
Trendabspaltung
Schätzung der Saisonkomponente, Saisonbereinigung
2 Grundlagen der Wahrscheinlichkeitstheorie
Stetige Verteilungen
Normalverteilung
Exponentialverteilung
Gleichverteilung
logistische Verteilung
Chi-Quadrat-Verteilung
F-Verteilung
t-Verteilung
Diskrete Verteilungen
Geometrische Verteilung
Hypergeometrische Verteilung
Binomialverteilung
Poissonverteilung
3 Grundlagen des statistischen Schließens I
Parameterschätzungen
Punktschätzungen
Konfidenzschätzungen
Konfidenzschätzungen für die Parameter einer Normalverteilung
Konfidenzschätzungen für eine (unbekante) Wahrscheinlichkeit p
2
4 Grundlagen des statistischen Schließens II - Tests
Signifikanztests für Verteilungsparameter
Wichtige Tests bei normalverteilten Grundgesamtheiten
Mittelwerttest - Signifikanztest für den Erwartungswert μ
Streuungstest - Signifikanztest für die Standardabweichung σ
Mittelwertvergleich bei gleichen (unbekannten) Varianzen (doppelter t-Test)
Mittelwertvergleich bei möglicherweise ungleichen Varianzen (Welch-Test)
Beispiele sogenannter verteilungsfreier Tests
Vorzeichentest
Rangtest nach Wilcoxon
Monte-Carlo-Tests
Nichtparametrische Tests
Test auf Vorliegen einer bestimmten Verteilung (χ2-Anpassungstest)
Test auf Unabhängigkeit zweier Merkmale X und Y (Kontingenztafeln)
Stichprobenpläne zur Qualitätskontrolle
Testen der Hypothese H0: p<p0, einstufige Stichprobenpläne – (n,c)-Stichprobenplan
Laufende Kontrolle - Mittelwertkarte
5 Varianzanalyse
Einfache Klassifikation
F-Test
Kruskal-Wallis-Test
Test paarweise: Test von Scheffé
Zweifache Klassifikation
F-Test
Zweifache Varianzanalyse mit Mehrfachbesetzung und Wechselwirkungen
Mehrfaktoranalyse
6 Korrelationsanalyse
Zwei Merkmale
Einfache Korrelation zwischen zwei (zufälligen) Merkmalen X und Y
Rangkorrelation
p>2 Merkmale
Korrelationsmatrix
multiple Korrelation
kanonische Korrelation
partielle Korrelation
7 Regressionsanalyse
Lineare Regressionsmodelle
Einfache lineare Regression
Multiple parameterlineare Regression
Nichtlineare Regression
Anpassung an logistische Funktion
3
Allgemeines & Einleitung
In dieser Anleitung geht es um die Umsetzung des in Vorlesung und Übung Statistik I & II
behandelten Stoffes mit Statgraphics.
Beim Start von Statgraphics öffnet sich automatisch der StatWizard. Dieser dient dazu
Einsteigern die Arbeit mit Statgraphics zu erleichtern und beim Auffinden der gewünschten
Funktionalität behilflich zu sein. Durch entfernen des Häkchens im Feld Show the StatWizard at
Setup erreicht man das dieser nicht mehr automatisch beim Start geöffnet wird. Nach Auswahl
der entsprechenden Menüpunkte öffnet Statgraphics die jeweilige Prozedur.
In dieser Anleitung wird auf die Verwendung des StatWizards verzichtet und die Auswahl der
Prozeduren über das normale Hauptmenü vorgenommen.
In Statgraphics gibt es zwei Varianten des Hauptmenüs: Six Sigma Menu und Standard Menu. In
dieser Anleitung werden immer die Wege im Standard Menu beschrieben. Ein Wechsel
zwischen den Menüarten ist unter Edit -> Preferences... möglich. Wenn in der Registerkarte
General unter System Options Use Six Sigma Menu ausgewählt wird, wird das Six Sigma Menu
verwendet. Sonst wird das Standard Menu benutzt.
Unter Preferences können außerdem weitere Einstellungen vorgenommen werden. Es können
zum Beispiel die Default-Werte für einige Prozeduren eingestellt werden.
Das Statgraphics Fenster ist im Wesentlichen in zwei Teile eingeteilt. Auf der linken Seite
werden die einzelnen Teile eines Projekts angezeigt.
Das DataBook enthält alle eingegebenen oder aus externen Quellen
eingelesenen Daten. Der StatAdvisor soll helfen die Ergebnisse der
statistischen Prozeduren zu erklären. In die StatGallery können mehrere
Grafiken aufgenommen werden um sie gegenüberstellend zu vergleichen
oder um sie zu überlagern. Im StatReporter können Dokumentationen aus
den Berechnungen erstellt und als rtf - Datei gespeichert werden. Unter
StatFolio Comments können Beschreibungen des StatFolios abgelegt
werden
Die rechte Seite entspricht der eigentlichen Arbeitsfläche. Diese hat eine eigene Menüleiste mit
folgenden für uns im Weiteren wichtigen Schaltflächen:
Es sind nur die jeweils für alle im aktiven Fenster angezeigten Felder gültigen Schaltflächen
anklickbar. Einzelne Felder in einem Fenster können durch Doppelklick in das entsprechende
Feld maximiert werden. Durch nochmaligen Doppelklick gelangt man zur Ausgangsansicht
zurück.
4
Pane Options und Analysis Options kann man in der Gesamtansicht aufrufen, indem man mit der
rechten Maustaste in das entsprechende Feld klickt und Pane Options bzw. Analysis Options im
Kontextmenü auswählt. Der Aufruf von Pane Options und Analysis Options über die Menüleiste
ist ebenfalls möglich. Was unter Pane Options und Analysis Options einstellbar ist, hängt von
der verwendeten Prozedur ab und wird deswegen im Rahmen der Beschreibung der einzelnen
Prozeduren weiter ausgeführt.
Ist das aktive Fenster ein Grafikfenster, so kann im Kontextmenü (rechte Maustaste) Graphics
Options gewählt werden. Dort können Änderungen der Graphikeinstehlungen vorgenommen
werden.
Data Book
Das DataBook enthält die Daten mit denen später gearbeitet werden soll. Diese können in die 10
Tabellen (A-J) entweder per Hand eingegeben oder aus einer Datenquelle eingelesen werden.
Um Daten aus einer Datenquelle einzulesen die Tabelle auswählen, in die die Daten eingefügt
werden sollen. Nun im Menü File -> Open -> Open Data Source... auswählen. Um mit
Statgraphics erzeugte Daten einzulesen STATGRAPHICS Data File wählen. In Excel
gespeicherte Daten werden nach Auswahl von External Data File eingelesen.
Es können auch Daten mittels einiger Funktionen erzeugt werden, hierfür die Spalte markieren
und im Menü Edit -> Generate Data wählen. Bei Operators die gewünschten Operatoren
auswählen und die ? jeweils durch die gewünschten Werte ersetzen.
Nachdem man die Spalte markiert gelangt man auch durch Rechtsklick in das Kontextmenu und
kann auch dort Generate Data wählen.
Man kann die Daten auch einfach in die gewünscht Tabelle eingeben.
Um Einstellungen bezüglich des Datentyps vorzunehmen auf den Spaltennamen doppelklicken.
Nun kann ausgewählt werden, von welchem Datentyp die eingegebenen Werte sind. Außerdem
kann nun auch der Name der Spalte geändert werden (Name) oder ein Kommentar zur Spalte,
welcher später unter dem Spaltennamen angezeigt wird, eingegeben werden (Comment).
Um die Daten im DataBook zu sichern im Menü File -> Save As -> Save Data File As...
auswählen.
StatGallery
Die StatGallery hat mehrere Seiten, zwischen denen mit Hilfe der Buttons Next Page (eine Seite
vor), Prev Page (eine Seite zurück), First Page (erste Seite) und Last Page (letzte Seite) hin und
her gewechselt werden kann.
Standardmäßig hat jede Seite der StatGallery 4 Felder. Man kann die Anzahl und die Anordnung
der Felder jedoch verändern indem man im Kontextmenü, welches sich nach Rechtsklick in die
StatGallery öffnet, Arrange Panes auswählt. Nun kann man das gewünschte Layout auswählen.
Dieses Layout gilt nur für die aktuelle Seite.
Um eine Grafik in die StatGallery einzufügen diese irgendwo in Statgraphics kopieren.
Rechtsklick in das Feld, in welches die Grafik eingefügt werden soll und Paste bzw. Paste Link
wählen. Wird Paste Link gewählt wird die Grafik mit ihrem Ursprungspunkt verknüpft
(funktioniert nur bei gespeicherten StatFolios) und ändert sich automatisch, wenn dort eine
Änderung auftritt.
Um mehrere Grafiken zu überlagern eine Grafik in ein Feld einfügen in dem schon eine Grafik
vorhanden ist und im sich öffnenden Dialog Overlay wählen.
Um den Inhalt der StatGallery zu speichern im Hauptmenü File -> Save As -> Save StatGallery
As... auswählen (*.sgg Format). Eine Speicherung in anderen Graphikformaten ist nicht möglich.
5
StatReporter
Der StatReporter soll die Erstellung von Dokumentationen in Statgraphics vereinfachen. Er
ist nach dem Vorbild von Microsoft Wordpad aufgebaut und liefert als Ergebnis rtf –
Dateien.
Tabellen und Grafiken können mittels Copy & Paste in den StatReporter übernommen
werden. Spätere Änderungen werden nicht berücksichtigt.
Text kann wie in einer Textverarbeitung üblich hinzugefügt und die entsprechenden
Einstellungen daran vorgenommen werden. Um den Inhalt des StatReporters zu speichern im
Hauptmenü File -> Save As -> Save StatReporter As... auswählen.
Um Alles zusammen abzuspeichern File -> Save As -> Save StatFolio As... auswählen.
Dabei wird das gesamte aktuelle Projekt abgespeichert. Das sind neben den Daten, der
Gallery und den Reporter auch die statistischen Auswertungen. Die Daten, die Gallery und
der Reporter müssen dabei vorher extra abgespeichert werden
Dateneingabe und Speichern der Beispieldaten
Mit diesen Daten werden die Beispiele in der Anleitung
gerechnet.
Im DataBook in Blatt A in der ersten Spalte (Col_1) die
nebenstehenden Daten eintragen.
Dann auf den Spaltenkopf (da wo der Spaltenname steht)
doppelklicken und bei Name Zahlen1 eintragen.
Bei Type Numeric auswählen.
In die zweite Spalte (Col_2) die folgenden zwanzig Zahlen
eintragen:
9, 12, 7, 11, 13, 17, 16, 11, 10, 11,
20, 10, 11, 8, 10, 10, 9, 14, 17, 17
Den Namen der Spalte in Zahlen2 ändern und bei Type Numeric
auswählen.
In die dritte Spalte (Col_3) die folgenden Zahlen eintragen:
8, 9, 4, 6, 0, 2, 7, 6, 3, 1
Den Namen der Spalte in Zahlen3 ändern und bei Type Numeric
auswählen.
In die vierte Spalte (Col_4) die folgenden Zahlen eintragen:
24, 28, 19, 17, 11, 21, 18, 27, 21, 22
Den Namen der Spalte in Zahlen4 ändern und bei Type Numeric
auswählen.
In die fünfte Spalte (Col_5) die folgenden Zahlen eintragen:
7, 3, 4, 8, 7, 5, 9, 2, 5, 2
Den Namen der Spalte in Zahlen5 ändern und bei Type Numeric
auswählen.
Im Menü File -> Save As -> Save Data File As... auswählen. Als
Namen beispiele.sf6 wählen und abspeichern.
6
1 Beschreibende Statistik
Eindimensionale Daten
Häufigkeitsdiagramme/Histogramme
Plot -> Exploratory Plots -> Frequency Histogram
(Bei allen Auswertungen ist die Dateneingabe der Folgenden ähnlich.)
Auf der linken Seite des sich
öffnenden Dialogfelds den
Namen der Spalte, die die
Daten mit denen das
Histogramm erstellt werden
soll, enthält auswählen und
diesen mit Klick auf den
Pfeil neben Data oder durch
Doppelklick übertragen. Der
Name der Spalte kann auch
direkt eingegeben werden.
Optionale Felder, hier ist es
(Select) werden im Klammer
geschrieben. Dort können, aber müssen nicht, Eintragungen vorgenommen werden.
Nach Bestätigung mit OK wird das Histogramm erstellt.
Änderungen am Histogramm kann man unter Pane Options (Rechtsklick im Feld mit dem
Histogramm) vornehmen. Bei Number of Classes kann man die gewünschte Anzahl an Klassen
eingeben. Lower Limit ist die untere Grenze des ersten Intervalls, Upper Limit die obere Grenze
des letzten Intervalls. Wenn bei Counts Relative ausgewählt wird, werden die relativen statt die
absoluten Häufigkeiten abgetragen. Cumulative kumuliert die einzelnen Häufigkeiten. Unter Plot
Type kann man wählen ob das Histogramm als Säulendiagramm (Histogram) oder Polygonzug
(Polygon) dargestellt werden soll.
Histogram
15
frequency
12
9
6
3
0
0
4
8
12
16
Zahlen1
20
24
7
Stamm-Blatt-Diagramm
Describe -> Numeric Data -> One-Variable-Analysis
Den Namen der Spalte, die die zu betrachtenden Daten enthält, auswählen und bestätigen.
Falls das Stamm-Blatt-Diagramm bei der nun geöffneten Analyse nicht mit angezeigt wird, die
Tables-Schaltfläche drücken und Stem-and-Leaf-Display auswählen.
am Beispiel
File->Open->Data Source…
STATGRAPHICS Data File
beispiele.sf6 wählen und bestätigen.
Describe -> Numeric Data -> One-Variable-Analysis
Bei Data Zahlen1 eintragen. Mit OK bestätigen.
Es sollte folgender Ausdruck erhalten werden:
8
Lageparameter und Streumaße für metrisch skalierte Daten
Describe -> Numeric Data -> One Variable Analysis
Bei Data den Namen der Spalte eingeben, welche die Werte enthält, die betrachtet werden
sollen.
Falls die Summary Statistics noch nicht angezeigt werden, auf die Tables-Schaltfläche klicken
und diese auswählen. Mit der rechten Maustaste in das Feld mit den Summary Statistics klicken
und Pane Options (Rechtsklick) wählen. In der sich nun öffnenden Liste kann man wählen, was
alles berechnet werden soll.
Um die Quantile anzuzeigen auf die Tables-Schaltfläche klicken und Percentiles auswählen.
Unter Pane Options im Feld mit den Quantilen kann man die zu berechnenden Quantile angeben.
Hierfür bei Percentiles die gewünschten Werte für α eingeben.
In der Graphs-Schaltfläche sind auch hier Histogramme und der Box-Plot wählbar.
am Beispiel
File->Open->Data Source…
STATGRAPHICS Data File
beispiele.sf6 wählen und bestätigen.
Describe -> Numeric Data -> One-Variable-Analysis
Bei Data Zahlen1 eintragen. Mit OK bestätigen.
Nach Treffen der folgenden Auswahl im Feld Summary Statistics und beibehalten der
voreingestellten Werte im Feld Percentiles, erhält man die untenstehenden Ergebnisse.
9
Box-Plot
Plot -> Exploratory Plots -> Box-and-Whisker-Plots -> One Sample
Bei Data den Namen der Spalte mit den Daten eingeben und mit OK bestätigen. Ein Box-Plot
wird erstellt.
am Beispiel
File->Open->Data Source…
STATGRAPHICS Data File
beispiele.sf6 wählen und bestätigen.
Plot -> Exploratory Plots -> Box-and-Whisker-Plots -> One Sample
Bei Data Zahlen1 eintragen. Mit OK bestätigen.
Man erhält das folgende Ergebnis:
10
Zweidimensionale Daten
Für Kontingenztafeln siehe Test auf Unabhängigkeit zweier Merkmale X und Y
(Kontingenztafeln).
Weiteres zu Korrelationskoeffizienten siehe Abschnitt 6 Korrelationsanalyse.
Streudiagramm/Scatterplot
Plot -> Scatterplots -> X-Y Plot
In den Feldern X und Y die Namen der Spalten mit den zu betrachtenden Daten eingeben. Nach
Bestätigung mit OK wird ein Streudiagramm erstellt.
am Beispiel
File->Open->Data Source…
STATGRAPHICS Data File
beispiele.sf6 wählen und bestätigen.
Plot -> Scatterplots -> X-Y Plot
Bei Y Zahlen3 und bei X Zahlen4 eintragen.
Man erhält das folgende Ergebnis:
Plot of Zahlen5 vs Zahlen4
10
Zahlen5
8
6
4
2
0
11
14
17
20
Zahlen4
11
23
26
29
Zur Regressionsgerade nach der Methode der kleinsten Quadrate siehe Abschnitt
7 Regressionsanalyse.
Tukey-Ausgleichsgerade
Relate -> One Factor -> Simple Regression
Den Namen der Spalte mit Zielgröße bei Y und den der Spalte mit der Einflussgröße bei X
eingeben. Mit OK bestätigen.
Das Menü Analysis Options öffnen. Bei Type of Model Linear und bei Alternative Fit Use
Medians of 3 groups wählen. Im Plot of Fitted Model wird nun auch die TukeyAusgleichsgerade angezeigt. Falls das Feld mit dem Plot of Fitted Model noch nicht angezeigt
wird, auf die Graphs-Schaltfläche klicken und das entsprechende Häkchen setzen.
am Beispiel
File->Open->Data Source…
STATGRAPHICS Data File
beispiele.sf6 wählen und bestätigen.
Relate -> One Factor -> Simple Regression
Bei Y Zahlen5 und bei X Zahlen4 eintragen.
Das Menü Analysis Options öffnen. Bei Type of Model Linear und bei Alternative Fit Use
Medians of 3 groups wählen. Das unter der Graphs-Schaltfläche gewählte Fenster Plot of Fitted
Model durch zum aktivern Fenster machen (durch doppelten Klick auf dieses Fenster). Das
Menü Pane Options öffnen. Bei Plot Alternative fit only wählen.
Man erhält das folgende Ergebnis:
Plot of Fitted Model
Zahlen5 = 15,0152 - 0,454545*Zahlen4
10
Zahlen5
8
6
4
2
0
11
14
17
20
Zahlen4
23
12
26
29
Zeitreihen
Trendschätzung, Trendabspaltung
Kleinste-Quadrate-Anpassung
Vorgehen wie bei der einfachen linearen Regression.
Es muss jedoch zunächst eine neue Spalte hinzugefügt werden, die die Werte der unabhängigen
Variable enthält. Als unabhängige Variable wird eine `DurchnummerierungA der Werte der
anderen Spalte eingeführt. Die neue Spalte soll also die Zahlen von 1 bis n enthalten. Dazu die
leere Spalte durch Klick auf den Spaltennamen markieren und im Hauptmenü Edit -> Generate
Data wählen. Bei Expression COUNT(?;?;?) eingeben. Die drei Fragezeichen sind in der
Reihenfolge von, bis, Schrittweite durch Zahlen zu ersetzen. Es müsste also stehen:
COUNT(von;Anzahl der abhängigen Werte;1).
Glättung
Describe -> Time Series -> Smoothing
Bei Data den Namen der Spalte mit den Zeitreihendaten eingeben und bestätigen. Unter Pane
Options (Rechtsklick ins Grafikfenster) kann man die Fensterlänge für die gleitenden
Durchschnitte ändern. Hierfür bei Length of Moving Average die gewünschte Länge eingeben.
Die dazugehörigen Daten kann man sich anzeigen lassen, indem man auf die Tables-Schaltfläche
klickt und Data Table auswählt.
am Beispiel
File->Open->Data Source…
STATGRAPHICS Data File
beispiele.sf6 wählen und bestätigen.
Describe->Time Series->Smoothing
Bei Data Zahlen1 eintragen und OK klicken.
Im Grafikfenster Pane Options wählen. Bei Smoother
1 Simple Moving Average auswählen und bei
Smoother 2 None.
Bei Length of Moving Average 5 eingeben.
Als Ergebnis
erhält man die
linksstehende
Grafik
und
eine
Datentabelle mit den geglätteten Werten, aus der rechts
ein Ausschnitt zu sehen ist. Wählt man unter der TabelsSchaltfläche Data Table so erhält man:
13
Trendabspaltung (durch Differenzenbildung)
Describe -> Time Series -> Descriptive Methods
Bei Data den Namen der Spalte mit den Werten der Zeitreihe eingeben und bestätigen.
Auf die Tables-Schaltfläche klicken und Data Table auswählen. Hier werden die Werte der
Zeitreihe und auch die Werte der trendbereinigten Zeitreihe dt(q) angezeigt. q kann man unter
Analysis Options ändern. Bei Differencing Nonseasonal Order kann der gewünschte Wert von q
eingegeben werden.
Schätzung der Saisonkomponente, Saisonbereinigung
Describe -> Time Series -> Seasonal Decomposition
Bei Data den Namen der Spalte eingeben, welche die zu betrachtenden Daten enthält.
Unter Once Every: wird eingetragen, wie oft die Daten erhoben wurden. Es kann ausgewählt
werden ob dies jährlich (Year(s) (4-digit)), vierteljährlich (Quarter(s)), monatlich (Month(s)),
täglich (Day(s)), stündlich (Hour(s)), minütlich (Minute(s)), sekündlich (Second(s)) oder auf
sonstige Art (Other) geschah. Bei Starting At wird der Startzeitpunkt der Erhebung angegeben.
Unter Seasonality schließlich wird die Saisonalität eingetragen.
am Beispiel
Flie->Open->Data Source...
STATGRAPHICS Data File
beispiele.sf6 wählen und bestätigen
Describe -> Time Series -> Seasonal Decomposition
14
In der Analyse werden die Werte von Zahlen1 verwendet, die von 2007 ausgehend einmal
jährlich erhoben wurden und eine Periode von 5 aufweisen.
Unter der Graphs-Schaltfläche Seasonal Indices wählen.
Das Menü Pane Options öffnen. Bei Method Additive wählen.
Man erhält das folgende Ergebnis:
Seasonal Index Plot for Zahlen1
3,2
seasonal index
2,2
1,2
0,2
-0,8
-1,8
-2,8
0
1
2
3
season
4
Unter der Graphs-Schaltfläche Seasonal Indices wählen.
Man erhält das folgende Ergebnis:
Seasonal Indices for Zahlen1
Seasonal decomposition method: Additive
Season
1
2
3
4
5
Index
0,212
0,052
2,312
-2,748
0,172
15
5
6
2 Grundlagen der Wahrscheinlichkeitstheorie
Plot -> Probability Distributions
Stetige Verteilungen
Normalverteilung
Plot -> Probability Distributions
In der Liste Normal auswählen.
Unter Analysis Options können Erwartungswert (Mean) und Standardabweichung (Std.Dev.)
geändert werden. Außerdem ist es möglich bis zu 4 weitere Parameterpaare einzugeben mit
denen weitere Normalverteilungen eingezeichnet werden.
Falls die Verteilungs- oder die
Dichtefunktion
noch
nicht
angezeigt werden auf die GraphsSchaltfläche klicken und in der
Liste CDF (Verteilungsfunktion)
bzw. Density/Mass Function
(Dichtefunktion) auswählen.
Es ist möglich Bereiche unter der
Dichtefunktion zu schattieren.
Hierzu im Feld der Dichtefunktion
die Pane Options auswählen. Es
kann gewählt werden ob der
Bereich unter (Below) oder über
(Above) einer bestimmten Zahl
oder der Bereich zwischen zwei Zahlen (Between...and...) schattiert werden soll.
16
Obige Abbildung erhält man, wenn man folgende Eingaben macht:
Analysis Options:
Mean: 15 und Std. Dev.: 3
Pane Options:
Below 10,0, Between 12,5 and 17,5 und Above 20,0
und die Häkchen vor Below, Between…and…, Above setzt.
Um Wahrscheinlichkeiten (der gewählten Verteilung) zu
bestimmen klickt man auf die Tables-Schaltfläche und wählt
Cumulative Distribution.
Wählt man unter Analysis Options Mean: 15 und Std.Dev.: 3
und unter Pane Options:
so erhält man das Ergebnis auf der linken Seite.
Zur Bestimmung von Quantilen klickt man auf die Tables-Schaltfläche und wählt Inverse CDF.
Wählt man unter Analysis Options Mean: 0,0 und Std. Dev.: 1,0 und unter Pane Options:
so erhält man das folgende Ergebnis:
Zum Erzeugen von Zufallszahlen (der gewählten Verteilung) auf die Tables-Schaltfläche klicken
und Random Numbers wählen. Um die Anzahl der zu erzeugenden Zufallszahlen zu ändern mit
der rechten Maustaste in das Feld klicken und Pane Options auswählen.
Unter Analysis Options kann man den Mittelwert und die Standardabweichung der zu
erzeugenden Stichprobe eingeben.
17
Zum Erzeugen der
Zufallszahlen auf die Save
results-Schaltfläche
klicken und ein Häkchen
vor Random Numbers for
Dist. 1 setzen. Bei
Datasheet kann das Blatt
ausgewählt werden, in
welches die Zufallszahlen
im DataBook eingetragen werden sollen. Bei Target Variables wird der Name eingegeben,
den die Spalte mit den Zufallszahlen erhalten soll.
Wird ein bereits existierender Spaltenname verwendet, fragt Statgraphics ob es die bisherigen
Werte in dieser Spalte ersetzen soll.
Das Vorgehen bei den anderen Verteilungen folgt analog.
Plot -> Probability Distributions
Exponentialverteilung
In der Liste Exponential auswählen.
Unter Analysis Options kann der Erwartungswert geändert werden.
Der Parameter λ der Exponentialverteilung ist dabei 1/EX.
Gleichverteilung
In der Liste Uniform auswählen.
Um a und b zu ändern, das Analysis Options-Menü öffnen. Lower Limit ist a und Upper Limit ist
b.
logistische Verteilung
In der Liste Logistic auswählen.
Unter Analysis Options kann man Erwartungswert (Mean) und Standardabweichung (Std. Dev.)
ändern.
Chi-Quadrat-Verteilung
In der Liste Chi-Squared auswählen.
Die Anzahl der Freiheitsgrade (D.F.) kann unter Analysis Options geändert werden.
F-Verteilung
In der Liste F (Variance Ratio) auswählen.
Unter Analysis Options kann man die beiden Freiheitsgrade ändern.
t-Verteilung
In der Liste Student’s t auswählen.
Die Anzahl der Freiheitsgrade (D.F.) kann unter Analysis Options geändert werden.
18
Diskrete Verteilungen
Geometrische Verteilung
Plot -> Probability Distributions
In der Liste Geometric auswählen.
Die Wahrscheinlichkeit (nach der Formelsammlung die Wahrscheinlichkeit für Misserfolg)
kann unter Analysis Options geändert werden.
Hypergeometrische Verteilung
Plot -> Probability Distributions
In der Liste Hypergeometric auswählen.
Unter Analysis Options kann man die Eintrittswahrscheinlichkeit M/N (Event.Prob.), die Anzahl
der Versuche n (Trials) und die Losgröße N (Pop. Size) ändern.
Achtung: Leider kann man nicht M eingeben, sondern muss erst p=M/N berechnen. Daraus und
aus N wird M berechnet. Ist dieser Wert nicht ganzzahlig so wird eine Fehlermeldung
ausgegeben. Damit ist die Eingabe einiger Parameter erschwert. Zum Beispiel bei N=7 und M=4
reicht es nicht p=0,57142875 einzugeben, sondern man muss eine noch größere Genauigkeit für
p wählen.
Binomialverteilung
Plot -> Probability Distributions
In der Liste Binomial auswählen.
Unter Analysis Options kann man Wahrscheinlickeit p (Event.Prob.) und Anzahl der
Wiederholungen n (Trials) eingeben.
Poissonverteilung
Plot -> Probability Distributions
In der Liste Poisson auswählen.
Um λ zu ändern das Analysis Options-Menü aufrufen und den dort angegebenen Wert ändern.
19
3 Grundlagen des statistischen Schließens I
Parameterschätzungen
Punktschätzungen
siehe Lageparameter
Konfidenzschätzungen
Konfidenzintervalle für die Parameter einer Normalverteilung
Describe -> Numeric Data -> One Variable Analysis
Die Spalte mit den gewünschten Daten auswählen und mit OK bestätigen.
Falls die Konfidenzintervalle nicht mit angezeigt werden, die Tables-Schaltfläche anklicken und
Confidence Intervalls auswählen. Es werden (für eine normalverteilte Stichprobe) die
Konfidenzintervalle für Erwartungswert und Standardabweichung ausgegeben. In beiden Fällen
wird der jeweils andere Parameter aus der Stichprobe geschätzt.
Einstellungen können unter Pane Options im
Fenster
mit
den
Konfidenzintervallen
vorgenommen
werden.
Im
Eingabefeld
Confidence Level kann das Konfidenznivau 1-α
geändert werden. Bei Interval Type kann
ausgewählt
werden,
ob
das
zentrale
Konfidenzintervall (Two-Sided), die obere Konfidenzgrenze (Upper Bound) oder die untere
Konfidenzgrenze (Lower Bound) berechnet werden soll.
am Beispiel
File->Open->Data Source…
STATGRAPHICS Data File
beispiele.sf6 wählen und bestätigen.
Describe->Numeric Data->One Variable Analysis
Bei Data Zahlen1 eintragen und bestätigen.
Auf die Tables-Schaltfläche klicken und Confidence Intervals auswählen.
Die Einstellungen unter Pane Options wie in der obigen Darstellung wählen.
Als Ergebnis erhält man:
Confidence Intervals for Zahlen1
95,0% confidence interval for mean: 15,5333 +/- 1,28132 [14,252; 16,8147]
95,0% confidence interval for standard deviation: [2,73281; 4,61292]
20
Konfindenzintervalle für eine (unbekannte) Wahrscheinlichkeit p
Describe ->Numeric Data ->Hypothesis Test
(oder auch: Describe -> Categorical Data ->Hypothesis Test )
Unter Parameter wählt man Binomial
Proportion.
Weiter gibt man unter Sample Size den
Stichprobenumfang n (im Beispiel n=100) an
und im Feld Sample Proportion die relative
Häufigkeit k/n (im Beispiel ist die absolute
Häufigkeit 21) an.
Als Ergebnis erhält man:
Sample proportion = 0,21
Sample size = 100
Approximate 95,0% confidence interval for p:
[0,134944;0,302915]
Unter Analysis Options kann man jetzt zwischen den möglichen Alternatihypothesen und ein
Niveau Alpha (das Konfidenzniveau ist damit 1-Alpha) wählen. Man erhält das zur
Testalterative zugehörige Konfidenzinterval.
Wählt man im obigen Beispiel Less Than, so erhält man die obere Konfidenzgrenze
Approximate 95,0% upper confidence bound for p: [0,288135]
Wählt man Greater Than, so ist das Ergebnis die untere Konfidenzgrenze
Approximate 95,0% lower confidence bound for p: [0,145245
21
4 Grundlagen des statistischen Schließens II - Tests
Signifikanztests für Verteilungsparameter
Wichtige Tests bei normalverteilten Grundgesamtheiten
Mittelwerttest - Signifikanztest für den Erwartungswert μ
Describe -> Numeric Data -> One Variable Analysis
Die Spalte mit den gewünschten Daten auswählen und mit OK bestätigen.
Falls die Tests nicht mit angezeigt werden, die Tables-Schaltfläche drücken und Hypothesis
Tests auswählen.
Die nötigen Einstellungen kann man im Pane Options-Menü im Feld mit den Tests vornehmen.
Unter Normalverteilungsvoraussetzung sollte t Test gewählt werden. Bei Mean/Median wird der
Erwartungswert eingetragen, bei Alpha kann das Signifikanzniveau in Prozent angegeben werden
und die Auswahl der Alternativhypothese erfolgt unter Alt. Hypothesis: Not Equal μ≠μ0, Less
Than μ<μ0 oder Greater Than μ>μ0.
am Beispiel
File->Open->Data Source…
STATGRAPHICS Data File
beispiele.sf6 wählen und bestätigen.
Describe->Numeric Data->One Variable Analysis
Bei Data Zahlen1 eintragen und bestätigen.
Auf die Tables-Schaltfläche klicken und Hypothesis Tests auswählen.
Unter Pane Options folgende Einstellungen machen:
Man erhält als Ergebnis:
Diesen Test und auch den folgenden Test für die Standardabweichung kann man auch über das
Menu
Describe ->Numeric Data ->Hypothesis Test
durchführen. Dieses dient aber in erster Linie zur Bestimmung der Gütefunktion bei
vorgegebenem Stichprobenumfang, bzw. zur Bestimmung des Stichprobenumfanges bei
vorgegebener Güte.
22
Streuungstest - Signifikanztest für die Standardabweichung σ
Describe -> Numeric Data -> One Variable Analysis
Das Vorgehen ist wie beim Signifikanztest für den Erwartungswert μ.Nur wählt man hier im
Pane Options-Menü im Feld Dispersion den Chi-Squared Test.
am Beispiel
File->Open->Data Source…
STATGRAPHICS Data File
beispiele.sf6 wählen und bestätigen.
Describe->Numeric Data->One Variable Analysis
Bei Data Zahlen1 eintragen und bestätigen.
Auf die Tables-Schaltfläche klicken und Hypothesis Tests auswählen.
Unter Pane Options folgende Einstellungen machen:
Man erhält als Ergebnis:
chi-squared test
Null hypothesis: sigma = 4,0
Alternative: greater than
Computed chi-squared statistic = 21,3417
P-Value = 0,846401
Do not reject the null hypothesis for alpha = 0,0
23
Mittelwertvergleich bei gleichen (unbekannten) Varianzen (doppelter t-Test)
Compare -> Two Samples -> Independent Samples
Bei Sample 1 und Sample 2 die Namen der Spalten mit den zu
betrachtenden Werten eingeben und bei Input Two Data
Columns auswählen.
Falls noch nicht angezeigt bei Tables Comparisons of Means
auswählen. Im Menü Pane Options diesen Feldes können die
weiteren Einstellungen vorgenommen werden.
Bei Null Hypothesis wird die angenommene Differenz der
beiden Mittelwerte Δ=μ1-μ2 angegeben. Die Auswahl der
Alternativhypothese erfolgt unter Alt. Hypothesis. Bei Alpha
das Signifikanzniveau in % angeben.
Für den doppelten t-Test muss das Häkchen vor Assume Equal
Sigmas gesetzt sein.
am Beispiel
File->Open->Data Source…
STATGRAPHICS Data File
beispiele.sf6 wählen und bestätigen.
Compare->Two Samples->Independent Samples
Bei Sample 1 Zahlen1 und bei Sample 2 Zahlen2 eintragen. Bei Input Two Data Columns
auswählen. Mit OK bestätigen.
Nach Klicken auf die Tables-Schaltfläche Comparisons of Means auswählen.
Unter Pane Options die oben dargestellten Einstellungen treffen.
Als Ergebnis erhält man:
t test to compare means
Null hypothesis: mean1 = mean2
Alt. hypothesis: mean1 NE mean2
assuming equal variances: t = 3,3716 P-value = 0,00148389
Reject the null hypothesis for alpha = 0,05
Mittelwertvergleich bei möglicherweise ungleichen Varianzen (Welch-Test)
Compare -> Two Samples -> Independent Samples
Vorgehensweise wie beim doppelten t-Test, nur dass das Häkchen vor Assume Equal Sigmas
nicht gesetzt wird.
24
Beispiele sogenannter verteilungsfreier Tests
Vorzeichentest
Compare -> Two Samples -> Paired Samples
Die Wertepaare so eingeben, dass die jeweils
zusammengehörigen Werte nebeneinander stehen.
Bei Sample 1 und Sample 2 die Spaltennamen der
beiden Spalten mit den Werten eingeben und bestätigen.
Nun auf die Tables-Schaltfläche klicken und Hypothesis
Tests auswählen. Der Sign Test entspricht dem
Vorzeichentest, wie in der Vorlesung vorgestellt. Falls das Ergebnis des Sign Tests noch nicht
ausgegeben wird Pane Options auswählen und ein Häkchen vor Sign Test setzen. Man kann hier
außerdem unter Alt. Hypothesis die gewünschte Alternativhypothese (Not Equal , Less Than oder
Greater Than ) auswählen und unter Alpha das Signifikanzniveau in Prozent eingeben.
Rangtest nach Wilcoxon
Compare -> Two Samples -> Independent Samples
Bei Sample 1 und Sample 2 die Spaltennamen der beiden Spalten mit den Werten eingeben und
mit OK bestätigen.
Nun auf die Tables-Schaltfläche klicken und Comparison of Medians auswählen.
Unter Pane Options können unter Alt. Hypothesis die gewünschte Alternativhypothese (Not
Equal, Less Than oder Greater Than) ausgewählt und unter Alpha das Signifikanzniveau in
Prozent eingegeben werden.
Achtung: Da Statgraphics eine andere Teststatistik verwendet, weichen die ausgegebenen
Zahlenwerte von den nach dem Muster der Vorlesung und Übung berechneten ab. Die
Testentscheidung ist jedoch bei beiden Methoden gleich.
25
Monte-Carlo-Tests
Die Vorgehensweise soll hier, analog des Vorlesungsbeispiels, am Beispiel eines Tests der
Hypothese λ=λ0 für den Parameter der Exponentialverteilung bei kleinem n dargelegt werden.
Im Menü Plot -> Probability Distributions wählen. In der Liste Exponential auswählen und mit
OK bestätigen. Auf die Tables-Schaltfläche klicken und Random Numbers auswählen. Mit der
rechten Maustaste in das Feld klicken und Pane Options auswählen. Nun kann die Anzahl der zu
erzeugenden Zufallszahlen, hier also 10000, eingegeben werden. Unter Analysis Options kann
man den Erwartungswert (Mean) der zu erzeugenden Stichprobe, also 1/λ0 eingeben.
Zum Erzeugen der Zufallszahlen auf die Save results-Schaltfläche klicken und ein Häkchen vor
Random Numbers for Dist. 1
setzen. Bei Datasheet kann
das Blatt ausgewählt werden,
in welches die Zufallszahlen
im DataBook eingetragen
werden sollen. Bei Target
Variables wird der Name
eingegeben, den die Spalte
mit
den
Zufallszahlen
erhalten soll. Wird ein
bereits existierender Spaltenname verwendet, fragt Statgraphics ob es die bisherigen Werte in
dieser Spalte ersetzen soll.
Nun die nächste Spalte im Data Book markieren, mit der rechten Maustaste anklicken und im
Kontextmenü Generate Data wählen. Hier bei Expression: Rep(Count(1;1000;1);10) eingeben.
Es werden die Zahlen von 1 bis 1000 mit einer Schrittweite von 1 erstellt, wobei jede Zahl 10
mal hintereinander aufgeführt wird.
Eine Stichprobe entspricht jetzt den zehn exponential verteilten Zufallszahlen, denen in der
zweiten Spalte die gleiche Zahl zugeordnet ist.
Um die Mittelwerte der 1000 Stichproben zu berechnen im Menü Describe -> Numeric Data ->
Subset Analysis auswählen.
Bei Data den Namen der, die exponential verteilten Zufallszahlen enthaltenden, Spalte eingeben.
Den Namen der Spalte, welche die Nummerierung enthält, bei Codes eintragen.
Nach Erstellung der Analyse auf die Save results-Schaltfläche klicken
Bei Save ein Häkchen vor Means
setzen und bei Datasheet das
Datenblatt auswählen, welchem die
Werte hinzugefügt werden sollen.
Bei Target Variables steht der
Name, den die Spalte erhält, in
welche die Mittelwerte gespeichert werden. Hier wird der Name dieser Spalte also MEAN.
Um jetzt das Histogramm und die Quantilstabelle, wie in der Vorlesung gesehen, zu erstellen im
Menü Describe -> Numeric Data -> One-Variable Analysis auswählen. Bei Data 1/MEAN
eingeben. Nun bei Tables Percentiles und bei Graphs Frequency Histogram auswählen.
26
Nichtparametrische Tests
Test auf Vorliegen einer bestimmten Verteilung (χ2-Anpassungstest)
Describe -> Distribution Fitting -> Fitting Uncensored Data
Bei Data den Namen der Spalte eingeben, welche die zu überprüfenden Werte enthält.
Analysis Options auswählen und im nun geöffneten Dialogfenster auswählen auf welche
Verteilungen hin die Stichprobe überprüft werden soll.
Anschließend auf die Tables-Schaltfläche klicken und Goodness-of-Fit Tests auswählen, falls
diese noch nicht angezeigt werden. Rechtsklick in dieses Feld und Pane Options auswählen. Hier
kann das durchzuführende Testverfahren ausgewählt werden. Chi-squared ist der χ2Anpassungstest. Wenn man use equiprobable classes auswählt, wird die Klasseneinteilung so
vorgenommen, dass alle Klassen gleichwahrscheinlich sind.
Nach Klick auf die Graphs-Schaltfläche können verschiedene Graphiken ausgewählt werden.
Bei Auswahl von Frequency Histogram kann man die Einteilung der Klassen ändern, indem man
in diesem Feld durch Rechtsklick die Pane Options aufruft und hier die entsprechenden
Einstellungen vornimmt. Diese Klasseneinteilung beeinflusst auch die Klasseneinteilung der
Tabelle des Goodness-of-Fit Tests.
am Beispiel
File->Open->Data Source…
STATGRAPHICS Data File
beispiele.sf6 wählen und bestätigen.
Describe->Distribution Fitting->Fitting Uncensored Data
Bei Data Zahlen1 eintragen. Unter Analysis Options bei Distribution Normal auswählen.
Danach auf die Graphs-Schaltfläche klicken und Frequency Histogramm auswählen. In diesem
Feld die Pane Options folgende Eintragungen vornehmen.
27
Als Ergebnis erhält man:
Histogram for Zahlen1
12
Distribution
Normal
frequency
10
8
6
4
2
0
0
4
8
12
16
Zahlen1
20
24
Danach auf die Tables-Schaltfläche klicken und Goodness-of-Fit Tests auswählen. In diesem
Feld die Pane Options aufrufen und ein Häkchen vor Chi-squared setzen (alles andere nicht
ankreuzen).
Als Ergebnis erhält man:
Goodness-of-Fit Tests for Zahlen1
Chi-Squared Test
Lower Upper Observed Expected
Limit
Limit Frequency Frequency
at or below
12,0
6
4,55
12,0
15,0
6
8,60
15,0
18,0
12
9,77
above
18,0
6
7,08
Chi-Squared = 1,92523 with 1 d.f. P-Value = 0,165278
Chi-Squared
0,46
0,79
0,51
0,17
Die Anzahl der Freiheitsgrade ist 1 (=4-2-1), da beide Parameter aus der Stichprobe geschätzt
werden. Einen oder beide Parameter vorzugeben ist hier nicht möglich.
Man sieht weiter, dass die gleichen Klassengrenzen wie im obigen Histogramm vorliegen, aber
weniger Klassen gewählt wurden.
28
Test auf Unabhängigkeit zweier Merkmale X und Y (Kontingenztafeln)
Describe -> Categorial Data -> Contingency Tables
Bei Columns die Namen von zwei oder mehr Spalten eingeben, die den Spalten der Datentabelle
entsprechen und bestätigen. Falls die Kontingenztafel noch nicht angezeigt wird auf die TablesSchaltfläche klicken und Frequency Tables auswählen. Die Realisierung der Teststatistik und
den p-value erhält man durch wählen von Tests of Independence in der Tables-Schaltfäche.
Weitere Einstellungen können unter Pane Options im Feld mit der Kontingenztafel
vorgenommen werden. Eine Kontingenztafel wie in Übung und Vorlesung verwendet erhält man,
indem man Häkchen neben Expected Frequencies und Chi-Squared Values setzt.
am Beispiel
Describe -> Categorial Data -> Contingency Tables
Bei Columns Col_1, Col_2 und
Col_3 eintragen.
Nun auf die Tables-Schaltfläche
klicken und Frequency Tables und
Tests of Independence auswählen. In
diesem Feld Pane Options aufrufen und Häkchen vor Expected Frequencies und Chi-Squared
Values setzen (den Rest freilassen).
Als Ergebnis erhält man:
Frequency Table
Col_1
Col_2
Row_1
30
100
50,00
75,00
8,00
8,33
Row_2
70
50
50,00
75,00
8,00
8,33
Row_3
100
150
100,00
150,00
0,00
0,00
Column Total 200
300
25,00%
37,50%
Cell contents:
Observed frequency
Expected frequency
Contribution to chi-squared
Col_3
70
75,00
0,33
80
75,00
0,33
150
150,00
0,00
300
37,50%
und
Tests of Independence
Test
Statistic Df P-Value
Chi-Squared 33,333 4 0,0000
29
Row Total
200
25,00%
200
25,00%
400
50,00%
800
100,00%
Stichprobenpläne zur Qualitätskontrolle
Testen der Hypothese H0: p<p0, einstufige Stichprobenpläne – (n,c)-Stichprobenplan
SPC -> Acceptance Sampling -> Attributes
Bei Action Create OC Plan
auswählen.
Den
gesamten
Lieferumfang bei Lot size eintragen.
Unter Desired Features können das
Produzentenrisiko α (Producer’s
risk
(alpha))
und
das
Konsumentenrisiko β (Consumer’s
risk (beta)) eingegeben werden. Bei
Quality
Levels
werden
pα
(Acceptance quality level (AQL))
und pβ (Lot tolerance percent
defective (LTPD)) eingetragen.
Falls die OC-Funktion noch nicht
mit angezeigt wird auf die GraphsSchaltfläche klicken und OC Curve
auswählen.
Achtung: Statgraphics rechnet mit der Hypergeometrischen Verteilung und nicht mit einer
Poisson- bzw. Normalverteilungsapproximation.
Mit den obigen Werten erhält man:
Generated plan
Sample size (n) = 2147
Acceptance number (c) = 4
Operating Characteristic (OC) Curve
n=2147, c=4
Prob. of acc eptanc e
1
0,8
0,6
0,4
0,2
0
0
0,2
0,4
0,6
0,8
True percent defective
30
1
Laufende Kontrolle - Mittelwertkarte)
SPC -> Control Charts -> Basic Variables Charts -> X-bar and R…
Es gibt zwei Möglichkeiten:
1. In eine Spalte die Werte aus allen zu betrachtenden Teilstichproben eingeben. Dabei
müssen die Werte, die zu einer Teilstichprobe, aus welcher jeweils der Mittelwert berechnet
werden soll, gehören untereinander stehen.
Bei Data – Observations den Namen dieser Spalte eintragen.
Bei Subgroup Numbers or Size wird die Anzahl der Werte, aus denen eine Teilstichprobe
jeweils besteht eingetragen.
2. Die Werte die zu einer Teilstichprobe gehören werden in mehrere Spalten nebeneinander
geschrieben. Die Werte der nächsten Teilstichprobe darunter usw. Bei Data – Observations
werden die Namen der Spalten eingetragen. Statgraphics fasst jetzt alle Werte, die in einer
Zeile stehen zu einer Teilstichprobe zusammen.
Die Anzahl der Zeilen entspricht also der Anzahl der Teilstichproben und das Feld Subgroup
Numbers or Size bleibt leer.
Das weitere Vorgehen ist für beide Möglichkeiten gleich.
Die Mittelwertkarte erhält man, indem man auf die Graphs-Schaltfläche klickt und X-bar
Chart auswählt. Unter Analysis Options können Einstellungen bezüglich der
Kontrollgrenzen, des Sollwertes und der Standardabweichung vorgenommen werden.
Falls Sollwert und
Standardabweichung vorgegeben
sind bei Type of Study Control to
Standard auswählen. Unter
Control to Standard Specify
Parameters den vorgegebenen
Sollwert (Mean:) und die
vorgegebene Standardabweichung
(Std. Dev.:) eintragen.
Falls Sollwert und
Standardabweichung nicht
vorliegen bei Type of Study Initial
Study auswählen. Statgraphics
berechnet dann die Kontrollgrenzen aufgrund der Schätzungen für Mittwelwert und
Standardabweichung anhand der vorliegenden Daten.
Bei den Kontrollgrenzen (X-bar Control Limits) den Wert der Standardnormalverteilung an
der Stelle 1-α/2 eintragen. In Europa wird normalerweise α=0,01 verwendet. (z0, 995=2,576)
Um nun noch die Warngrenzen einzuzeichnen im Feld mit der Kontrollkarte Pane Options
aufrufen.
Ein Häkchen vor Outer Warning Limits setzen und bei Sigma den Wert der
Standardnormalverteilung an der Stelle 1-α/2 eintragen. Üblicherweise wird α=0,05
verwendet. (z0, 975=1,96)
Nach Klick auf die Graphs-Schaltfläche kann man auch noch die OC-Kurve (OC Curve) und
die Kurve der erwarteten Lauflänge bis zum Eingriff (ARL Curve) anzeigen lassen.
31
5 Varianzanalyse
Einfache Klassifikation
F-Test
Compare -> Analysis of Variance -> One-Way ANOVA
Bei Dependent Variable die Spalte mit den Werten des zufälligen Merkmals eintragen und bei
Factor die Spalte mit den Werten des Faktors.
Falls die ANOVA-Tafel noch nicht angezeigt wird, auf die Tables-Schaltfläche klicken und
ANOVA Table auswählen.
32
am Beispiel
Compare -> Analysis of Variance -> One-Way ANOVA
Als Ergebnis erhält man die folgende Varianzanalysetabelle
ANOVA Table for Biegefestigkeit by Material
Source
Sum of Squares Df Mean Square
Between groups 3888,12
3
1296,04
Within groups
10323,8
20 516,192
Total (Corr.)
14212,0
23
33
F-Ratio
2,51
P-Value
0,0879
Kruskal-Wallis-Test
Compare -> Analysis of Variance -> One-Way ANOVA
Bei Dependent Variable die Spalte mit den Werten des zufälligen Merkmals eintragen und bei
Factor die Spalte mit den Werten des Faktors.
Falls der Kruskal-Wallis-Test noch nicht angezeigt wird, auf die Tables-Schaltfläche klicken und
Kruskal-Wallis Test auswählen.
am Beispiel
Compare -> Analysis of Variance -> One-Way ANOVA
Das gleiche Vorgehen wie im Beispiel vom F-Test, nur in der Tabels-Schaltfläche wählt man
Kruskal-Wallis Test.
Als Ergebnis erhält man:
Kruskal-Wallis Test for Biegefestigkeit by Material
Material
1
2
3
4
Sample Size
6
6
6
6
Average Rank
16,0
14,8333
7,75
11,4167
Test statistic = 4,97816 P-Value = 0,1734
34
Zweifache Klassifikation
F-Test
Compare -> Analysis of Variance -> Multifactor ANOVA
Bei Dependent Variable den Namen der Spalte mit den Werten des zufälligen Merkmals
eintragen, bei Factors die Namen der beiden Spalten, welche die Werte der Faktoren enthalten
eingeben.
Falls die ANOVA-Tafel noch nicht angezeigt wird, auf die Tables-Schaltfläche klicken und
ANOVA Table auswählen.
am Beispiel
Compare -> Analysis of Variance -> Multifactor ANOVA
Als Ergebnis erhält man:
Analysis of Variance for Biegefestigkeit - Type III Sums of Squares
Source
Sum of Squares Df Mean Square F-Ratio P-Value
MAIN EFFECTS
A:Material
3888,13
3
1296,04
2,32
0,1102
B:Sinterbedingungen
249,083
2
124,542
0,22
0,8027
RESIDUAL
10074,7
18 559,708
TOTAL (CORRECTED) 14212,0
23
All F-ratios are based on the residual mean square error.
35
Zweifache Varianzanalyse mit Mehrfachbesetzung und Wechselwirkungen
Compare -> Analysis of Variance -> Multifactor ANOVA
Bei Dependent Variable den Namen der Spalte mit den Werten des zufälligen Merkmals
eingeben, bei Factors die Namen der beiden Spalten, welche die Werte der Faktoren enthalten
eintragen.
Falls die ANOVA-Tafel noch nicht angezeigt wird, auf die Tables-Schaltfläche klicken und
ANOVA Table auswählen. Auf die Analysis Options-Schaltfläche klicken und bei Maximum
Order Interaction 2 eingeben.
am Beispiel
Das gleiche Vorgehen wie im Beispiel vom F-Test bei der zweifachen Klassifikation, nur in der
Analysis Options-Schaltfläche wählt man Order Interaction 2.
Als Ergebnis erhält man:
Analysis of Variance for Biegefestigkeit - Type III Sums of Squares
Source
Sum of Squares Df Mean Square F-Ratio
MAIN EFFECTS
A:Material
3888,12
3
1296,04
9,93
B:Sinterbedingungen
249,083
2
124,542
0,95
INTERACTIONS
AB
8509,25
6
1418,21
10,87
RESIDUAL
1565,5
12 130,458
TOTAL (CORRECTED) 14212,0
23
All F-ratios are based on the residual mean square error.
P-Value
0,0014
0,4123
0,0003
Mehrfaktoranalyse
Vorgehensweise wie bei zweifacher Klassifikation, nur dass jetzt im Feld Factors mehr als zwei
Spaltennamen eingegeben werden.
Bei Auftreten von Wechselwirkungen im Eingabefeld Maximum Oder Interaction die Anzahl der
Faktoren eintragen, wenn alle Wechselwirkungen untersucht werden sollen. Bei 3 Faktoren wird
beispielsweise untersucht:
Maximum Oder Interaction gleich 1: A, B, C
Maximum Oder Interaction gleich 2: A, B, C, AB, AC, BC
Maximum Oder Interaction gleich 3: A, B, C, AB, AC, BC, ABC
36
6 Korrelationsanalyse
Zwei Merkmale
Einfache Korrelation zwischen zwei (zufälligen) Merkmalen X und Y
Describe -> Numeric Data -> Multiple Variable Analysis
Bei Data die Namen der beiden Spalten mit den Werten der zu analysierenden Merkmale
eingeben.
Falls das Feld mit der Korrelation noch nicht angezeigt wird, auf die Tables-Schaltfläche klicken
und Correlations auswählen.
am Beispiel
File->Open->Data Source…
STATGRAPHICS Data File
beispiele.sf6 wählen und bestätigen.
Describe->Numeric Data->Multiple Variable Analysis
Bei Data Zahlen3 und Zahlen4 eingeben.
Auf die Tables-Schaltfläche klicken und Correlations
auswählen.
Man erhält das nebenstehende Ergebnis.
Rangkorrelation
Describe -> Numeric Data -> Multiple Variable Analysis
Bei Data die Namen der beiden Spalten mit den Werten der zu analysierenden Merkmale
eingeben.
Falls das Feld mit der Rangkorrelation noch nicht angezeigt wird, auf die Tables-Schaltfläche
klicken und Rank Correlations auswählen.
Zwischen der Spearmanschen Rangkorrelation und Kendall>s τ kann man wechseln, indem man
mit der rechten Maustaste in das Feld mit der Rangkorrelation klickt und Pane Options auswählt.
Nun kann bei Method zwischen Spearman und Kendall gewechselt werden.
37
am Beispiel
File->Open->Data Source…
STATGRAPHICS Data File
beispiele.sf6 wählen und bestätigen.
Describe->Numeric Data->Multiple Variable Analysis
Bei Data Zahlen3 und Zahlen4 eingeben.
Auf die Tables-Schaltfläche klicken und Rank Correlations
auswählen.
Wählt man unter Pane Options Spearman so erhält das
nebenstehende Ergebnis.
Wählt man unter Pane Options Kendall so
erhält man das unterstehende als Ergebnis:
38
p>2 Merkmale
Korrelationsmatrix
Describe -> Numeric Data -> Multiple Variable Analysis
Bei Data die Namen der Spalten mit den Werten der zu analysierenden Merkmale eingeben.
Falls die Korrelationsmatrix noch nicht angezeigt wird, auf die Tables-Schaltfläche klicken und
Correlations auswählen.
am Beispiel
File->Open->Data Source…
STATGRAPHICS Data File
beispiele.sf6 wählen und bestätigen.
Describe->Numeric Data->Multiple
Variable Analysis
Bei Data Zahlen3, Zahlen4 und Zahlen5
eingeben und auf die Tables-Schaltfläche
klicken und Correlations auswählen.
Man erhält das nebenstehende Ergebnis.
kanonische Korrelation
Describe -> Multivariate Methods -> Canonical Correlations
Der kanonische Korrelationskoeffizient dient der Berechnung des linearen Zusammenhanges
zwischen zwei Gruppen von Merkmalen.
Die Namen der Spalten mit den Merkmalen einer Gruppe sind bei First Set of Variables
einzutragen, die der anderen Gruppe bei Second Set of Variables.
Falls es in den Gruppen eine unterschiedliche Anzahl von Merkmalen gibt, sind die Namen der
Spalten, die die Merkmale aus der größeren Gruppe enthalten, bei First Set of Variables
einzugeben.
Wenn alle Namen eingetragen sind mit OK bestätigen.
multiple Korrelation
Die multiple Korrelation ist ein Spezialfall der Kanonischen Korrelation.
39
Describe -> Multivariate Methods -> Canonical Correlations
Den Namen der Spalte des Merkmals X, derren lineare Abhängigkeit überprüft werden soll, bei
Second Set of Variables eintragen. Die Namen der Spalten der p Merkmale von denen X
abhängig sein soll bei First Set of Variables eingeben und mit OK bestätigen.
am Beispiel
File->Open->Data Source…
STATGRAPHICS Data File
beispiele.sf6 wählen und bestätigen.
Describe -> Multivariate Methods -> Canonical Correlations
Bei First Set of Variables Zahlen3 und Zahlen4 eingeben und bei Second Set of Variables
Zahlen5 eingeben und man erhält als Ergebnis:
Canonical Correlations
Canonical Wilks
Number Eigenvalue Correlation Lambda
1
0,799725 0,894273
0,200275
Chi-Squared
11,2564
D.F.
2
P-Value
0,0036
partielle Korrelation
Describe -> Numeric Data -> Multiple Variable Analysis
Bei Data die Namen der Spalten mit den Werten der zu analysierenden Merkmale eingeben.
Falls die partiellen Korrelationen noch nicht angezeigt werden auf die Tables-Schaltfläche
klicken und Partial Correlations auswählen.
am Beispiel
File->Open->Data Source…
STATGRAPHICS Data File
beispiele.sf6 wählen und bestätigen.
Describe -> Numeric Data -> Multiple
Variable Analysis
Bei Data Zahlen3, Zahlen4 und Zahlen5
eingeben und auf die TablesSchaltfläche klicken und Partial
Correlations auswählen.
Man erhält das nebenstehende Ergebnis.
40
7 Regressionsanalyse
Lineare Regressionsmodelle
Einfache lineare Regression
Relate -> One Factor -> Simple Regression
Den Namen der Spalte mit Wirkgröße bei Y und den der Spalte mit der Einflussgröße bei X
eingeben. Mit OK bestätigen.
Auf die Graphs-Schaltfläche klicken und Plot of Fitted Model auswählen - es wird die Grafik mit
Konfidenz- und Prognoseschlauch erstellt. Es können außerdem verschiedene Residualplots
ausgewählt werden.
Vorhersagen können getroffen werden, wenn man auf die Tables-Schaltfläche klickt und
Forecasts auswählt. Mit der rechten Maustaste ins entsprechende Feld klicken und Pane Options
auswählen, bei X können die Werte eingetragen werden für die die zugehörigen Y-Werte
vorhergesagt werden sollen.
am Beispiel
File->Open->Data Source…
STATGRAPHICS Data File
beispiele.sf6 wählen und bestätigen.
Relate -> One Factor -> Simple Regression
Als Y Variable Zahlen5 und als X Variable Zahlen4 eingeben.
Simple Regression - Zahlen5 vs. Zahlen4
Dependent variable: Zahlen5
Independent variable: Zahlen4
Linear model: Y = a + b*X
Coefficients
Least Squares
Parameter Estimate
Intercept
11,7674
Slope
-0,315742
Analysis of Variance
Source
Sum of Squares
Model
22,2914
Residual
33,3086
Total (Corr.) 55,6
Standard
Error
2,91074
0,136457
T
Statistic
4,04277
-2,31385
Df Mean Square
1 22,2914
8 4,16357
9
Correlation Coefficient = -0,633186
R-squared = 40,0925 percent
R-squared (adjusted for d.f.) = 32,604 percent
Standard Error of Est. = 2,04048
Mean absolute error = 1,47996
Durbin-Watson statistic = 2,01107 (P=0,4732)
Lag 1 residual autocorrelation = -0,243567
41
P-Value
0,0037
0,0494
F-Ratio P-Value
5,35
0,0494
Unter der Graphs-Schaltfläche Plot of Fitted Model wählen.
Das Menü Pane Options öffnen und die Einträge wie in der Abbildung oben links vornehmen.
Im Kontextmenü (rechte Maustaste) Graphics Options öffnen und dort denn Bereich für die YAchse von -5 bis 15 festlegen. Man erhält damit die folgende Grafik.
Plot of Fitted Model
Zahlen5
Zahlen5 = 11,7674 - 0,315742*Zahlen4
15
13
11
9
7
5
3
1
-1
-3
-5
11
14
17
20
Zahlen4
42
23
26
29
Unter der Graphs-Schaltfläche Residual versus X wählen. Das Menü Pane Options öffnen und
unter Plot Residuals wählen. Man erhält den folgenden Residual-Plot:
Residual Plot
Zahlen5 = 11,7674 - 0,315742*Zahlen4
3
2
res idual
1
0
-1
-2
-3
11
14
17
20
23
Zahlen4
26
29
Multiple parameterlineare Regression
Relate -> Multiple Factors -> Multiple Regression
Den Namen der Spalte mit der Wirkgröße bei Dependent Variable eintragen. Bei Independent
Variables die Namen der Spalten mit den Einflussgrößen eingeben.
Bei Independent Variables können auch Statgraphics-Ausdrücke wie beispielsweise
Spaltenname^2 eingegeben werden.
am Beispiel
File->Open->Data Source…
STATGRAPHICS Data File
beispiele.sf6 wählen und bestätigen.
Relate->Multiple Factors->Multiple Regression
Bei Dependent Variable Zahlen5 eintragen. Bei Independent Variables Zahlen4 und Zahlen3^2
eintragen.
Man erhält folgenden Ausdruck:
43
Multiple Regression - Zahlen5
Dependent variable: Zahlen5
Independent variables:
Zahlen4
Zahlen3^2
Parameter
CONSTANT
Zahlen4
Zahlen3^2
Estimate
14,0419
-0,513406
0,0620579
Standard
Error
2,15878
0,114744
0,0201617
Analysis of Variance
Source
Sum of Squares
Model
41,4469
Residual
14,1531
Total (Corr.) 55,6
T
Statistic
6,50458
-4,47434
3,07801
Df Mean Square
2 20,7235
7 2,02187
9
P-Value
0,0003
0,0029
0,0179
F-Ratio P-Value
10,25
0,0083
R-squared = 74,5448 percent
R-squared (adjusted for d.f.) = 67,2719 percent
Standard Error of Est. = 1,42192
Mean absolute error = 1,11819
Durbin-Watson statistic = 2,33198 (P=0,6785)
Lag 1 residual autocorrelation = -0,249564
Wählt man weiter in Graphs-Tables-Schaltfäche Residual versus Predicted, so erhält man
folgenden Residual-Plot:
Residual Plot
Studentized residual
2,9
1,9
0,9
-0,1
-1,1
-2,1
11
14
17
20
Zahlen4
23
44
26
29
Nichtlineare Regression
Anpassung an die logistische Funktion
Die Vorgehensweise soll hier am Vorlesungsbeispiel dargelegt werden.
Die erste Spalte mit wird t und die zweite Spalte mit y_t bezeichnet. Durch einen Doppelklick
auf die jeweilige Spalte gelangt man zu Modify Column und kann die Namen der Spalten ändern.
In die erste Spalte werden die Zeitpunkte 1,…,10 eingetragen und in die zweite Spalte die
dazugehörigen y-Werte.
Als nächstes wird die dritte Spalte in z_t
umbenannt. Über Generate Data im Kontextmenü
(Klick aus Spaltennamen und Rechtsklick) werden
in dieser Spalte neue Werte erzeugt. Dazu wird bei
Expression 1/y_t eingetragen.
Die nächste Spalte wird in z_t_1 umbenannt. In diese Spalte werden die Werte aus der Spalte z_t
um eine Position verschoben hinein kopiert. Man erhält die folgenden Eintragungen:
Jetzt werden die Parameter a und b über die einfache lineare Regression geschätzt.
Relate -> One Factor -> Simple Regression
Als Y Variable z_t und als X Variable z_t_1 eingeben.
Coefficients
Least Squares
Parameter Estimate
Intercept
0,00633285
Slope
0,870867
Die geschätzten Regressionskoeffizienten kopiert man in zwei neue Spalten und bezeichnet
diese mit a und b.
45
Die nächste Spalte wird mit alpha bezeichnet.
Über Generate Data im Kontextmenü wird der Wert von alpha
errechnet. Dazu wird bei Expression –log(b) eingetragen.
Die folgende Spalte wird mit gamma bezeichnet.
Hier trägt man nach Wahl von Generate Data bei Expression
(1-exp(-alpha))/a ein.
Man erhält damit die folgenden Ergebnisse:
Alle Y-Werte sind kleiner als (das geschätzte) gamma. Damit ist die Berechnung von beta die
Folgende. Als Hilfsvariable wird eine neue Spalte mit h bezeichnet. Über Generate Data werden
die einzelnen Summanden bestimmt, indem man bei Expression log(20,390772061/y_t-1)
einträgt. Als letztes bezeichnet man eine neue Spalte mit beta und berechnet in dieser, wieder
über Generate Data, die Summe der Werte in Spalte h.
Als Ergebnisse erhält man:
46
Document
Kategorie
Internet
Seitenansichten
4
Dateigröße
501 KB
Tags
1/--Seiten
melden