close

Anmelden

Neues Passwort anfordern?

Anmeldung mit OpenID

Evaluierungsarten Was wird evaluiert? → in Abhängigkeit davon

EinbettenHerunterladen
Evaluierung von IRS
Evaluierungsarten
•
•
•
•
•
•
Rapid-Prototyping
Simulationstest (Wizard-of-Oz-Experimente)
Kontrollierte Experimente
Untersuchungen
Empirische Langzeitstudien
Managementmethoden wie
– (Kritische) Erfolgsfaktorenanalyse
– Benchmarking
IR
167
Was wird evaluiert?
→ in Abhängigkeit davon Wahl
des Evaluierungswerkzeugs
Formen der Evaluierung:
Datenanalytische Verfahren
– wichtig sind die Fehler, die den Zugang zum
Dokument verwehren
169
IR
170
Retrievaltests als
Evaluierungswerkzeug (z.B.
PADOK)
Formen der Evaluierung:
Statistische und qualitative
Verfahren
• Verbindung von Recall-Precision-Zahlen
mit bestimmten Strategien
• Ziel: Ermittlung der geeigneten Form der
inhaltlichen Erschließung
• Überprüfung der Marktsituation: Welche
Verfahren stehen zur Verfügung?
• z.B. Anzahl der Interaktionen
• Anzahl der Deskriptoren (enge und weite
Anfragen) etc.
IR
168
• Vergleich: automatische Indexierung mit
manuellem Pendant
• differenzierte Fehlerbewertung
• Information-Retrieval-Systeme (IRSKomponente)
• Benutzerschnittstellen bzw. Interaktionsparadimen? (z.B. Menü / Direktmanipulation /
natürlichsprachlich (auch speech))
• Evaluierung innerhalb eines Interaktionsparadigmas? (z.B. natürliche Sprache)
IR
IR
171
IR
172
1
Genaue Festlegung der Systemunterschiede
Evaluierungskonzept
• BEISPIEL aus dem Bereich Indexierung:
– System A: Analyse des Textes in Einzelterme
– System B: Grundformenreduktion und
Kompositazerlegung
– System C: Grundformenreduktion, Kompositazerlegung, Komplexe Deskriptoren
– System D: Nominalgruppen max. Länge
IR
173
Komponenten des Retrievaltests
•
•
•
•
•
• Datenanalyse der Texterschließung
• Aufwandsmessung bei der Erschließung
• Retrievaltest
– Statistische Auswertung des Retrievaltests
– Analytische Auswertung des Retrievaltests
• Zusammenführung der Ergebnisse
IR
174
Testdatenbanken
Testdatenbanken und Dokumentauswahl
Aufgaben
Testpersonen
Relevanzbewertung
Ergebnisse
Problematik der
Repräsentativität
Struktur
IR
175
Aufgaben
IR
Größe
176
Testpersonen
• 300 Aufgaben pro System, d.h. 900
Aufgabenlösungen
• Grundlage der Aufgabenstellung: Seite 1
der Offenlegungsschrift
• Ziel: Vorauswahl bzgl. potentieller Entgegenhaltungen
• komplexe Aufgabe, nicht nur „Query“
IR
Inhalt
• Anspruch auf Realitätsnähe
• Auswahl orientierte sich am später zu
erwartenden Benutzerkreis (DPA,
Industrieprüfer, FIZe, Patentanwälte)
177
IR
179
2
Relevanzbewertung
Datenanalyse und Ergebnisse
(zur Problematik cf. Moser 1977,286ff.)
• Juror/en
• Urteilshintergründe
• Verschiedene Analysebereiche mit
unterschiedlichen Konkurrenten
– Grundformenreduktion (2% Fehler)
– Kompositazerlegung (2% Fehler)
– Komplexe Deskriptoren (75%ige Erfolgsquote)
– Situation und Bedingungen der Urteilsabgabe
• Skalenform und RelevanzgradDifferenzierung
• Präsentation der Dokumente an den Juror
IR
180
IR
Effektivitätsmessung
181
Grundmengen
• „ a measure of the ability of the system to
retrieve relevant documents while at the
same time holding back non-relevant ones“
(Van Rijsbergen 1979, 145)
Legende:
S selektiert
R relevant
S* nicht-s.
R* nicht-r.
R*
R
S
S*
Dokumentenbestand D
IR
182
Elementarparameter
a=R∩S
b=R*∩S
nichtc=R∩S*
nachgewiesen
d=R*∩S*
• „The ability of the retrieval system to
uncover relevant documents is known as the
recall power of the system“ (Lancaster
1968,55)
r=
Wertebereich 0 bis 1
IR
183
Standardmaß: Recall
relevant nicht-relevant
nachgewiesen
IR
184
IR
a
a +c
185
3
Probleme
Standardmaß: Precision
• Der Recall bezieht die Ballast-Quote nicht
mit ein
• Schätzwert für c im Nenner der RecallFormel
• Precision als Maß für die Genauigkeit des
Systems bzw. für dessen Rückhaltquote
p=
Wertebereich 0 bis 1
IR
186
Koordination von Maßen
• Regel für „Bessersein“: das Paar (R1, P1) ist
mindestens dann besser als (R2, P2), wenn
- R1>=R2 ∧P1 > P2 oder
- R1>R2 ∧P1>=P2
188
• Recall-Precision-Graph
• Single-Number-Measures
– relevance balance = (a+c)(b+d)
– retrieval balance = (a+b)(c+d)
– search destillation = (ad-bc)
• Verhoeff-Maß: a-b-c-d
• AIR-Maß: ap+br (a und b sind Gewichtungskonstanten)
• E-Maß (Van Rijsbergen)
IR
189
• Anpassung von ß an die jeweilige
Problemsituation, d.h. Verhalten von e in
Abhängigkeit von r, p und ß muß bekannt
sein (nicht unmittelbar aus der Formel
ablesbar!)
• empirische Überprüfung des Formelverhaltens
(ß +1)pr
ß2p+r
2
Wertebereich 1 bis 0
IR
187
Genaue Betrachtung des EMaßes
E-Maß nach Van Rijsbergen
e =1−
IR
Kombinationsmaße
• Kombinationsmaß: Wertepaar Ri und Pi
IR
a
a +b
190
IR
191
4
Auffälligkeiten
Methodische Konsequenzen
• Falls entweder R oder P = 0 ist, ergibt sich
für E immer der Wert 1 (d.h. das Maß kann
nicht mehr zw. unterschiedlichen R- bzw.
P-Werten differenzieren)
• Falls R und P einen gleichen Wert aufweisen, ergeben sich auch bei variierenden ßWerten keine unterschiedlichen E-Werte
(d.h. ß wird durch Kürzung eliminiert)
IR
192
Auswahl der Maße
194
Prinzipien der Maßauswahl (2)
193
• Retrievalmodell (Boolesche Maße vs.
Ranking-Maße)
• Benutzerstandpunkt (Analyse der
Vorstellung des Benutzers über Güte)
„There must be some fundamental understanding of what it
means to be good and what it means to be better“
(Bollmann/Cherniavsky 1983,3)
IR
195
Prinzipien der Maßauswahl (3)
• Boolesche Systeme
1. Ein System ist umso besser, je mehr
relevante Dokumente gefunden werden
2. Ein System ist umso besser, je geringer
der Ballast ist
3. Punkt (1) hat Priorität vor Punkt (2)
IR
IR
Prinzipien der Maßauswahl (1)
• Balance zwischen situativen Faktoren der
Bewertungssituation und Anforderungen an
meßtheoretisches Modell
• Aspekte der Vergleichbarkeit zu anderen
Studien
• inhaltliche Interpretierbarkeit der Maße
IR
• Vorsichtiges Umgehen mit kontextlosen
Ergebnissen
• Einbeziehung des Maßverhaltens bei der
Interpretation
• Heranziehen verschiedener Maße und
Vergleich der Ergebnisse
• Ranking Systeme
Position der Dokumente spielt die
entscheidende Rolle
196
IR
197
5
Beispiel
Variation der Standardmaße
• Benutzerstandpunkte
• B1: Benutzer bricht nach drei relevanten
Dokumenten ab
• B2: Benutzer bricht nach fünf hintereinander
folgenden nicht-relevanten Dokumenten ab
• B3: Benutzer schaut sich prinzipiell 10 Dokumente
an
– A1= (+,-,-,-,-,-,-,-,-,-,+,+,+,-,+)
– A2= (-,+,-,-,+,+,-,-,-,+,+,-,-,-,-)
– A3= (-,-,+,+,+,-,-,-,-,-,-,+,-,+,-)
IR
• Berechnung der Maße bei standardisierten
cut-offs und Mittelung
• Berechnung der Precision bei standardisierten Recall-Werten und Mittelung
• normalisierter Recall und normalisierte
Precision (Vergleich der tatsächlichen
Rangverteilung mit idealer)
198
IR
Welches System ist besser?
System A
a
b
2
6
0
100
0
0
10
10
0
0
System B
a
b
4
20
0
200
0
100
2
0
4
10
Σrel
4
0
0
20
10
Recall - Precision
System A
a b Σr
2 6
4
0 100 0
0 0
0
10 10 20
0 0
10
Σrel
4
0
0
20
10
IR
199
200
Sonderprobleme bei den Maßen
• Lösung für Quotienten Null-durch-Null
System B
R P
a b
Σr
0.5 0.25 4 20 4
0
0 200 0
0 100 0
0.5 0.5 2 0
20
0
4 10 10
R
1
P
0.17
0
0
0.1 1
0.4 0.29
IR
201
Möglicher Lösungsvorschlag
• Negative Nullantworten:
– Beispiel: Recall
– Recall = 0; Precision = 0
• Fall der Nullantworten (differenzierte
Analyse)
• Positive Nullantworten:
– a=0, b=0, c>0 (negative Nullantwort)
– a=0, b>0, c=0 (positive Nullantwort)
– Recall = 1; Precision = 1
• Fall der leeren Antwortmenge
• analog: leere Antwortmenge
– a=0, b=0, c=0 (leere Antwortmenge ohne rel.)
– a=0, b=0, c>0 (leere Antwortmenge mit rel.)
IR
202
IR
203
6
Auswahlkriterien für Mittelwertbildung
Sonderproblem:
Retrievalergebnisse
• Auf welcher Basis soll die Mittelung
vollzogen werden?
• Ziel: Kennzeichnung einer empirischen
Verteilung durch einen Wert
– Elementarparameter?
– Recall-Precision-Werte?
– Größe der Stichprobe
– Form der empirischen Verteilung
– Skalierung der Meßwerte
• Man unterscheidet hier zwischen der sog.
Mikro- und Makromittelung
– Unterschied?
IR
204
Signifikanztests
IR
Ablauf von Signifikanztests
• Beschreibende Statistik: Beschreibung von
Verteilungen z.B. mittels Mittelwert und
Streuung
Definition von Problemstellung und Grundlage
Formulierung einer Null- und Alternativhypothese
Parameter
• Prüfstatistik: Beurteilung der Ergebnisse
• Frage: Unterscheiden sich statistische
Kennwerte signifikant von einander?
IR
205
Testauswahl
Testanwendung
Signifikanzniveau
206
Entscheidung
H0
IR
H1
207
Ergebnis von Signifikanztests
• Die Systeme A und B unterscheiden sich
nicht signifikant voneinander
• Zwischen System A und B liegt ein
signifikanter Unterschied vor
• Richtung des Unterschieds: System A ist
besser als System B
• Mit einer 95% Wahrscheinlichkeit liegt ein
Unterschied vor.
IR
208
7
Document
Kategorie
Kunst und Fotos
Seitenansichten
4
Dateigröße
42 KB
Tags
1/--Seiten
melden