close

Anmelden

Neues Passwort anfordern?

Anmeldung mit OpenID

1. Was versteht man unter einem Information Retrieval System?

EinbettenHerunterladen
1. Was versteht man unter einem
Information Retrieval System?
Literaturempfehlungen
a) Klassiker
SALTON,G., McGILL,M.J.: Introduction to
Modern Information Retrieval.
McGraw-Hill, New York 1983.
VAN RIJSBERGEN,C.J.: Information Retrieval. Butterworths, London 1979.
GEBHARDT,F.: Dokumentationssysteme.
Springer, Berlin 1981.
PANYR,J.: Information Retrieval-Systeme:
State of the Art. HMD 24 (1987) Heft 133,
15–36.
IR1 – 1
b) aktuelle Darstellungen
CHOWDHURY, G.G: Introduction to Modern
Information Retrieval.
Library Association Publishing, London, 1999.
BAEZA-YATES, R., RIBEIRO-NETO, B.:
Modern Information Retrieval.
Addison-Wesley, Harlow, England 1999.
GROSSMAN, D.A., FRIEDER, O.: Information Retrieval — Algorithms and Heuristics.
Kluwer Academic Publishers, Boston 1998.
FRAKES, B., BAEZA-YATES, R.: Information Retrieval — Data Structures and Algorithms. Prentice Hall, Englewood Cliffs 1992.
1.1 Begriffsbestimmungen,
Definitionen
• Salton
• van Rijsbergen
• Panyr
• Gebhardt
IR1 – 2
1.2 Abgrenzung zu anderen Typen
von Informationssystemen
• van Rijsbergen: Arbeitet Unterschiede
zwischen Data Retrieval (DR) und Information Retrieval (IR) heraus.
DR
IR
Matching
Exact match
Partial or
best match
Inference
Model
Classification
Query language
Query specification
Items wanted
Error response
Deduction
Deterministic
Monothetic
Artificial
Complete
Matching
Sensitive
Induction
Probabilistic
Polythetic
Natural
Incomplete
Relevant
Insensitive
IR1 – 3
• Ein IR-System ist ein spezieller Typ eines
(Standard-) Informationssystems. Salton
¨
weist auf Uberlappung
zwischen verschiedenen IS-Typen hin.
IR
QA
DBS
MIS
Abb. 1.1 Verwandte Standard-Informationssysteme nach Salton
IR1 – 4
1.3 Funktionale Charakterisierung
von IR-Systemen
Der “relationale” Ansatz von Salton
SIMILAR
REQS
Mechanismus zur Bestimmung der
Dokumente, die einer gegebenen
Anfrage entsprechen.
Menge von
Anfragen
DOCS
Menge von
Dokumenten
Abb. 1.2 Salton’s “relationaler” Ansatz
SIMILAR kann man sich vorstellen als:
a) Relation auf REQS × DOCS, die angibt,
ob das Paar (req, doc), req ∈ REQS,
doc ∈ DOCS in der Relation SIMILAR
ist (“zusammenpaßt”) oder nicht.
b) Abbildung von REQS in die Potenzmenge
(DOCS), die fu
¨r jedes req ∈ REQS die
Teilmenge von DOCS angibt, die sich fu
¨r
diese Anfrage qualifiziert.
c) Abbildung von REQS × DOCS in [0, 1],
wobei der Funktionswert das Ausmaß der
¨
Ahnlichkeit
angibt.
IR1 – 5
Bestimmung der Ähnlichkeit zwischen
dem Repräsentanten der Anfrage und
den Repräsentanten der Dokumente
(SIMILAR)
REQS
Formulierung
der Anfrage
Indexierung
DOCS
LANG
Menge von
Anfragen
Indexierungssprache
Menge von
Dokumenten
Abb. 1.3 Verfeinerung des “relationalen” Ansatzes
Der “Datenfluß-orientierte” Ansatz van Rijsbergen’s
Feedback
Queries
Prozessor
Output
Input
Dokumente
Abb. 1.4 van Rijsbergen’s “Datenfluß-orientierter” Ansatz
IR1 – 6
Der “Instanzen-orientierte” Ansatz Gebhardt’s
Autor
Idee
Dokument
Dokumentar:
Eingabebearbeitung
(Indexierung i.w.S.)
Datenbasis
Retrieval-System:
Ausgabebearbeitung
Schlagworte
Benutzer
Lit.Nachweise
Fragestellung
Abb. 1.5 Gebhardt’s “Instanzen-orientierter” Ansatz
IR1 – 7
1.4 Abfragefunktionen eines typischen IR-Systems
Boolsche Suchlogik:
S INFORMATION
S RETRIEVAL
S s1 and s2
S INFORMATION and RETRIEVAL
S INFORMATION and s2
S s1 or RETRIEVAL
S s1 not s2
S (s4 or s5 or s6) and (s7 or s8) not s9
Platzhaltersymbole:
PSYCH?
PSYCHIATER
PSYCHIATRIE
PSYCHOLOGE
PSYCHOLOGIE
DOCUMENT?? ?
WOM?N
IR1 – 8
Kontextoperationen:
S INFORMATION (W) RETRIEVAL,
S PROGRAMMING (5 W) LANGUAGE
Weitere Kontextoperationen in DIALOG:
(N), (#N), (S).
Formale Angaben:
AU
DT
JN
LA
PY
PD
Autor
Dokumenttyp
Journalname
Sprache
Publikationsjahr
Publikationsdatum
S PY = 1999 : 2001.
S PY = 2000 and INFORMATION (W) RETRIEVAL
IR1 – 9
1.5 Typische Implementierung eines IR-Systems
mit Hilfe eines invertierten Index
Abb. 1.6 Invertierter Index auf Basis relationaler Tabellen
IR1 – 10
Document
Kategorie
Kunst und Fotos
Seitenansichten
12
Dateigröße
94 KB
Tags
1/--Seiten
melden