close

Anmelden

Neues Passwort anfordern?

Anmeldung mit OpenID

1 Was ist Information Retrieval?

EinbettenHerunterladen
1 Was ist Information Retrieval?
In diesem Kapitel wollen wir uns zunächst mit dem Begriff Information Retrieval (IR)
selbst beschäftigen. Dazu geben wir zunächst ein paar Beispiele, wie und wo man im (fast)
alltäglichen Leben mit IR Systemen in Berührung kommen kann. Daraus lässt sich auch
naiv ableiten, um welche Probleme sich beim IR eigentlich alles dreht.
Nach dieser Einführung gehen wir den Begriff selbst an. Zu diesem Zweck müssen wir
zunächst zwischen Daten, Informationen und Wissen unterscheiden. Danach werden Definitionen aus verschiedenen Literaturquellen vorgestellt. Diese dienen auch dazu, unsere
Interessen im Bereich des IR abzustecken. Wir betrachten anschließend kurz einzelne Teilgebiete und Aufgaben aus dem Bereich des IR und stellen angrenzende Gebiete vor.
Gegen Ende des Kapitels können wir dann eine erste, schematische Darstellung eines IR
Systems angeben. Ganz abstrakt lassen sich damit die Bestandteile eines solchen Systems
erklären, die wir in späteren Kapiteln dann näher betrachten werden.
1.1 Beispiele
Information Retrieval war für lange Zeit ein eher kleines Forschungs- und Anwendungsgebiet im Bereich der Bibliotheken, das eventuell auch in größeren Firmen von Interesse
war. In Bibliotheken sind IR Systeme nach wie vor zu finden, beispielsweise im Katalogsystem der Mainzer Universitätsbibliothek (siehe Abb. 1.1). Firmensysteme können ebenfalls
ganz allgemein auf die Suche von Dokumenten ausgerichtet sein. Es gibt aber auch sehr
spezielle Anwendungen, z.B. zum Durchsuchen einer Sammlung von Patentschriften oder
Gerichtsurteilen.
Für ein breites Publikum richtig interessant wurden IR Systeme dann in den 1990er Jahren. Durch die Entwicklung und den rasanten Boom des World Wide Web stand plötzlich jeder Web Nutzer vor einer gigantischen Sammlung von Webseiten und Online-Dokumenten.
Mit den Websuchmaschinen zogen IR Systeme dann immer mehr in den Alltag ein. Google
(siehe Abb. 1.2) dürfte heutzutage für viele Nutzer wohl fast schon der Standardeinstieg
ins World Wide Web sein.
Aber auch andere Ansätze und Versuche, Ordnung in das Web zu bringen fallen unter
die Kategorie der IR Systeme. Beispielsweise Web-Directories (siehe Abb. 1.3), in denen
Websites in einem hierarchischen und thematisch gegliederten Katalog aufgeführt werden.
Diese Kataloge werden oft händisch gepflegt und sind daher bezüglich ihres Datenbestandes
selten so umfangreich wie eine Websuchmaschine.
Neben diesen fast schon offensichtlichen IR Systemen haben sich aber auch viele andere in den Alltag eingeschlichen. Desktopsuchmaschinen sind in den meisten modernen
1
1 Was ist Information Retrieval?
Abbildung 1.1: Die Online Schnittstelle zum Katalog der Universitätsbibliothek Mainz.
Abbildung 1.2: Startseite zu Google – IR Systeme sind alltäglich geworden.
2
1.2 Information Retrieval
Abbildung 1.3: Startseite des Open Directory Projects DMOZ.
Betriebssystemen zu finden. Anstatt die Position eines Dokumentes oder Bildes im Dateisystem zu kennen (oder händisch danach zu suchen), kann der Nutzer ein Programm zum
Auffinden seiner Daten verwenden (siehe Abbildung 1.4). Sogar auf Mobiltelefonen finden
sich gelegentlich schon solche Programme, die das Adressbuch, Dokumente, das Web oder
eine Mediensammlung durchsuchen.
1.2 Information Retrieval
Aus den einleitenden Beispielen erhält man bereits einen ersten Eindruck, worum es im Information Retrieval geht: die Versorgung von Nutzern mit Informationen. Das setzt selbstverständlich voraus, dass der Nutzer ein Informationsbedürfnis hat und dieses auch befriedigen möchte (siehe Kasten “Calvin Mooers” zum Thema Mooers Law).
Nutzer können sehr unterschiedliche Informationsbedürfnisse haben. Einige Beispiele:
• Bei welchem Stand ging der DAX am Freitag aus dem Handel?
• Wie hat die Handballmannschaft meines Heimatortes gestern gespielt?
• Welche theoretischen Modelle gibt es im IR?
3
1 Was ist Information Retrieval?
Abbildung 1.4: Desktop Suche (Ubuntu Linux).
• Wie funktioniert Quicksort?
• Wann und wo findet die Vorlesung Information Retrieval statt?
• Was kann ich gegen den stechenden Schmerz im Fuß unternehmen?
• Welche Schauspieler haben die besten Chancen den Oscar zu gewinnen?
• Wie steht die breite Masse dem letzten Konjunkturpaket der Regierung gegenüber?
Wir haben es im IR also mit Nutzern zu tun, die irgendwelche Informationen benötigen.
Es bleibt die Frage, wie ein Nutzer an diese Informationen gelangen kann. Es gibt durchaus
verschiedene Ansätze nach Informationen zu suchen (information seeking) die nicht unbedingt zum Einsatz von IR Systemen führen. Wenn man sich die obigen Beispiele ansieht,
erkennt man recht schnell verschiedene Möglichkeiten. Es wird außerdem klar, dass die
Ansätze in den einzelnen Fällen sehr unterschiedliche Erfolgsaussichten haben:
Experten befragen: Ein Nutzer kann schlichtweg jemanden fragen, der die benötigte Information voraussichtlich hat (und zu teilen bereit ist). Der Begriff Experte hat sich
in diesem Zusammenhang ganz allgemein für jemanden eingebürgert, der über die
benötigten Informationen verfügt. Ein Experte kann daher ein Spezialist auf einem
Fachgebiet sein oder schlicht ein Passant, den man nach dem Weg fragt. Letzteres Beispiel weist aber auch darauf hin, dass bereits das Auffinden eines Experten
durchaus eine Herausforderung (und Aufgabe des IR) sein kann.
4
1.2 Information Retrieval
Calvin Mooers
Der Begriff “Information Retrieval” wurde von Calvin Mooers eingeführt. Mooers
gilt als einer der Pioniere der Informatik. Er entwickelte unter anderem ein mechanisches System namens Zatocoding, das für Bibliotheken gedacht war. Darin wurde
eine Art Karteikarten verwaltet, über die auf andere Dokumente verwiesen werden konnte. Die Karteikarten waren zusätzlich durch Kerben markiert, welche den
Inhalt des referenzierten Dokumentes beschrieben. Diese Kerben ließen inhaltliche
Schlussfolgerungen zu, so dass das System zu einer Anfrage die inhaltlich relevanten
Dokumente (bzw. deren Karteikarten) heraussuchen konnte.
Mooers berichtete, dass er sich damit Bibliothekare zum Feind machte. In Bibliotheken herrschte damals die Meinung, dass es für solche Aufgaben ein “denkendes,
menschliches Gehirn” braucht. Eine Maschine könne so eine Aufgabe nicht lösen
[Wei95].
Vielleicht auch wegen dieser Reaktion formuliert Mooers später sein “Gesetz”
(Mooers Law [Aus01], das viel bekannter wurde als Zatocoding:
An information retrieval system will tend not to be used whenever it is
more painful and troublesome for a customer to have information than
for him not to have it.
Auch wenn das Gesetz heute häufig so interpretiert wird, dass man es dem Nutzer
eines IR Systems einfach machen soll, an die benötigten Informationen zu gelangen,
war die eigentliche Intention anders. Wenn eine Information oder Wissen für einen
Nutzer mehr Nachteile als Vorteile bringt, so wird er ein System zum Auffinden
dieser Information womöglich gar nicht erst nutzen (“Ignorance is a bliss”).
Literaturrecherche: Der Nutzer schlägt die Information in “geeigneter” Literatur nach.
Das kann die lokale Tageszeitung, ein Fachbuch, ein Zeitschrift oder – heutzutage
immer wichtiger – eine Online-Ressource sein. Der Begriff “nachschlagen” ist dabei
sehr allgemein zu verstehen. Der Nutzer könnte ein Fachbuch komplett von vorne
bis hinten durchlesen um an die benötigte Information zu gelangen. Ebenso kann er
Hilfsmittel wie ein Inhaltsverzeichnis oder einen Index verwenden. Auch ein gewisses
Vorwissen oder Fachkenntnisse können hilfreich sein, beispielsweise wenn bekannt ist,
auf welcher Seite der Zeitung die Sport- oder Wirtschaftsnachrichten zu finden sind.
Bibliotheksrecherche: Wenn der Nutzer nicht genau weiß, wo die benötigte Information
zu finden ist, kann er in einem Katalog nach passender Literatur suchen. Kataloge
in Bibliotheken sind sehr unterschiedlich organisiert. Einträge können nach Titel
oder Autor sortiert sein. Auch Klassifikationen nach Fachgebieten und Teilbereichen
sind häufig anzutreffen. In der PMC1 wird beispielsweise die RVK (Regensburger
1
PMC: Fachbereichsbibliothek Physik, Mathematik und Chemie an der Uni Mainz.
5
1 Was ist Information Retrieval?
Verbundklassifikation) eingesetzt. Bücher sind thematisch aufgestellt und innerhalb
eines Themas nach Autor sortiert. Der Online-Katalog erlaubt zusätzlich eine Vielzahl
anderer Suchmöglichkeiten.
Websuche: Die Suche im Web unterscheidet sich von einer Bibliotheksrecherche in Hinsicht auf den Umfang des Datenbestandes, dessen Heterogenität und Qualität. Im
Web ist man mit einer Vielzahl an Formaten (sowohl technisch als auch inhaltlich)
konfrontiert. Die Dokumente werden außerdem meist automatisch erfasst und nicht
manuell kontrolliert. Auch deshalb ist die Urheberschaft, Qualität und auch Aktualität einer Information im Web nicht immer nachvollziehbar – sie kann sogar absichtlich verfälscht oder verschleiert sein. Aus Sicht des IR ist vor allem auch das enorme
Datenaufkommen und dessen stetes Wachstum eine Herausforderung.
In allen Fällen geht es aus der Sicht des Informationssuchenden darum, hilfreich Informationen zu erhalten (obwohl das unter Berücksichtigung der Definition im kommenden
Abschnitt selbstverständlich ist). Trotzdem ist Relevanz ein zentraler Begriff im IR. Relevanz gibt an, ob und vielleicht sogar zu welchem Grad ein Dokumente zur Informationssuche passt und zur Befriedigung des Informationsbedürfnisses eines Nutzers beiträgt. Fuhr
[Fuh06] listet (unter Berufung auf Fachliteratur) vier verschiedene Arten von Relevanz auf:
Situative Relevanz: die tatsächliche Nützlichkeit eines Dokuments in einer konkreten Situation, d.h. in wie weit liefert es eine konkrete Information. Sie lässt sich nicht
wirklich messen.
Subjektive Relevanz: Wie nützlich empfindet ein Nutzer ein Dokument. Dies kann sich
stark von der situativen Relevanz unterscheiden, beispielsweise, wenn ein Dokument
für den Nutzer zu kompliziert geschrieben ist (oder in der falschen Sprache), zu viel
Vorwissen voraussetzt oder schlichtweg zu umfangreich ist.
Objektive Relevanz: Urteil von (mehreren) unabhängigen Nutzern über die Nützlichkeit
eines Dokumentes zu einem vorgegebenen Informationsbedürfnis. Diese Art der Relevanz wird häufig zu Evaluationszwecken herangezogen.
Systemrelevanz: Relevanzwert, wie er in einem IR System berechnet wird. Dies entspricht
einem per Algorithmen bestimmten Nützlichkeitswert als Beziehung zwischen einer
Anfrage und einem Dokument. Solche Werte werden für die Aufnahme in eine Ergebnisliste und zur Erstellung einer Rangliste (Ranking) verwendet. Es ist lediglich eine
Schätzung der Relevanz und wird auch mit RSV (Retrieval Status Value) bezeichnet.
Das größte Problem im IR ist die Vagheit der Sprache. Vagheit bedeutet hier, dass sich
nicht immer exakt und situationsunabhängig festmachen lässt, worum es geht. Texte und
Wörter bedürfen einer Interpretation, enthalten eine Semantik. Dies gilt sowohl auf der
Seite der Dokumente als auch bei der Formulierung der Anfragen. Die Vagheit kann sich
sehr unterschiedlich ausdrücken. Ein Wort kann mehrere Bedeutungen haben (modern,
6
1.3 Daten, Wissen, Informationen
Bank, etc.) andere Wörter beschreiben das gleiche oder ähnliche Konzepte (Bildschirm,
Monitor, Screen, Display). Sprache erlaubt außerdem viele Feinheiten wie Ironie (“Das
ist aber eine tolle Vorlesung!”) oder ist extrem situationsabhängig (russische Qualität bei
Wodka oder Autos).
Auch wenn im IR heute nicht mehr nur Textdokumente betrachtet werden, so bleibt das
Problem der Vagheit eigentlich in allen Anwendungen erhalten (beispielsweise bei einer
Suche nach Bildern).
1.3 Daten, Wissen, Informationen
Wir haben jetzt wiederholt von Informationen gesprochen. Wir werden nun etwas näher
darauf eingehen, was Informationen eigentlich sind. In diesem Zusammenhang werden wir
auch auf die Begriffe Daten und Wissen eingehen, da diese zur Abgrenzung dienen und
somit das Verständnis erleichtern. Wir werden dabei von den Daten über Wissen hin zu
Informationen gehen. Gleich vorweg sei jedoch erwähnt, dass man – je nach Quelle – auch
unterschiedliche Auffassung und Definitionen findet. Insbesondere die Begriffe Wissen und
Information werden gelegentlich genau anders herum gebraucht.
Daten sind “Einträge” mit einer bekannten syntaktischen Struktur. Es ist also bekannt,
nach welchem Muster die Einträge aufgebaut, d.h. durch Zeichen kodiert sind. Man
spricht auch davon, dass Daten eine für die maschinelle Verarbeitung geeignete, kodierte Darstellung von Informationen sind.
Beispiel: XML (trägt keine Semantik!!!), Stringformate, Zeichenkodierung
Wissen fügt den Daten eine Semantik hinzu. Das heißt, es ist klar was hinter den Daten
steckt und was diese darstellen. Allgemeiner wird der Begriff Wissen auch für die
Gesamtheit aller Kenntnisse eines Fachgebietes verwendet – also eine Art Faktensammlung.
Beispiele: Buchtitel, Datum einer Reise, Standort eines Buches in der Bibliothek.
Information ergänzt nun den Aspekt der Pragmatik, es geht also um die Teilmenge des
Wissens, das zur Lösung einer ganz bestimmten Aufgabe nötig ist. Information ist
also gewissermaßen der Teil des Wissen, mit dem sich eine ganz bestimmte Frage
beantworten lässt. Anders ausgedrückt sind Informationen nutzbares Wissen.
Beispiele: Wo findet die Vorlesung statt, welches Buch empfiehlt sich, wann war ich
in Inverness?
1.4 Definitionen zu IR
In der Fachliteratur finden sich durchaus unterschiedliche Erklärungen dazu, was Information Retrieval (IR) ist. So gibt Fuhr [Fuh06] an:
7
1 Was ist Information Retrieval?
Nutzloses Wissen ?!?
Das Buch “Schotts Sammelsurium” von Ben Schott [Sch04] wird oft auch als “Enzyklopädie des nutzlosen Wissens” bezeichnet. Der Autor listet darin ein Vielzahl an
kuriosen Fakten, Geschichten und Begebenheiten auf. Dass die Inhalte als nutzloses Wissen angesehen werden, liegt sicherlich daran, dass Sie im Alltag wohl selten
praktische Anwendung finden dürften. Aber auch das Buch selbst sorgt in gewissem Maße dafür, dass das Wissen nutzlos bleibt: es gibt kein Inhaltsverzeichnis und
keinen Index. Die Einträge stehen in scheinbar willkürlicher Reihenfolge im Buch.
Damit eignet sich das Buch zwar gut, um es nach Kuriosem zu durchstöbern. Um
allerdings Informationen daraus zu ziehen ist es ziemlich ungeeignet: es fällt schwer
das zur Lösung einer Aufgabe benötigte Wissen darin zu finden.
Will man den Gegenstand des Information Retrieval [...] mit wenigen Worten
beschreiben, so ist die Formulierung “inhaltliche Suche in Texten” wohl am
treffendsten.
Fuhr sagt aber auch, dass diese Definition eigentlich nur dem klassischen IR gerecht
werde. Heutzutage sei IR wesentlich breiter angelegt und es umfasse auch die Suche nach
multimedialen Daten, beispielsweise Bildern. Er verweist weiterhin auch auf die Definition
der Fachgruppe IR [fI09] in der Gesellschaft für Informatik. Diese beschreibt IR einleitend
folgendermaßen:
Im Information Retrieval (IR) werden Informationssysteme in Bezug auf ihre
Rolle im Prozeß des Wissenstransfers vom menschlichen Wissensproduzenten
zum Informations-Nachfragenden betrachtet.
Diese Definition führt zusätzlich auf, dass IR sich mit Informationssystemen beschäftigt,
die einem Wissenstransfer dienen können. Wenn dies zunächst auch etwas schwammig
klingen mag (auch ein E-Mail Service kann als Informationssystem zum Wissenstransfer
aufgefasst werden), so ist der Transfer von Wissen doch eine zentrale Motivation für den
Einsatz von IR Systemen.
Baeza-Yates und Ribeiro-Neto [BYRN99] versuchen eine etwas umfassendere und technischere Definition zu geben:
Information Retrieval [...] deals with the representation, storage, organization
of, and access to information items.
Es fällt auf, dass hier nicht mehr von Texten, sondern von Informationsobjekten die
Rede ist. Weiterhin wird die Aufgabe der inhaltliche Suche verallgemeinert zum Zugriff
auf die Informationsobjekte. Und schließlich ist auch die Rede davon, dass sich IR mit der
Darstellung, Speicherung und Verwaltung der Informationsobjekte beschäftigt.
Henrich [Hen08] erklärt IR so:
8
1.4 Definitionen zu IR
Gegenstand des Information Retrieval ist die Suche nach Dokumenten. Traditionell handelt es sich dabei um Textdokumente. In neuerer Zeit kommt aber
verstärkt die Suche nach multimedialen Dokumenten (Bilder, Videos, Audios,
Hypertext-Dokumente) oder z.B. die Suche nach Experten und Arbeitsgruppen
mit einem bestimmten Kompetenzprofil hinzu.
Darin kommt ein weiterer Aspekt hinzu: die Suche nach Experten – ein Problem das
wir bereits eingangs angesprochen haben. Außerdem wird zwischen (klassischen) Textdokumenten und Hypertext-Dokumenten unterschieden. Henrich weist auch darauf hin, dass
im IR meist keine auf Zeichenketten basierende Suche, sondern eine inhaltsbasiernde Suche
gemeint ist. Das heißt, bedingt durch Vagheit in jeder Sprache, geht man weg von einer
exakten Anfrage und hin zu Abstraktion und semantikbezogene Anfragen (“Gib mir was
ich will”).
Eine letzte Definition aus dem Buch von Manning, Raghavan und Schütze [MRS08]:
Information retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies an information need from within
large collections (usually stored on computers).
Damit wird eine wichtige Gemeinsamkeit der gesuchten Objekte angesprochen: sie sind
unstruktriert. Außerdem wird wieder der Wissenstransfer angesprochen, und zwar in der
Form, dass ein Informationsbedürfnis zu befriedigen ist. Auch der letzte Punkt ist interessant, nämlich dass man es mit umfangreichen Sammlungen von Daten zu tun hat, die in
der Regel auf Computern gespeichert sind.
Während der Einsatz von IT-Systemen für uns in diesem Zusammenhang heutzutage
fast selbstverständlich ist, so musste van Rijsbergen in seinem Buch von 1979 [VR79] noch
ausdrücklich darauf hinweisen. Das liegt daran, dass der Begriff IR damals wohl landläufig
breiter aufgefasst wurde. So zählte scheinbar auch die manuelle Suche in Bibliothekskatalogen zum IR.
Ein weiterer Punkt auf den van Rijsbergen eingeht ist, dass Information Retrieval eigentlich passender als Document Retrieval zu bezeichnen wäre. Schließlich liefern IR Systeme
(in den meisten Fällen) Verweise auf Dokumente und liefern nicht eine gewünschte Information selbst. Er zitiert dabei Lancaster [Lan67]:
An information retrieval system does not inform (i.e. change the knowledge of)
the user on the subject of his inquiry. It merely informs on the existence (or
non-existence) and whereabouts of documents relating to his request.
In dem gleichen Buch ist weiterhin ein nette, tabellarische und viel zitierte Abgrenzung
zwischen Data Retrieval und Information Retrieval zu finden. Diese Abgrenzung soll in
diesem Rahmen nicht fehlen und wird in Tabelle 1.1 angegeben und erläutert.
Besonders interessant im Vergleich zu klassischen Datenbanken ist die Abgrenzung in
Bezug auf “Matching” und “Items wanted”, also die Frage nach der Bestimmung von
9
1 Was ist Information Retrieval?
Treffern und welche Ergebnisse man eigentlich möchte. Die Unterschiede werden wohl in
einem Beispiel am deutlichsten.
Beispiel: Daten vs. Information Retrieval
Betrachten wir eine relationale Datenbank und eine Websuchmaschine. Eine Anfrage
an die Datenbank formulieren wir über SQL:
select * from PFLANZEN where GATTUNG = ’Obstbaum’
Wir erwarten, dass die Ergebnismenge nur solche Einträge aus der Tabelle PFLANZEN
enthält, die im Feld GATTUNG den Eintrag “Obstbaum” haben. Wir wollen also, dass
Ergebnisse und Suchanfragen exakt zu einander passen. Noch anschaulicher wird diese
offensichtliche Tatsache, wenn man an eine Abfrage in einem universitären Prüfungsverwaltungssystem über die Matrikelnummer oder ähnliche Primärschlüssel denkt.
Der Nutzer erwartet von einer Datenbank also, dass nur exakte Treffer gefunden
werden. Entsprechend prüft die Datenbank auch nur auf exakte Gleichheit. Wenn
sich der Nutzer bei der Anfrage vertippt (z.B. Ibstbaum), dann erhält er keine oder
falsche Treffer.
Bei einer Websuche hingegen, könnte man erwarten, dass auch solche Dokumente
gefunden werden, die “obstbaum” (klein geschrieben) oder “Obstbäume” (Plural)
enthalten. Inzwischen sind Suchmaschinen sogar so weit, dass sie Ergebnisse liefern,
in denen der Suchbegriff selbst gar nicht auftritt. So wäre es durchaus denkbar, dass in
der Ergebnisliste Dokumente auftauchen, die den Begriff “Fruchtbaum” oder “Apfelbaum” enthalten. Bei einer Suche nach “Ibstbaum” ist man ebenfalls daran gewöhnt,
dass das System den Nutzer auf mögliche Tippfehler hinweist und sogar Korrekturvorschläge macht.
Alle in diesem Abschnitt vorgestellten Definitionen treffen in gewissem Sinne zu und gehen auf unterschiedliche Aspekte und Schwerpunkte im Bereich des IR ein. Für uns können
wir an dieser Stelle vielleicht ganz allgemein sagen, dass wir uns im IR für Informationssysteme interessieren, die einen Nutzer beim information seeking unterstützen.
1.5 Teilgebiete und Aufgaben im IR
Aus den Definitionen klang es schon heraus: IR hat sich seit seinen Anfängen sehr stark
entwickelt und umfasst verschiedene Teilgebiete und speziellen Teilaufgaben. Zunächst listen wir einzelne Teilgebiete auf, danach werden wir näher auf Aufgaben im IR eingehen.
Jede der Aufgaben kann dabei zumindest zu einem gewissen Grad in jedem der Teilgebiet
anfallen.
Text IR: Der klassische Einsatz des IR. Die Informationssuche läuft in einer Sammlung
von Textdokumenten ab. Die Form und Art der Dokumente variiert sehr stark. Von
Bibliotheksbüchern, wissenschaftliche Arbeiten oder Notizen über Nachrichten (Mail,
10
1.5 Teilgebiete und Aufgaben im IR
SMS) zu Patentschriften oder Gerichtsurteilen ist fast alles denkbar. Nicht zuletzt
durch diesen historischen Hintergrund wird im IR auch heute noch allgemein von
Dokumenten gesprochen, selbst wenn Bilder, Filme oder Musik betrachtet werden.
Aber auch Textdokumente können in moderneren Anwendungen vielfältiger sein – sie
enthalten Abbildungen, Tabellen oder andere Element, die nicht einem klassischen
Text entsprechen.
Hypertext IR, IR im Web: Obwohl eigentlich ein Spezialfall des Text IR muss Hypertext IR heutzutage gesondert erwähnt werden. Das liegt schlichtweg daran, dass das
WWW eines der Hauptanwendungsgebiete für IR ist. Websuchmaschinen haben sich
zu enorm großen und komplexen IR Systemen entwickelt. Die Hypertext Idee hingegen ist übrigens deutlich älter. Sie wird allgemein Vannevar Bush [Bus45] zugeschrieben. Deshalb und da es Querverweise zwischen Texten auch in anderen Formen gibt,
sind einige der im Web eingesetzten Techniken durchaus auch allgemeiner anwendbar
oder haben ihren Ursprung in anderen Teilgebieten des IR.
Question Answering (QA): Im letzten Abschnitt hatten wir bereits van Rijsbergens [VR79]
Anmerkung erwähnt, dass IR eigentlich eher Document Retrieval heißen müsste. Das
trifft auf das Teilgebiet des Question Answering nicht zu. Hier wird tatsächlich versucht, nicht nur interessante Dokumente zur Befriedigung eines Informationsbedürfnisses zu finden, sondern daraus direkt die gewünschte Information zu extrahieren.
Auf eine Anfrage wie “Welcher Dozent liest dieses Semester die Vorlesung TGI?” würde ein solches QA System nicht mit einer Liste von Dokumentreferenzen antworten,
sondern direkt den Namen des Dozenten ausspucken.
Multimedia IR: Die zunehmende Digitalisierung von Medien führt dazu, dass immer häufiger auch in Bild-, Audio- oder Videoarchiven gesucht werden muss. Sogar auf Animationen oder Bewegungsabläufen wird IR betrieben. Die Suche in solchen Daten
lässt sich sicherlich am einfachsten über beschreibende Texte realisieren (Metainformationen). Wirklich spannend wird es dann, wenn inhaltlich in den Bildern oder
Musikdateien gesucht wird. Das löst eine ganze Menge von Problemen aus, nicht
zuletzt jenes, wie Anfragen formuliert werden.
Expertensuche: Wir hatten die Suche nach Experten zu einem bestimmten Thema bereits
eingangs angesprochen. Diese Suche ist ebenfalls ein Teilgebiet des IR. Hier geht es
um die Frage, wen man zu bestimmten Themen fragen könnte, um an Informationen
zu gelangen.
In jedem dieser Teilgebiete stehen fast immer die gleichen Aufgaben und Fragestellungen
an:
Ad Hoc Anfragen: Die klassische Aufgabe im IR. In einer festen Menge von Dokumenten
sollen zu einer gegebenen Anfrage die relevanten Dokumente gefunden werden.
11
1 Was ist Information Retrieval?
Routing: Hier bleibt die Anfrage fix und es werden neue Dokumente untersucht. Aus
diesen Dokumenten (z.B. Strom von eingehenden Nachrichten) sollen die zur Anfrage
relevanten herausgefischt werden. Ein Ranking ist hier selten von Interesse, es geht
vielmehr um Ja/Nein Entscheidungen.
Cluster Analyse: Beim Clustern oder Gruppieren von Dokumenten ist die Frage, welche
sich inhaltlich ähnlich sind und wo Grenzen gezogen werden können.
Klassifikation: ist dem Clustern ähnlich, es werden jedoch feste Kategorien vorgegeben,
in welche die Dokumente einzugliedern sind.
Cross Language IR (CLIR): Information Retrieval über Sprachgrenzen hinweg. Beispielsweise durch die Übersetzung von Anfragen und oder Dokumenten in verschiedenen
Sprachen.
Evaluation: die Evaluation von IR Systemen ist eine wichtige Aufgabe insbesondere beim
Vergleich verschiedener Verfahren.
Nutzerinteraktion: welche Möglichkeiten sind dem Nutzer zur Interaktion gegeben. Wie
interpretiert das System seine Anfragen, wie sehen diese aus. Neben einer Stichwortsuche im Freitextformat kann ein System spezielle Anfrageformen mit Trunkierung
oder der Angabe von Bedingungen erlauben (near-by). Andere Suchmöglichkeiten
umfassen Query by Example oder eine explorative Suche.
Peer-2-Peer Systeme: System, die als Peer-2-Peer Netzwerke aufgesetzt werden stellen
keine eigentlich Aufgabe dar. Dennoch werfen sie ein Vielzahl an Fragen auf, was
ihre Umsetzung angeht. Wie werden Dokumente und Indizes an die einzelnen Peers
verteilt, wie werden Anfragen effizient und schnell ausgeführt und die Ergebnislisten
zusammengestellt.
Duplikaterkennung, Plagiaterkennung: Die Erkennung von Duplikaten, bzw. Nahezuoder Fast-Duplikaten sowie das Auffinden von Plagiaten gehören heutzutage ebenfalls
zum Aufgabengebiet des IR.
Spam: Websuchmaschinen aber auch die alltäglichen E-Mail-Clients haben mit trügerischen oder unerwünschten Dokumenten zu kämpfen. Spam ist ebenfalls ein großes
Thema im IR, da es sich um irrelevante Dokumente handelt, die Relevanz vortäuschen.
1.6 Angrenzende Gebiete
IR grenzt an eine Zahl anderer Forschungsgebiete an, die nicht nur im Bereich der Informatik liegen. Dazu gehören die Linguistik, Bibliothekswissensschaften oder die Psychologie.
12
1.7 Aufbau eines IR Systems
Abbildung 1.5: Schematischer Aufbau eines IR Systems.
Innerhalb der Informatik gibt es Überschneidungen mit dem Bereich der Datenbanksysteme, der künstlichen Intelligenz, der natürlichen Sprachverarbeitung (NLP – Natural Language Processing), des Data Mining, des maschinellen Lernens, der Visualisierung und dem
Design von Nutzerinterfaces.
1.7 Aufbau eines IR Systems
Die meisten IR Systeme lassen sich über ein einfaches Schema – wie in Abbildung 1.5 –
dargestellt erklären. Dieses Schema ist – zugegebenermaßen – sehr grob. Dennoch erklärt
es die wichtigsten Komponenten und Aufgaben innerhalb eines IR Systems.
Die wichtigsten Schnittstellen zu seiner Umwelt hat ein IR System zu den Nutzern und
der zu verwaltenden Dokumentsammlung. Zu letzterer zum Zeitpunkt der Indizierung, zu
den erstgenannten während der Beantwortung von Informationsanfragen. Diese Interaktion
schlägt sich in den Interna des Systems in der Dokumentverarbeitung und der Annahme
von Anfragen und eventuellem Nutzer-Feedback nieder.
Dokumentenverarbeitung: Ein IR System muss die Dokumente mit denen es umgehen
soll zunächst verarbeiten. Dieser Schritt kann bei einem festen, unveränderlichen
Korpus (so nennt man die Dokumentsammlung) eventuell nur einmal anfallen. Ändert sich Datenbasis in irgendeiner Form (Dokumentmenge ändert sich: es kommen
Dokumente hinzu oder fallen weg, bzw. Dokumentinhalte ändern sich: in den Dokumenten selbst treten Veränderungen auf), so muss dieser Schritt regelmäßig oder
ständig durchgeführt werden.
13
1 Was ist Information Retrieval?
Zur Vorverarbeitung gehört das Erkennen des Formates (Text, HTML, Word, PDF;
etc.) die Extraktion und Normalisierung der Inhalte, möglicherweise eine Spracherkennung und noch einiges mehr.
Dokumentdarstellung: Sobald die Dokumente verarbeitet sind, müssen die daraus gewonnenen Daten und Erkenntnisse irgendwie intern gespeichert werden. Wie diese Darstellung aussieht und welche Informationen über die Dokumente gespeichert werden
hängt auch vom Typ des IR Systems und den eingesetzten Modellen ab.
Entscheidend ist auch die Frage, in welchem Umfang Daten über die Dokumente
gespeichert werden. Handelt es sich nur um geeignete Schlagwörter, den Titel, die
Autoren, eine inhaltliche Zusammenfassung oder eine Indizierung des Volltextes?
Anfragen: Stellt ein Nutzer nun eine Anfrage, so muss diese ebenfalls verarbeitet werden.
Auch hier kann eine Vielzahl von Operationen angewendet werden. Allgemein könnte
man jedoch sagen, dass die Anfrage in eine Form gebracht werden muss, in der sie
mit den Dokumente verglichen werden kann.
Matching und Ergebnislisten: Der Kern der meisten IR Modelle dürfte das Berechnen
eines Matchings sein, d.h. welche Dokumente passen zu einer Anfrage. Dieses “Zueinander Passen” entspricht der errechneten Systemrelevanz. Über den Relevanzwert
kann nun die Ergebnisliste aufgebaut und dem Nutzer als Ergebnis präsentiert werden.
Feedback: Einige System erlauben es den Nutzern zu den Ergebnissen ein Feedback abzugeben. Dieses Feedback wird dann genutzt, um die Ergebnisse in einem nächsten
Schritt zu verfeinern oder zu verbessern.
1.8 Zusammenfassung
Wir haben in diesem Kapitel einen ersten Einblick in IR, dessen Aufgaben, Teilgebiete
und die Struktur eines IR Systems gewonnen. Es wurden verschiedene Definitionen und
insbesondere eine Abgrenzung zu Data Retrieval gegeben. Auch wurden schon einige der
Schwierigkeiten und Herausforderungen angesprochen, auf die in den nächsten Kapiteln
näher eingegangen wird.
14
1.8 Zusammenfassung
Tabelle 1.1: Abgrenzung zwischen Data Retrieval und Information Retrieval nach van Rijsbergen [VR79]
Data Retrieval Information Retrieval Erläuterung
Matching
Exact match
Partial or best match Exakter String in Dokument vs. passend
zur Anfrage
Inference
Deduction
Induction
Klare mathematische
Regeln vs. Beobachtungen und Erfahrungen auf den Dokumenten
Model
Deterministic
Probabilistic
Boolsche / Relationale
Algebra vs. Bayes’sche
Wahrscheinlichkeita
Classification
Monothetic
Polythetic
Attribute der Objekte sind hinreichend
und notwendig für eine exakte Klassifikation vs. Ungenaue Abgrenzung, nicht alle
Objekte haben alle
Attribute
Query Language
Artificial
Natural
SQL vs. Freitextsuche
Query specification Complete
Incomplete
Formale Sprache vs.
natürliche offene Sprache
Items wanted
Matching
Relevant
Passende Objekte vs.
relevante Objekte
Error response
Sensitive
Insensitive
Fehlerhafte Abfrage
(nicht
syntaktisch)
führt zu keinen Ergebnissen vs. kleine
Abweichungen
führen nicht zu großen
Performanzeinbußen.
a
Die Idee des probabilistischen IR war 1979 noch recht neu. Es stellt jedoch nicht das einzige theoretische
IR Modell dar.
15
1 Was ist Information Retrieval?
16
Document
Kategorie
Seele and Geist
Seitenansichten
10
Dateigröße
575 KB
Tags
1/--Seiten
melden