close

Anmelden

Neues Passwort anfordern?

Anmeldung mit OpenID

Digitale Geisteswissenschaften: Wie kommt Latein ins 21

EinbettenHerunterladen
CIS • Dr. Uwe Springmann
Digitale Geisteswissenschaften:
Wie kommt Latein
ins 21. Jahrhundert?
Vortrag im Rahmen des Münchner Arbeitskreises
für digitale Geisteswissenschaften am 27.01.2014
Quis sim
1963
natus Hildesiæ in Saxonia Inferiore
1984-97 studium artis cyberneticæ, physicæ, philosophicæ, oeconomicæ
Stutgardiæ et Monachii
1991
1994
1997
diploma artis physicæ
diploma artis oeconomicæ
dr. rer. nat. in arte astronomica
1998-11 lucrum quærens in diversibus societatibus privatis
2011-13 studium litterarum Latinarum atque artis linguisticæ
computatralis Monachii
nunc
grex Latinus @ CIS
Dr. Uwe Springmann, 27.01.2014
p. 2
Warum Latein?
➔
europäische Grundsprache (Mutter–Töchter; Lehrtradition)
➔
600 – 1600 n. Chr. internationale (west-) europäische Zweit- und
Hilfsprache für Verwaltung, Recht, Wissenschaft, Kirche
➔
z.B. Amtssprache offizieller Dokumente in England 1066 - 1733
➔
lat. Buchproduktion überwiegt Nationalsprachen bis ins 17. Jh.
➔
die Grundlagendiskussion der modernen Welt wurde auf Latein geführt
➔
heute großenteils vergessen, unzugänglich, Sprachbarrieren
➔
Scanprojekte fördern die Bücher wieder zu Tage
➔
Digitalisierung = Bewahrung des Erbes (Umkodierung) +
Nutzbarmachung für neue Fragen
Dr. Uwe Springmann, 27.01.2014
p. 3
Transmission des Wissens
ABACISTA Vide Abacus.#
Text
ABACIUM [gap: Greek
Manuskript
PDF (reines Bild)
word(s)] , Abacus, Fragm.
Petronii: Abacia et cucumi
omnia exposcit, etc.#
Druck
TEI
ABACOT pileus augustalis
<pb id='s0004' n='4'/>
Regum Anglorum<p><term>ABACISTA</term>
duabus
coronis insignitus.<def>Vide
Vide
<hi
rend='italic'><ref>Abacus<
Chron. an. 1463. Edvv.
IV.
/ref>.</hi>#</def></p>
pag. 666. col. 2. lib.
27. Ita
Spelman.#
<p><term>ABACIUM</term>
<def><gap desc='Greek
word(s)'
resp='sampling'/>, Abacus,
Fragm. Petronii: <hi
rend='italic'>Abacia et
cucumi omnia exposcit,
durchsuchbare Textebene
Dr. Uwe Springmann, 27.01.2014
p. 4
Rückgewinnung: Das Material
Wieviele lateinische Bücher gibt es heute online?
Zeitraum
Anzahl
lat. Bücher
Anzahl
dt. Bücher
0-1400
738
135
1401-1500
7.343
1.143
1501-1600
23.928
12.483
1601-1700
35.795
12.144
1701-1800
44.201
49.764
1801-1900
14.487
191.194
1901-2000
517
20.028
Summe:
Dr. Uwe Springmann, 27.01.2014
127.009
lat. Titel im BSB-Bestand:
236.340
Davon heute digitalisiert
und online verfügbar:
127.009
Quelle: BSB (OPAC)
Seite 5
p
Die Vision: Was wollen wir erreichen?
➔
Rückgewinnung der Textinhalte digitalisierter lateinischer Werke (OCR)
➔
Aufbau einer Suchmaschine mit lemmatisierten Fundstellen (z.B. Suche
nach lex: Rückgabe auch von legibus, lege, legum etc. unter Ausscheidung
der Homographen von legere)
➔
Berücksichtigung historischer Orthografie (coelum, jus, ueritas, …)
➔
“named entity recognition (NER)“: Personen, Orte, Institutionen, ...
➔
Suchen nach neusprachlichen Äquivalenten
➔
maschinelle Rohübersetzung (was könnte interessant sein → dann
Latinisten zu Rate ziehen)
➔
sprachliche Anwendungen: lokale Grammatiken, Vers- und
Prosarhythmus, text-to-speech für Lesebehinderte,
Wortschatzuntersuchungen, automatisch Zitate finden,
Diskussionsnetzwerke rekonstruieren . . .
Dr. Uwe Springmann, 27.01.2014
p. 6
Umgang mit Hindernissen
➔
vorhandene Scans, Texte, Lexika nicht urheberrechtsfrei, selbst wenn Autor
über 70 Jahre verstorben (open access Thematik)
➔
Quellensammlungen nur lizensiert und in Auszügen für menschliche Leser
zugänglich
➔
Großprojekt von Gregory Crane (Humboldt-Professor in Leipzig):
Open Philology Projekt (Ziel: Herstellung von „offenen Quellen“ u. a.
durch OCR Methoden
http://www.dh.uni-leipzig.de/wo/open-philology-project/)
➔
Herstellung von elektronischen Lemmata- und Vollformenlexika unter einer
open source Lizenz
➔
Herstellung von Tools zur Nachkorrektur und zum Aufbau von historischen
Variantenlexika mit Belegstellen
➔
Herstellung von Lemmatisierungstools durch automatische morphologische
Analyse von Wortformen im Kontext
Dr. Uwe Springmann, 27.01.2014
p. 7
Voraussetzungen für erfolgreiche historische OCR
Resource
Deutsch
Latein
elektronisch lesbares Lexikon
CISLEX

Vollformenlexikon

()
historische Varianten


OCR auf hist. Schriften trainierbar
Tesseract,
OCRopus,
BIT Alpha
Tesseract,
OCRopus,
BIT Alpha
OCR erkennt Fraktur
ABBY
Finereader,
Tesseract,
OCRopus
(keine
Bedeutung)
OCR erkennt Schriftenmix
BIT Alpha,
OCRopus,
Tesseract
BIT Alpha,
OCRopus,
Tesseract
OCR ist open source
Tesseract,
OCRopus
Tesseract,
OCRopus
Dr. Uwe Springmann, 27.01.2014
Seite 8
Berücksichtigung historischer Orthografie
Lextractor-Tool am CIS
Dr. Uwe Springmann, 27.01.2014
p, 9
Das Lemma-Lexikon
Quelle: Dietmar Najock, FU Berlin (70.000 Lemmata)
ij
pp
su
su
su
aj
su
su
su
su
su
su
a:(1)
a:(2)
Aaro:n, - m
Aar/o:n, o:nis m
Ab/a, ae m
abacinus 3
aba:cti/o:, o:nis f
aba:ct/or, o:ris m
aba:ct/us, u:s m
abacul/us, i: m
abac/us, i: m
A:badd/i:r, i:ris m
Dr. Uwe Springmann, 27.01.2014
x
x
c
c
c
e
e
e
a
e
a
c su A:baddir
p. 10
Die Morphologie
mit Helmut Schmid, CIS, auf Basis der Stuttgart Finite State Tools (SFST)
> ./fst-mor latmor.a
reading transducer...
finished.
analyze> laudäre
laudäre<V><pres><ind><passive><sg><2><alt>
laudäre<V><pres><inf><active>
analyze> laudö
laudäre<V><pres><ind><active><sg><1>
analyze>
generate> laudäre<V><pres><ind><active><sg><1>
laudö
generate> laudäre<V><pres><ind><active><sg><2>
laudäs
generate> laudäre<V><pres><ind><active><sg><3>
laudat
generate> q
Dr. Uwe Springmann, 27.01.2014
p. 11
Korrektur von vermuteten Fehlerserien möglich
Dr. Uwe Springmann, 27.01.2014
p. 13
Neue Werkzeuge ermöglichen
neue Fragestellungen
Fragestellung
Werkzeug
Suche auf historischen Korpora
Lemmatisierung bei orthograf. Toleranz
Wortschatzuntersuchungen
Lemmatisierung bei orthograf. Toleranz
historische Varianten
Aufbau eines Beleglexikons von
Varianten
metrische Untersuchungen
Auszeichnung der Vokalquantitäten
durch quantitätsbasierte Formenliste
text-to-speech
Vokalquantität legt Silbenquantität und
betonte Silbe fest
Extraktion von Angaben zu
Personen, Orten, Zeiten,
Institutionen etc.
NER, lokale Grammatiken
Dr. Uwe Springmann, 27.01.2014
p. 14
Vielen Dank für Ihre Aufmerksamkeit!
Dr. Uwe Springmann, 27.01.2014
p. 15
Document
Kategorie
Bildung
Seitenansichten
13
Dateigröße
2 380 KB
Tags
1/--Seiten
melden