Dieses Tutorial dient der Implementierung examplarischer Forschungsfragen im Kontext der Digitalen Literaturwissenschaft. Die Verfahren sind aus der Corpus- und Computerlinguistik abgeleitet und lassen sich entsprechend auch auf andere, vergleichbare Untersuchungen anwenden.
Ziel der hier beispielhaft vorgestellten Verfahren ist die automatische und halb-automatische Identifikation sprachlich instantiierter Phänomene in digitalen Texten.
die liebende Mutter das singende Mädchen / pl.: singenden das schweigende Lamm / pl.: schweigenden das schreiende Kind / pl.: die schreienden der schreiende Verkäufer / pl.: die schreienden Verkäufer alleinstehend / pl.: alleinstehende kommend / pl.: kommenden helfend schmerzstillend
([a-zA-Z]*nde?n?\b)
findet alle Wortformen, die auf die Buchstabensequenzen nd
optinal gefolgt von e
, optional gefolgt von n
enden
findet z.B.: liebend - liebende - liebenden
Suchmuster: ([a-zA-Z]*ende?n?\b)
(VORSICHT: bitte die runden Klammern um den gesamten regulären Ausdruck nicht vergessen, wenn man im nächsten Schritt eine Ersetzung vornehmen möchte!)
Ersetzen durch: \1<Partizip-1>
speichert die durch den regulären Ausdruck gefundene Buchstabensequenz zwischen, schreibt diese zurück und hängt das Tag <Partizip-1>
an.
Ziel dieser Vorgehensweise ist die automatisierte Identifikation bestimmter Buchstabenfolgen im Text, die potentielle Vertreter des zu untersuchenden Phänomens, in diesem Fall des Partizips I, sind. Der Vorgang lässt sich in diesem Fall nicht vollständnig automatisieren, weil die Buchstabensequenz, die ein Partizip I identifiziert ambig ist und auch Strukturen identifiziert, die kein Partizip I sind, so z.B. das Wort 'und'. Der halbautomatische Durchlauf erlaubt es uns einerseits schnell durch die gefundenen Instanzen zu iterieren und die korrekten Beispiele (true positives) zu markieren bzw. die falschen (false positives) auszulassen; andererseits erlaubt der halbautomatische Vorgang ein Einfügen von Tags, die zuverlässig einem bestimmten Suchmuster entsprechen und diese mit einem immer gleich geschriebenen Tag zu versehen. Die Erfahrung zeigt, dass hier auch bei noch so großer Sorgfalt bei einem manuellen Durchgang des Textes Instanzen ausgelassen bzw. Tags fehlerhaft geschrieben werden. Diese lassen sich dann später nicht mehr zuverlässig identifizieren.
Nutzen eines so annotierten Texts für die Analyse: Die Tags lassen sich mit AntConc suchen. Man erhält also eine Annotation, die die Ergebnisse reproduzierbar und ggf. korrigierbar macht. Stichwort: Reproduzierbarkeit mit dem Ziel der Verifikation - Falsifikation von Ergebnissen)
Beipiele:
die geliebte Mutter / pl.: geliebten das geliebte Kind / pl.: geliebten der gefahrene Kilometer / die gefahrenen Kilometer
Schwache Verben:
lieben - geliebt bauen - gebaut siegen - gesiegt legen - gelegt
Starke Verben:
reiten - geritten biegen - gebogen nehmen - genommen graben - gegraben
Sonderfälle:
untrennbare Verben:
reagieren - reagiert fixieren - fixiert trompeten - trompetet
untrennbare Verben mit unbetonen Vorsilben (be-, er-, ent-, ge-, ver-, zer-)
sprechen - sprechend einladen - einladend Verben mit -ge- und unbetonten Vorsilben: gestehen - gestanden zugestehen - zugestanden dazuverdienen - dazuverdient
Komposita:
eisgekühlt, mossbewachsen wohltemperiert das Kleingedruckte
Beim Partizip II ergeben sich komplexere Suchmuster und es wird notwendig sein, die Suche in mehrere Suchschritte herunterzubrechen.
Suche nach: (ge[a-zA-Z]*te?n?\b) Ersetzen durch: \1<Partizip-2>
Wem die Methode des halbautomatischen Suchens und Ersetzens zu kryptisch erscheint, kann wahlweise auch UAM Corpus Tool nutzen. Hier müssen dann allerdings die Partizipien händisch und einzeln im Text identifiziert werden, da die Möglichkeiten der Suche mit regulären ausdrücken hier eingeschränkt sind.
[IN ARBEIT]
Grammatische Kategorien sind abstrakter im Sinne der Identifikation an der Oberfläche der Sprache; mit anderen Worten: man sieht einem Wort nicht bzw. nur durch linguistische Kenntnisse an, welcher Wortart es angehört.
Annotation, d.h. Explizierung der Kategorie im Sinne einer Anreicherung durch explizite Tags
Part of speech (PoS) tagging ist ein grundlegendes Verfahren der Sprachverarbeitung aus der Corpus- und Computerlinguistik
Dateien bitte durch rechten Mausklick herunterladen und im Texteditor öffnen. Je nach Kodierungseinstellungen Ihres Browsers werden Umlaute im Browser möglicherweise nicht korrekt dargestellt.
Faust I:
Faust II:
Identifikation von Metaphern als Beispiel einer sehr abstrakten Analysekategorie.