Table of Contents

Korpuslinguistische Analysen von Goethes Faust

Dieses Tutorial dient der Implementierung examplarischer Forschungsfragen im Kontext der Digitalen Literaturwissenschaft. Die Verfahren sind aus der Corpus- und Computerlinguistik abgeleitet und lassen sich entsprechend auch auf andere, vergleichbare Untersuchungen anwenden.

Ziel der hier beispielhaft vorgestellten Verfahren ist die automatische und halb-automatische Identifikation sprachlich instantiierter Phänomene in digitalen Texten.

Typische Fragestellungen

Auffinden in Texten

Operationalisierung: Mustersuche

mit den eigenen linguistischen Augen (manuelle Analyse)

mit Computerunterstützung (halb-automatische oder automatische Analyse)

Herausforderungen

Verwendete Werkzeuge



Szenario 1: Identifikation von Partizipien

Partizip I:

die liebende Mutter
das singende Mädchen / pl.: singenden
das schweigende Lamm / pl.: schweigenden
das schreiende Kind / pl.: die schreienden
der schreiende Verkäufer / pl.: die schreienden Verkäufer

alleinstehend / pl.: alleinstehende
kommend / pl.: kommenden
helfend
schmerzstillend

Suchmuster:

([a-zA-Z]*nde?n?\b)

findet alle Wortformen, die auf die Buchstabensequenzen nd optinal gefolgt von e, optional gefolgt von n enden

findet z.B.: liebend - liebende - liebenden

Erweiterung: Annotation by Query

Suchmuster: ([a-zA-Z]*ende?n?\b)

(VORSICHT: bitte die runden Klammern um den gesamten regulären Ausdruck nicht vergessen, wenn man im nächsten Schritt eine Ersetzung vornehmen möchte!)

Ersetzen durch: \1<Partizip-1> speichert die durch den regulären Ausdruck gefundene Buchstabensequenz zwischen, schreibt diese zurück und hängt das Tag <Partizip-1> an.

Motivation für diese Vorgehensweise:

Ziel dieser Vorgehensweise ist die automatisierte Identifikation bestimmter Buchstabenfolgen im Text, die potentielle Vertreter des zu untersuchenden Phänomens, in diesem Fall des Partizips I, sind. Der Vorgang lässt sich in diesem Fall nicht vollständnig automatisieren, weil die Buchstabensequenz, die ein Partizip I identifiziert ambig ist und auch Strukturen identifiziert, die kein Partizip I sind, so z.B. das Wort 'und'. Der halbautomatische Durchlauf erlaubt es uns einerseits schnell durch die gefundenen Instanzen zu iterieren und die korrekten Beispiele (true positives) zu markieren bzw. die falschen (false positives) auszulassen; andererseits erlaubt der halbautomatische Vorgang ein Einfügen von Tags, die zuverlässig einem bestimmten Suchmuster entsprechen und diese mit einem immer gleich geschriebenen Tag zu versehen. Die Erfahrung zeigt, dass hier auch bei noch so großer Sorgfalt bei einem manuellen Durchgang des Textes Instanzen ausgelassen bzw. Tags fehlerhaft geschrieben werden. Diese lassen sich dann später nicht mehr zuverlässig identifizieren.

Nutzen eines so annotierten Texts für die Analyse: Die Tags lassen sich mit AntConc suchen. Man erhält also eine Annotation, die die Ergebnisse reproduzierbar und ggf. korrigierbar macht. Stichwort: Reproduzierbarkeit mit dem Ziel der Verifikation - Falsifikation von Ergebnissen)

Partizip II (Partizip Perfekt):

Beipiele:

die geliebte Mutter / pl.: geliebten
das geliebte Kind / pl.: geliebten
der gefahrene Kilometer / die gefahrenen Kilometer

Schwache Verben:

lieben - geliebt
bauen - gebaut
siegen - gesiegt
legen - gelegt

Starke Verben:

reiten - geritten
biegen - gebogen
nehmen - genommen
graben - gegraben

Sonderfälle:

untrennbare Verben:

reagieren - reagiert
fixieren - fixiert
trompeten - trompetet

untrennbare Verben mit unbetonen Vorsilben (be-, er-, ent-, ge-, ver-, zer-)

sprechen - sprechend
einladen - einladend

Verben mit -ge- und unbetonten Vorsilben:
gestehen - gestanden
zugestehen - zugestanden
dazuverdienen - dazuverdient

Komposita:

eisgekühlt, mossbewachsen
wohltemperiert
das Kleingedruckte

Suchmuster

Beim Partizip II ergeben sich komplexere Suchmuster und es wird notwendig sein, die Suche in mehrere Suchschritte herunterzubrechen.

Suchmuster 1:

Suche nach: (ge[a-zA-Z]*te?n?\b) Ersetzen durch: \1<Partizip-2>

Quellen



Alternative Vorgehensweise

Wem die Methode des halbautomatischen Suchens und Ersetzens zu kryptisch erscheint, kann wahlweise auch UAM Corpus Tool nutzen. Hier müssen dann allerdings die Partizipien händisch und einzeln im Text identifiziert werden, da die Möglichkeiten der Suche mit regulären ausdrücken hier eingeschränkt sind.

UAM Corpus Tool Projekt zur Annotation von Partizipien

[IN ARBEIT]



Szenario 2: Vertreter bestimmter Wortarten

Herausforderung

Grammatische Kategorien sind abstrakter im Sinne der Identifikation an der Oberfläche der Sprache; mit anderen Worten: man sieht einem Wort nicht bzw. nur durch linguistische Kenntnisse an, welcher Wortart es angehört.

Lösungsansatz:

Annotation, d.h. Explizierung der Kategorie im Sinne einer Anreicherung durch explizite Tags

Operationalisierung:

Part of speech (PoS) tagging ist ein grundlegendes Verfahren der Sprachverarbeitung aus der Corpus- und Computerlinguistik

PoS Tagging Software mit Modellen für das Deutsche:

PoS Tagging Tutorien

Getaggtes Korpus: Faust I und II

Dateien bitte durch rechten Mausklick herunterladen und im Texteditor öffnen. Je nach Kodierungseinstellungen Ihres Browsers werden Umlaute im Browser möglicherweise nicht korrekt dargestellt.

Faust I:

Faust II:

Suche mit AntConc

Konkordanzansicht

Suchmuster: *_V*

Ergebnis: Alle als Verb getaggten Wörter

AntConc RegEx Implementierung



Szenario 3: Metaphern, Allegorien etc.

Identifikation von Metaphern als Beispiel einer sehr abstrakten Analysekategorie.

UAM Corpus Tool