Korpuslinguistische Analysen von Goethes Faust

Dieses Tutorial dient der Implementierung examplarischer Forschungsfragen im Kontext der Digitalen Literaturwissenschaft. Die Verfahren sind aus der Corpus- und Computerlinguistik abgeleitet und lassen sich entsprechend auch auf andere, vergleichbare Untersuchungen anwenden.

Ziel der hier beispielhaft vorgestellten Verfahren ist die automatische und halb-automatische Identifikation sprachlich instantiierter Phänomene in digitalen Texten.

Typische Fragestellungen

  • Liste aller Wörter
  • Vorkommen bestimmter Begriffe
  • Vorkommen grammatischer Formen, z.B. Partizipien
  • Vorkommen von Wörtern bestimmter Wortarten
  • Vorkommen abstrakterer Phänomene, z.B. Metaphern, Allegorien

Auffinden in Texten

Operationalisierung: Mustersuche

mit den eigenen linguistischen Augen (manuelle Analyse)

  • Vorteil: gute Kontrolle über Daten und Ergebnisse
  • Nachteil: kann zeitintensiv, repetitiv sein

mit Computerunterstützung (halb-automatische oder automatische Analyse)

Herausforderungen

  • Formulierung präziser Suchmuster
  • Problem der Ambiguität des sprachlichen Ausdrucks (Homonyme, Homographen etc.)
  • trade-off zwischen precision and recall: d.h. zwischen der Identifikation möglichst aller Instanzen (eine Suche kann durchaus true positives und false positives hervorbringen) und der Identifikation aller tatsächlich zutreffenden Instanzen (true positives)

Verwendete Werkzeuge

Szenario 1: Identifikation von Partizipien

Partizip I:

die liebende Mutter
das singende Mädchen / pl.: singenden
das schweigende Lamm / pl.: schweigenden
das schreiende Kind / pl.: die schreienden
der schreiende Verkäufer / pl.: die schreienden Verkäufer

alleinstehend / pl.: alleinstehende
kommend / pl.: kommenden
helfend
schmerzstillend

Suchmuster:

([a-zA-Z]*nde?n?\b)

findet alle Wortformen, die auf die Buchstabensequenzen nd optinal gefolgt von e, optional gefolgt von n enden

findet z.B.: liebend - liebende - liebenden

Erweiterung: Annotation by Query

Suchmuster: ([a-zA-Z]*ende?n?\b)

(VORSICHT: bitte die runden Klammern um den gesamten regulären Ausdruck nicht vergessen, wenn man im nächsten Schritt eine Ersetzung vornehmen möchte!)

Ersetzen durch: \1<Partizip-1> speichert die durch den regulären Ausdruck gefundene Buchstabensequenz zwischen, schreibt diese zurück und hängt das Tag <Partizip-1> an.

Motivation für diese Vorgehensweise:

Ziel dieser Vorgehensweise ist die automatisierte Identifikation bestimmter Buchstabenfolgen im Text, die potentielle Vertreter des zu untersuchenden Phänomens, in diesem Fall des Partizips I, sind. Der Vorgang lässt sich in diesem Fall nicht vollständnig automatisieren, weil die Buchstabensequenz, die ein Partizip I identifiziert ambig ist und auch Strukturen identifiziert, die kein Partizip I sind, so z.B. das Wort 'und'. Der halbautomatische Durchlauf erlaubt es uns einerseits schnell durch die gefundenen Instanzen zu iterieren und die korrekten Beispiele (true positives) zu markieren bzw. die falschen (false positives) auszulassen; andererseits erlaubt der halbautomatische Vorgang ein Einfügen von Tags, die zuverlässig einem bestimmten Suchmuster entsprechen und diese mit einem immer gleich geschriebenen Tag zu versehen. Die Erfahrung zeigt, dass hier auch bei noch so großer Sorgfalt bei einem manuellen Durchgang des Textes Instanzen ausgelassen bzw. Tags fehlerhaft geschrieben werden. Diese lassen sich dann später nicht mehr zuverlässig identifizieren.

Nutzen eines so annotierten Texts für die Analyse: Die Tags lassen sich mit AntConc suchen. Man erhält also eine Annotation, die die Ergebnisse reproduzierbar und ggf. korrigierbar macht. Stichwort: Reproduzierbarkeit mit dem Ziel der Verifikation - Falsifikation von Ergebnissen)

Partizip II (Partizip Perfekt):

Beipiele:

die geliebte Mutter / pl.: geliebten
das geliebte Kind / pl.: geliebten
der gefahrene Kilometer / die gefahrenen Kilometer

Schwache Verben:

lieben - geliebt
bauen - gebaut
siegen - gesiegt
legen - gelegt

Starke Verben:

reiten - geritten
biegen - gebogen
nehmen - genommen
graben - gegraben

Sonderfälle:

untrennbare Verben:

reagieren - reagiert
fixieren - fixiert
trompeten - trompetet

untrennbare Verben mit unbetonen Vorsilben (be-, er-, ent-, ge-, ver-, zer-)

sprechen - sprechend
einladen - einladend

Verben mit -ge- und unbetonten Vorsilben:
gestehen - gestanden
zugestehen - zugestanden
dazuverdienen - dazuverdient

Komposita:

eisgekühlt, mossbewachsen
wohltemperiert
das Kleingedruckte

Suchmuster

Beim Partizip II ergeben sich komplexere Suchmuster und es wird notwendig sein, die Suche in mehrere Suchschritte herunterzubrechen.

Suchmuster 1:

Suche nach: (ge[a-zA-Z]*te?n?\b) Ersetzen durch: \1<Partizip-2>

Quellen

Alternative Vorgehensweise

Wem die Methode des halbautomatischen Suchens und Ersetzens zu kryptisch erscheint, kann wahlweise auch UAM Corpus Tool nutzen. Hier müssen dann allerdings die Partizipien händisch und einzeln im Text identifiziert werden, da die Möglichkeiten der Suche mit regulären ausdrücken hier eingeschränkt sind.

UAM Corpus Tool Projekt zur Annotation von Partizipien

[IN ARBEIT]



Szenario 2: Vertreter bestimmter Wortarten

Herausforderung

Grammatische Kategorien sind abstrakter im Sinne der Identifikation an der Oberfläche der Sprache; mit anderen Worten: man sieht einem Wort nicht bzw. nur durch linguistische Kenntnisse an, welcher Wortart es angehört.

Lösungsansatz:

Annotation, d.h. Explizierung der Kategorie im Sinne einer Anreicherung durch explizite Tags

Operationalisierung:

  • manuell - zeitintensiv und anfällig für unsystematische Fehler
  • automatisch - schnell, basierend auf stochastischen Modellen, nicht fehlerfrei (max. 95 - 98% Genauigkeit), aber systematische Fehler (d.h. Fehler, die sich auch systematisch beheben lassen)

Part of speech (PoS) tagging ist ein grundlegendes Verfahren der Sprachverarbeitung aus der Corpus- und Computerlinguistik

PoS Tagging Software mit Modellen für das Deutsche:

PoS Tagging Tutorien

Getaggtes Korpus: Faust I und II

Dateien bitte durch rechten Mausklick herunterladen und im Texteditor öffnen. Je nach Kodierungseinstellungen Ihres Browsers werden Umlaute im Browser möglicherweise nicht korrekt dargestellt.

Faust I:

  • plain text: Faust-I.txt [Datei durch rechten Mausklick herunterladen]
  • getaggt mit dem Stanford PoS Tagger, Modell German HGC: Faust-I-stanpos-hgc.txt [Datei durch rechten Mausklick herunterladen]

Faust II:

  • plain text: Faust-II.txt [Datei durch rechten Mausklick herunterladen]
  • getaggt mit dem Stanford PoS Tagger, Modell German HGC: Faust-II-stanpos-hgc.txt [Datei durch rechten Mausklick herunterladen]

Suche mit AntConc

Konkordanzansicht

Suchmuster: *_V*

Ergebnis: Alle als Verb getaggten Wörter

AntConc RegEx Implementierung



Szenario 3: Metaphern, Allegorien etc.

Identifikation von Metaphern als Beispiel einer sehr abstrakten Analysekategorie.

UAM Corpus Tool