CATMA – How-To

von Marie Rentergent

(Master of Arts Linguistic and Literary Computing)

In diesem Tutorial wird die Verwendung von CATMA 5.0 (Computer Assisted Textual Markup and Analysis) in einzelnen Schritten vorgestellt. Das kostenfreie Werkzeug ermöglicht es, Korpora auf nutzerfreundliche Art und Weise zu annotieren, ohne dass Kenntnisse einer komplexen Markup-/ oder Programmiersprache nötig wären. Durch die Möglichkeit, kollaborativ zu arbeiten, eignet es sich besonders für Gruppenprojekte. Ein englisches Tutorial mit Praxisübungen findet sich unter http://catma.de/documentation/tutorials/dhasa-tutorial/.

Um die einzelnen Schritte zu veranschaulichen, wird im Folgenden eine Beispieluntersuchung zu dem Thema „Namenformen in Zeitungsschlagzeilen“ angestellt. Dabei wird CATMA genutzt, um zu analysieren, auf welche Weise verschiedene Namenformen (Vorname, Nachname, inoffizielle Namenform, etc.) in den Zeitungen BILD und Süddeutsche Zeitung verwendet werden.

1. Hintergrund, Entwicklung und Beispielprojekte

Als Projekt der Universität Hamburg entstand CATMA im Jahr 2008 zunächst als lokale Applikation. Zwei der Hauptfunktionen, der Tagger und der Analyzer, waren in ihrer Grundform bereits im Vorläufer TACT (Textual Analysis Computing Tools) vorhanden, welcher an der Toronto University entwickelt wurde. Um die Weiterentwicklung der Software von betriebssystemtechnischen Restriktionen zu befreien, wechselte das Projekt im Laufe der Versionen auf eine vollständig browserbasierte Anwendung.

Im heureCLÉA-Projekt der Universität Heidelberg, das von 2013 bis 2016 vom Bundesministerium für Bildung und Forschung gefördert wurde, wurde CATMA genutzt, um simple Annotationsvorgänge zu automatisieren und so erstelltes Markup mit Hilfe von Machine-Learning-Methoden zu analysieren.

2. Zugang

Für das Arbeiten mit CATMA wird lediglich ein Web-Browser benötigt, es ist also keine Installation von Software notwendig. Man erreicht die Online-Umgebung unter der URL http://portal.catma.de/catma/, woraufhin die Aufforderung erscheint, sich einzuloggen. Dies ist, soweit vorhanden, über einen Google-Account möglich; alternativ kann man sich aber auch direkt bei CATMA registrieren.

001: Die Anmeldung ist über einen eigens erstellten CATMA-Account oder über Google möglich.

Nach dem Login hat man im Repository Manager unter dem Reiter „CATMA DB Repository“ Zugriff auf bisherige Projekte und einen Überblick auf die darin verwendeten Textdokumente, sofern unter dem Account bereits mit CATMA gearbeitet wurde. Allgemein sollte man im Umgang mit CATMA die „Vorwärts“- und „Zurück“-Funktionen meiden, da man mit ihnen nicht zwischen den einzelnen Tool-Ebenen wechseln kann. Ansonsten kann ein erneutes Anmelden notwendig werden und Aktionen wie Abfragen im Analyzer müssen erneut getätigt werden.

003: Der Repository Manager: Das Hauptmenü der CATMA-Umgebung, wo Korpora und Tagset-Sammlungen verwaltet werden.

3. Einladen der Dokumente

Um die Schlagzeilen zu annotieren, muss man sie zunächst in die Online-Umgebung laden, denn diese verfügt über keinen Text-Editor, in den man Schlagzeilen direkt per Copy-Paste einfügen könnte. Genau so wenig ist es möglich, den eigentlichen Textinhalt während der Annotation zu bearbeiten, also sollte darauf geachtet werden, dass dieser bereits im gewünschten Zustand ist. Möchte man in CATMA mit einem aus mehreren Dokumenten (möglich sind zum Beispiel die Formate TXT, PDF, DOCX oder XML) bestehenden Korpus arbeiten, so sollte man diese zunächst in einen ZIP-Ordner zusammenfassen, da die Dateien sich ansonsten nur einzeln in die Arbeitsumgebung laden lassen. Dafür werden die gewünschten Dateien markiert und über Rechtsklick –> „Senden an“ –> „ZIP-komprimierter Ordner“ verpackt.

002: Dateien zu einem zip-Archiv zusammenfügen.

Im Repository Manager wird anschließend mittels „Create Corpus“ ein Name für das Korpus gewählt. Dieser erscheint nun links in der Spalte unter „Corpora“; wählt man ihn an, so ist das rechte Feld unter „Documents“ leer. Um dies zu ändern, wählt man unter „Add Document“ –> „Upload local file“ die gewünschte Datei oder den gewünschten ZIP-Ordner aus, woraufhin eine Vorschau der hinzugefügten Dokumente erscheint. Voraussetzung hierfür ist, dass die Dateien mindestens 3 Byte groß sind, sonst erscheint eine entsprechende Fehlermeldung. Hier kann auch der Dateientyp und die Art der Kodierung gewählt werden. Hierbei ist zu beachten, dass die Kodierung mit den Dokumenten übereinstimmt – Sonderzeichen sollten also korrekt dargestellt werden.

004: Der zweite Schritt enthält eine Übersicht der Texte, eine Auswahlmöglichkeit der Kodierung und eine Voransicht des Inhalts des ausgewählten Dokuments.

Im dritten Schritt „Wordlist options“ besteht die Möglichkeit, die Sprache der Texte zu wählen und fortgeschrittene Einstellungen vorzunehmen. Für englische Texte kann es etwa vorteilhaft sein, an dieser Stelle festzulegen, Apostrophe als Worttrenner zu behandeln. Für das Schlagzeilen-Korpus wird als Sprache Deutsch gewählt. Bei der Kodierung ist zu beachten, dass eine Auswahl getroffen wird, bei der die im Deutschen vorkommenden Sonderzeichen korrekt dargestellt werden. Im 4. Schritt „Content details“ können abschließend noch Autor, Beschreibung und Veröffentlicher hinzugefügt werden. Nach Abschluss dieser Schritte sollten die Dokumente nun im Repository Manager angezeigt werden. Hier lassen sich rechts unter „Information“ nun auch Titel, Autor, Beschreibung und Veröffentlicher eintragen oder nachträglich verändern.

4. Erstellen von Tagsets

Um ein eigenes Tagset zu kreieren, legen wir zunächst den Namen „Namenkategorien“ fest, diesmal unter „Create Tag Type Library“. Dieser wird nun unter „Tag Type Libraries“ angezeigt. Beim Anwählen von „Open Tag Type Library“ wechselt das Programm automatisch zum Tag Type Manager, in welchem der Button „Create Tagset“ das Erstellen eines Tagsets erlaubt. Um dem neuen Tagsets Tags beizufügen, klickt man es an und wählt anschließend „Create Tag Type“. Daraufhin öffnet sich ein Fenster, in dem sowohl Name als auch die Farbgebung des jeweiligen Tags ausgewählt werden können.

005: Neu erstellte Tags erhalten eine zufällig gewählte Farbe, die aber auch manuell angepasst werden kann.

Um die Verwendung von Namen in Schlagzeilen zu untersuchen, werden die Tags „nur Rufname“, „Rufname und Familienname“, „Inoffizielle Namensform“ und „nur Familienname“ benötigt. Diesen sollten klar voneinander zu unterscheidende Farben zugewiesen werden. Eine vollständige Übersicht über die bisher erstellten Tags wird angezeigt, wenn man auf das Pfeilsymbol neben dem Namen des Tagsets klickt. Das Tagset muss an dieser Stelle nicht zwangsläufig seine endgültige Form erhalten, da es noch während der Annotation abänderbar ist, wie im nächsten Abschnitt beschrieben wird. Die Metainformationen der fertigen Tag Type Library können nun auch im Repository Manager bearbeitet werden. Desweiteren ist es möglich, Tagsets über den Button „Export Tag Type Library“ als TEI-konforme XML-Datei herunterzuladen. Umgekehrt können solche Dateien auch über „More actions…“ in die Sammlung importiert werden.

006: Übersicht über unser Tagset mit den unterschiedlichen Namensformen.

5. Annotation

Nach dem Erstellen der benötigten Tagsets muss man in den Repository Manager zurückkehren, um ein zu annotierendes Dokument zu öffnen (Linksklick auf Datei + „Open Document“). Bevor der Text annotiert werden kann muss eine Markup Collection erstellt werden, in welche anschließend das zuvor erstellte Tagset geladen werden kann. Hierzu wählt man den Reiter „Active Markup Collections“, klickt „Open Markup Collection“ und in dem nun offenen Fenster wiederum „Create Markup Collection“. Es muss wiederum ein Name festgelegt werden – die Sammlung für unser Projekt nennen wir in diesem Beispiel „Namen Markup“. Bei der so erstellten Markup Collection muss darauf geachtet werden, dass die Checkbox unter „Visible“ ein Häkchen hat, was in der aktuellen CATMA-Version per default nicht der Fall ist. Mittels der Markup Collections ist es möglich, mehrere, voneinander unabhängige Annotationen an einem Text durchzuführen. Nun wird wieder auf den Reiter „Active Tagsets“ gewechselt, unter dem über den Button „Open Tagset“ die zuvor erstellten „Namenkategorien“ eingeladen werden können. Durch Markieren von Textteilen und anschließendes Anklicken der der entsprechenden Tag-Farben kann das gewünschte Markup eingefügt werden. Durch Linksklick auf das Tagset und anschließendes Anwählen des Buttons „Create Tag Type“ können auch in diesem Schritt noch weitere Tags hinzugefügt werden. Bei der Auswahl einzelner Tags können diese unter „Remove Tag Type“ oder „Edit Tag Type“ noch gelöscht oder verändert werden.

007: Ein mit der Namenkategorien-Markup Collection annotiertes Dokument im Tagger.

Die durch Annotation vorgenommenen Änderungen müssen nicht manuell abgespeichert werden. Wenn das Dokument geschlossen und zu einem späteren Zeitpunkt wieder geöffnet wird, ist die Annotation noch vorhanden. Möglicherweise muss allerdings erneut unter „Open Markup Collection“ die Auswahl der Markup Collection bestätigt werden sowie erneut das Häkchen unter „Visible“ in der Markup Collections gesetzt werden, damit die farbigen Markierungen wieder sichtbar sind.

6. Ausgabe der Ergebnisse

Nach vollendetem Taggen kann der Analyzer dazu genutzt werden, Ergebnisse zusammenfassend darzustellen. Möchte man ein einzelnes Dokument analysieren, wählt man unter der Auflistung der Dokumente im Repository Manager More actions… –> Analyze Document. Möchte man hingegen das ganze Korpus auf einmal analysieren, wählt man die entsprechende Aktion unter der linken Auflistung.

008: Die verschiedenen Aktionen, die bei Auswahl eines Korpus zur Verfügung stehen.

0009: Der Query-Builder.

Der Query Builder ist ein Hilfstool, das bei dem Formulieren von Abfragen unterstützt, sodass keine besonderen Kenntnisse der Query-Language nötig sind. So können Korpora etwa nach mehreren Tags zugleich abgesucht, und das Ergebnis anschließend in einer Excel-Tabelle dargestellt werden. Wählt man also Query Builder –> by tag, so kann man anschließend einen einzelnen Tag auswählen, um sich Angaben über deren Auftreten in dem Dokument ausgeben zu lassen. Es werden nur Tags angezeigt, die in der Annotation auch zur Verwendung gekommen sind, und somit Ergebnisse liefern können. Ein Häkchen bei „continue to build a complex query“ sorgt für einen zusätzlichen Zwischenschritt, durch den der Abfrage weitere Punkte hinzugefügt werden können. Auf diese Weise können die Daten zu allen Tags mittels einer Abfrage ermittelt werden, es muss nur daran gedacht werden, jedes Mal das Häkchen an der zuvor erwähnten Checkbox zu setzen, so lange noch weitere Tags ausstehen. Einmal getätigte Queries werden nicht im Projekt gespeichert, daher sollte man entweder darauf achten, das Fenster nicht zu schließen, oder die fertige Query in eine Textdatei zu kopieren, wenn man sie zu einem späteren Zeitpunkt wieder benutzen möchte. Nachdem man den „Finish“-Button geklickt hat und die Abfrage durchgelaufen ist, werden die Ergebnisse tabellarisch angezeigt. Hier kann gewählt werden, ob sie nach „phrase“, also den annotierten Textteilen, oder nach „markup“ gelistet sein sollen.

012: Eine tabellarische Zusammenfassung der Markup-Daten unseres Korpus.

011: Sicht auf annotierten Text.

Die Option „Visible in Kwic“ ermöglicht Einsicht in den Kontext, in dem ein bestimmtes Markup aufgetreten ist. Der Button mit dem Graphen führt zu einer Diagramm-Visualisierung der Frequenzen der einzelnen Tags.

010: Eine grafische Ansicht der Markup-Daten. Da nur wenige Namenformen pro Schlagzeile vorkommen, wurde hier zur Veranschaulichung ein Wortarten-Tagset erstellt. Der Frequenzverlauf der verschiedenen Wortarten wird unterschiedlichfarbige Graphen dargestellt. So lassen sich Daten mehrerer Texte direkt optisch gegenüber stellen.

Das grüne X im Quadrat ist das Symbol für Excel und liefert auf Knopfdruck einen Export der Daten im entsprechenden Format. Eine Alternative dazu liefert ein weiterer Button, der eine Datei im CSV-Format ausgibt.

http://catma.de/documentation/tutorials/dhasa-tutorial/; CATMA hands-on tutorial. 18.05.2017, 14:10.

http://portal.catma.de/catma/; CATMA 5.0. 18.05.2017, 14:27.

http://heureclea.de; heureCLÈA | Collaborative Literature Exploration & Annotation. 12.04.2017, 16:40.

https://de.dariah.eu/documents/10182/48378/22_heureCLEA_-_digitale_Heuristik_300_dpi.pdf/f605afd8-5c22-4f76-a81f-7748388aca38; Eine digitale Heuristik zur Unterstützung geisteswissenschaftlicher Markups. 05.05.2017, 13:58.

https://dhcommons.org/projects/catma; CATMA | DHCommons. 20.04.2017, 14:43.