Das LDA-Toolkit. Korpuslinguistisches Analyseinstrument für kontrastive Diskurs- und Imageanalysen in Forschung und Lehre – Zusammenfassung des Papers

Im Zuge der Beeinflussung durch die Arbeiten Foucaults entwickelte sich auch in der Linguistik eine diskursive Tradition. In zahlreichen Arbeiten werden vom Morphem bis zu intertextuellen Verweisstrukturen qualitativ die sprachlichen Entstehungsbedingungen von Epistemen untersucht, um diese interpretierbar zu machen. Seit einigen Jahren werden dabei auch große Korpora und computerlinguistische Tools herangezogen, um der Kritik des zu autorenbezogenen Betrachtens von Einzelphänomen und der damit verbundenen Ojektivitätseinbußen nachzukommen. Dabei findet allerdings nicht immer eine systematische Benutzung von vorhandenen Tools statt. Aus diesem Mangel an Möglichkeiten heraus wurde 2011 von Friedemann Vogel am Germanistischem Seminar und im Fachbereich Computerlinguistik an der Universitär Heidelberg das LDA-Toolkit entwickelt – ein Programm, das auf diskurslinguistische Untersuchungen spezialisiert ist.
Zentraler Bestandteil des Programms ist die Möglichkeit einen Primär- mit einem Referenzkorpus zu vergleichen und so direkte Rückschlüsse auf verschiedene Konzepte im Sprachgebrauch zuzulassen. Die Hauptumgebung des Programms ist in einer Baumstruktur angelegt. Nachdem Primär- und Referenzkorpus geladen wurden, kann hier mit verschiedenen computerlinguistischen Werkzeugen gearbeitet werden, die in der
Werkzeugleiste links zu Verfügung stehen.

(Abbildung entnommen von http://friedemann-vogel.de/software/lda-toolkit)

lda_1

Neben den einfachen Ausdrucksfrequenzanalysen von Token oder Lemmata unter unterschiedlichen Analyseparametern (z.B. der Wortart) kommen hier einige LDA-Tool-spezifische Untersuchungsmethoden zum Tragen. So wird in diesem Programm unter Keywordanalyse das Filtern von Ausdrück (in Abhängigkeit von unterschiedlichen Signifikanzstufen), welche besonders häufig in einem Primär, jedoch nicht in einem
Referenzkorpus vorkommen, verstanden. Ebenso wie diese Keywords können auch (Key-)Cluster, (Key-)N-Gramme, POS-Gramme und Kookurenzen kontrastiv vergleichen und die Ergebnisse in der Baumstruktur abgelegt werden. An dieser Stelle wird der Vorteil dieser Umgebung deutlich. Mehrerer Ergebnisse können in Registrierkarten angelegt
und verglichen werden, die automatische Generieung von Knotenpunkten kann manuell erweitert oder verschoben und somit Ergebnisse kategorisiert werden, ferner sind Kommentierungen möglich. Auch unterschiedliche Visualisierungsmöglichkeiten, wie z.B. Wortwolken stehen zur Verfügung.
Ein Video mit Kommentaren erklärt sehr anschaulich die meisten Funktionen des Tools.

Im Paper werden neben einer Einführung zu den Möglichkeiten des Toolkits auch zwei diskurslinguistische Untersuchungen vorgestellt.

Zum Ersten:

Unter den Fragen welche Akteure bzw. Akteurgruppen welche semnatischen Kämpfe innerhalb der Debatten um Sterbehilfe austragen und wie sich sprachliche Ausdrücke darin verwendet werden, wurde zu einem Primärkorpus aus juristischen Fachtexten rund um das Thema Palliativmedizin und Sterbehilfe ein Referenzkorpus aus juristischen Texten über das Thema Onlinedurchsuchung kontrastiv verglichen.

Dabei wurden zunächst überblicksmäßig hochsignifikante Keywords, welche mittels Kontextsichtung systematisch gruppiert wurden, gefiltert. Dabei spielen inbesondere BETROFFENE, wie Akteure (Patient/Frau/Kind), Dritte (Gesetz) oder MEDIZINER (Ärzte) aber auch RECHTSORDNUNG UND WERTE (BGB, StGB, Tötungsdelikt) sowie MEDIZINER und ihre berufliche Verpflichtung (Schweigepflicht/Gewissensentscheidung) eine zentrale Rolle.
t1(jpg2)

Anhand von n-Gramm-Analysen lassen sich diese Keywords in größere thematische Topoi einordnen. Hierzu sollten allerdings nur die Autosemantika (Substantive/Eigennamen/Vollverben) betrachtet werden und Synsemantika vorher bereinigt sein. Als Ergebnis liegen Keywords in ihrer thematischen Relation zueinander vor (wille patient entsprechen/tod zeit eintreten/arzt patient verhältnis u.a.). Die kontrastive N-Gramm-Analyse (im Beispiel mit 4-Grammen) ohne vorherige Filterung gibt Hinweise auf wiederkehrende Argumentationsriten (- eine Handlung X muss der vermuteten Intention des Betroffenen gerecht werden – wille d Betroffenen entsprechen/d Wille d Patienten/Ermittlung d mutmaßlichen Willen u.a.).

Anhand von POS-Grammen kann einen typische grammatische Struktur innerhalb eines Diskurses ermittelt werden. In der Untersuchung wurde als Primärkorpus allerdings eine Sammlung journalistischer Texte herangezogen, da sich juristische Fachtexte strukturell unabhängig ihres Inhalt ähneln. Ergebnis der Untersuchung waren verschiedene, für juristische Fachsprache übliche grammatische Erscheinungen anhand von NGrammuntersuchungen, wobei mit steigender N-Grammzahl auch die Komplexität in der Grammatik zunimmt.
t2cut

Ein weiterer Untersuchungsgegenstand des Papers ist eine Imageuntersuchung, also eine Untersuchung der wiederkehrenden sprachlichen Muster, wie z.B. ganze Nominalsätze, Konnexionen oder adjektivische bzw. adverbiale Attributierung, in der Medienpräsenz einer bestimmten Person oder Gruppe. Als Beispiel dafür sollte die Medienrepräsentation der Piratenpartei untersucht werden. Auf Basis von zwei Kopora aus Medientexten in denen
entweder die Zeichenkette PIRATEN vorkam, diese bildeten den Primärkorpus, oder in denen CDU/CHRISTDEMOKRATEN enthalten war, diese bilden den Referenzkorpus, wurde durch kontrastiver Kookurenzanalyse ermittelt, was typische Prädikationen für die Piratenpartei, nicht jedoch für die CDU sind. Dabei wurden bis acht Wörter links bzw. acht Wörter recht des Suchbegriffs Substantive, Eigennamen und Adjektive nach
hochsignifikanten Kookurrenzpartnern zu den Suchausdrücken gefiltert und danach in thematische Cluster unterteilt.

t3cut
Schon anhand dieser Cluster zeichnen sich Hypothesen zur medialen Repräsentation der Piraten ab: (1) „der typischer Pirat“ (tendenziell männlich, jung, Computerspezialist etc.); (2) die Wahrnehmung in der Öffentlichkeit durch einzelne Funktionsträger (Weisband u.a.) sowie (3) der Zunahme des Erfolgs der Piratenpartei (Mitgliedergewinn, allgemeine Fürsprechung etc.).