Visualisierung von Trigrammen in Gephi

Da sich der Hauptteil dieses Projektes mit den themengebundenen Inhalten von Schilderungen über diverse Rauschzustände befasst, suchten wir mitunter nach geeigneten Methoden, spezifische Textmuster dieser Textsorte offenzulegen, um so Aufschluss über generelle Merkmale der Textgestaltung von Tripberichten zu erhalten. Für dieses Anliegen bietet sich in besonderem Maße die Untersuchung von N-Grammen an, welche das aufeinanderfolgende Auftreten von N Fragmenten eines Textes bezeichnen. In unserem Falle entschieden wir uns dafür, Trigramme auf Wortebene als Datengrundlage für unsere Visualisierungsversuche zu verwenden. Beim Trigramm handelt es sich demnach um ein Hyponym zu N-Gramm mit drei Elementen, also N = 3. Im gegebenen Fall lässt sich auf diese Weise, die Typizität von Rauscherfahrungen besser beschreiben, weshalb diese Analysestrategie außerdem ein probates Mittel darstellt, generell zur Aufklärung über die Charakteristika und Wirkungsweisen unterschiedlichster Drogen beizutragen. Die Visualisierung der Trigramme erfolgte schließlich mittels Gephi, einer mächtigen Visualisierungssoftware für alle erdenklichen Arten von Netzwerken.

Als erstes galt es nun, die Datengrundlage für die weitere Verarbeitung zu schaffen: Dafür mussten aus dem Korpus zunächst alle Trigramme mithilfe eines Perl-Scripts extrahiert werden. Das ursprüngliche Korpus wurde allerdings bereits im Hinblick auf die Übersichtlichkeit der anschließenden Visualisierung dahingehend modifiziert, dass typischerweise sehr häufig auftretende Funktionswörter, welche inhaltlich keine besondere Aussagekraft besitzen, aus dem Datenmaterial entfernt wurden. Das Perl-Script geht nun Schritt für Schritt das gesamte Korpus durch und speichert nacheinander alle Verbindung drei aufeinanderfolgender Lemmata ab. Gleichzeitig werden sukzedan exakt gleiche Trigramme gezählt. Bei der Größe des Korpus’ erschien es uns sinnvoll, eine erforderliche Mindestfrequenz von 3 Vorkommen je Trigramm festzulegen. Die so erfassten Daten werden schließlich in einem für Gephi optimierten Format als TXT-Datei gespeichert. Das Resultat sieht folgendermaßen aus:

ngrams_gephi

Gephi übersetzt nun aus den in dieser Form vorliegenden Daten die einzelnen Wörter in Knoten, die jeweilige Verbindung in Kanten und die Anzahl der Verbindungen in das dazugehörige Kantengewicht. Folglich würde beispielsweise Zeile 15 für sich betrachtet, als Graph mit drei Knoten (unglaublich, stark, Euphorie), die untereinander durch Kanten mit der Kantenstärke 3 verbunden sind, erscheinen. Auf diese Weise entsteht ein Geflecht von unterschiedlich gewichteten Knotenverbindungen, wodurch es möglich gemacht wird, diverse hierarchische Strukturen visualisieren zu können. Nebst dieser grundlegenden Funktionsweise bietet das Visualisierungstool darüber hinaus noch etliche bereits integrierte statistische Verfahren zur individuellen Modifikation eigener Graphen an. Im Internet besteht eine breite Vielfalt an Tutorials und Anleitungen die von Gephi implementierten Möglichkeiten der Datenaufbereitung gewinnbringend für persönliche Forschungsinteressen einzusetzen. Für die Umsetzung unseres Vorhabens erwies sich dieses Tutorial als sehr hilfreich. Zunächst wählten wir für unseren Graphen das Layoutmodul Force Atlas, mit dem die grundlegende Bezugsstruktur zwischen den einzelnen Knoten durch einen mathematische Algorithmus bestimmt wird, wobei einzelne Parameter (z. B. Repulsion Strength, Attraction Strength) manuell angepasst werden können. Desweiteren wurden Größe und Farbe der Knoten angepasst und mit den dazugehörigen Bezeichnungen (labels) versehen, die proportinal zur jeweiligen Knotengröße erscheinen. Zentral für diesen Vorgang ist die Berechnung der Betweenness Centrality, die für jeden Knoten misst, wie oft er auf dem kürzesten Weg zwischen zwei zufälligen Knoten im Netz auftritt. So kann der Einfluss jedes Knotens bestimmt und Größe und Farbe entsprechend angepasst werden. Um nun noch die für die Visualisierungen von Netzwerken essenzielle Zusammengehörigkeit zwischen einzelnen Verbindungen zu semantisieren, werden in einem weiteren Schritt die Modularity Classes ermittelt. Diese ermöglichen es, Knoten mit signifikant häufigen Verbindungen untereinander in Cluster zusammenzufassen, die wiederum entsprechend koloriert werden können. Um eine bessere Übersichtlichkeit des Graphen zu erhalten, wurden zuletzt noch Knoten mit verschwindend geringer oder übermäßig hoher Verbindungsanzahl (degree) herausgefiltert. Übermäßig hohe Verbindungszahlen wiesen lediglich noch einige wenige übrig gebliebene Funktionswörter auf, die gar nicht erst im Graphen hätten erscheinen sollen. Nach dem Durchlaufen der geschilderten Prozedur ließ sich unsere Visualisierung der Trigramme folgendermaßen exportieren:

ngrams_gephi_graph

Aus diesem Graphen lassen sich bereits erste Rückschlüsse über spezifische Textmuster und Themencluster ziehen, so sind diese anhand der zugeordneten Farben leicht zu erkennen. Will man allerdings einzelne Sprachmuster genauer untersuchen, ist es aufgrund der Masse an Daten sehr mühselig und teilweise sogar unmöglich gehaltvolle Aussagen zu treffen. Aus diesem Grund entschieden wir uns dafür, das Gephi-Plugin sigma.js-Exporter zu verwenden, welches es uns möglich machte, eine interaktive Version unserer Visualisierung auf einen Server zu laden und diese so öffentlich zugänglich zu machen. Das Endprodukt könnt ihr durch Klicken auf den Screenshot selbst begutachten:

ngram_interactive

In dieser Form der Darstellung ist es möglich jeden einzelnen Knoten individuell zu betrachten: Indem man mit dem Mauszeiger über einen Knoten fährt, werden alle ihm zugehörigen Verbindungen hervorgehoben. Zudem öffnet sich durch Anklicken eines Punktes auf der rechten Seite ein Feld, in dem die entsprechenden Zusatzinformationen aufgelistet sind (statistische Werte, eingehende und wegführende Verbindungen). Außerdem können mithilfe des Suchfeldes auf der linken Seite gezielt bestimmten Lemmata und deren Vernetzung ausgegeben werden. Sehr nützlich ist auch die verfügbare Option, jeweils alle Vertreter eines Ähnlichkeitsclusters über die Schaltfläche Group Selector auf einmal auszuwählen. So scheint beispielsweise Gruppe sechs vornehmlich Textmuster zu enthalten, die auf eher negative Erfahrungen des Drogenkonsums hinweisen. So beinhaltet diese Gruppe Verbindungen wie, panische Angst bekommen oder absolut/pur Horror. Gruppe drei scheint mit Mitgliedslemmata, wie Wirkung, Effekt, Euphorie oder Optik Textbausteine zu enthalten, die für die Beschreibung der Wirkungsweise von speziellen Substanzen essenziell sind.

Aber: Da es nicht das Ziel unseres Projektes war, vollständige Interpretationen zu den einzelnen Visualisierungen zu liefern, sondern hauptsächlich deren Funktionsweise zu erläutern und sich die hier besprochene Methode aufgrund ihres interaktiven Charakters und der großen Fülle der enthaltenen Daten besonders für die eigenständige Exploration anbietet, könnt ihr euch nun selbst in den Datenrausch der Rauschdaten vertiefen!

Hinterlasse eine Antwort

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *

Du kannst folgende HTML-Tags benutzen: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>