Analoge Visualisierungen von Topics

Da letztlich jede Art von Verbildlichungsprozessen auf Selektion, Transformation und Interpretation von Informationen beruht, wäre es leichtgläubig, Visualisierungen außerhalb ihres Kontextes und ihrer angestrebten Funktion bewerten zu wollen. Unsere Herangehensweise an die sprachlichen Rauschdaten war größtenteils eine faktenproduzierende, bei den Visualisierungen stand die Operationalität und Lesbarkeit  im Vordergrund, ästhetische Gesichtspunkte wurden nur am Rande mitbedacht. Um diesem zugegebenermaßen etwas schönheitsfeindlichem Manko Abhilfe zu schaffen, haben wir ohne viele Erklärungen eine befreundete Künstlerin gebeten, sich in Skizzen unvoreingenommen mit den von Mallet errechneten Topics auseinanderzusetzen. Durch den Fokus auf eine ästhetisch ansprechende Gestaltung haben Kirsti Zimmermanns Visualisierungen im Vergleich zu den computergenerierten Diagrammen einen vollkommen unterschiedlichen qualitativen Wert, der für sich selbst spricht:

Topic 0: rauchen joint gras freund cannabis abend kumpel kiffen bauen weg ankommen breit nen kopf tuete etwas essen

Topic 0: rauchen joint gras freund cannabis abend kumpel kiffen bauen weg ankommen breit nen kopf tuete etwas essen

Topic 1: leicht uhr wirkung fuehlen stunde nehmen essen ca uebelkeit angenehm liegen stark gefuehl tag trinken magen schlafen etwas

Topic 1: leicht uhr wirkung fuehlen stunde nehmen essen ca uebelkeit angenehm liegen stark gefuehl tag trinken magen schlafen etwas

Topic 2: pilz trip sehen essen lachen gedanke baum uhr decke wald farbe muster wand denken zimmer schauen natur

Topic 2: pilz trip sehen essen lachen gedanke baum uhr decke wald farbe muster wand denken zimmer schauen natur

Topic 3: mdma mg uhr droge same tanzen wirkung abend teil stunden stunde nehmen pille party gefuehl ziehen euphorie halb

Topic 3: mdma mg uhr droge same tanzen wirkung abend teil stunden stunde nehmen pille party gefuehl ziehen euphorie halb

Topic 4: trip lsd farbe gedanke mensch legen klein wald stunde leben ankommen muster substanz raum reise

Topic 4: trip lsd farbe gedanke mensch legen klein wald stunde leben ankommen muster substanz raum reise

Topic 6: salvia rauchen ziehen sehen kopf trip koerper bong sekunde lachen realitaet blatt rauch gefuehl wirkung extrakt lunge auge

Topic 6: salvia rauchen ziehen sehen kopf trip koerper bong sekunde lachen realitaet blatt rauch gefuehl wirkung extrakt lunge auge

Visualisierung von Topic Models

Um dem drogenspezifischen Sprachgebrauch nachzuspüren, unternahmen wir die ersten Rechercheversuche für dieses Projekt nach der Transformation des ursprünglichen Korpus in ein datenbankgerechtes Format und der erfolgreichen Einbindung in die Corpus Workbench des Dresden Center for Digital Linguistics direkt über das CWB-Webinterface. Durch die Annotation der einzelnen Userbeiträge nach den jeweils beschriebenen Drogenarten ist es der CWB möglich, drogenspezifische Subkorpora zu generieren, was uns zunächst sehr hilfreich erschien. Doch schon bald mussten wir feststellen, dass die Ergebnisse ziemlich dürftig ausfielen und nur relativ aufwändig zu produzieren waren. Bei der Suche nach Alternativen stießen wir auf das Konzept des Topic Modeling, von dem wir uns weitaus bessere Resultate versprachen: Mithilfe von Topic Models lassen sich in einer beliebigen Sammlung von Texten eine zuvor spezifizierte Anzahl von “Themen” identifizieren, die prinzipiell nichts anderes sind als eine Liste von Wörtern, die signifikant häufig in Text A vorkommen, in Text B dagegen seltener oder überhaupt nicht.

Bestünde ein Korpus nun beispielsweise aus zehn Texten über Überschwemmungen im Nildelta, zehn Texten über Neoliberalismus und zehn Texten über den Anbau von transgenem Reis in der chinesischen Jiangxi-Provinz, würden sich bei einer Suche nach drei Topics in Topic 1 Lexeme wie Ägypten, Hochwasser, Staudamm, Mittelmeed, Kairo wiederfinden, in Topic 2 wirtschaftliches Fachvokabular und in Topic 3 Wörter zu Reisanbau, Gentechnik und China und zudem vermutlich eine treffsichere Klassifikation der dreißig Texte erhalten. Spannend wird es nun, wenn wir uns nicht drei, sondern sieben oder zwölf Topics ausgeben lassen: Wir könnten Ähnlichkeiten zwischen Texten feststellen, die wir vorher überhaupt nicht vermutet hatten. So könnte eines der Topics die Lexeme Fluss, Überflutung, längste, Wasser beinhalten, die sowohl aus den Texten über Nilüberschwemmungen als auch aus Texten über den chinesischen Reisanbau extrahiert wurden, da für die maschinelle Themenbestimmung belanglos ist, ob sich das Wort auf den Nil oder den Jangtsekiang bezieht. Die Berechnung der korrespondierenden Typizität zum “Fluss-Topic” geschieht für jeden Text einzeln, sodass sich Texte aus zunächst grundverschieden scheinenden Themenbereichen in diesem Einzelaspekt sehr ähnlich oder immer noch sehr unterschiedlich sein können (man würde erwarten, dass sich hier ein paar Texte über Nildelta und Reisanbau wiederfinden, nicht aber Texte zum Neoliberalismus). Natürlich vereinfacht dieses konstruierte Beispiel den mathematischen Aspekt stark, doch wird (hoffentlich) zumindest die Idee hinter Topic Models deutlich, denn die exakte Beschreibung des dahinter liegenden statistischen Modells müsste in meinem Fall ohnehin zwangsläufig scheitern. An dieser Stelle kann und soll auch überhaupt keine keine generelle Einführung in Theorie und Praxis des Topic Modeling entworfen werden, darum sei hier für Interessierte noch auf die ausreichend vorhandenen Einführungen, Verortungen und kritischen Auseinandersetzungen verwiesen, um uns nun der praktischen Anwendung dieser Methode auf unsere Daten zu widmen.

Für die Berechnung von Topic Models musste das auf Lemmata reduzierte Gesamtkorpus in viele einzelne Subkorpora zerlegt werden, wobei jedes Subkorpus einer eindeutig klassifizierten Droge oder Drogenkombination entspricht. Dies erreichten wir durch die Umformung des Perl-Codes, den wir bereits für die Zählung der Wortanzahl und Sätzlängen gebraucht hatten. Dadurch wurde für jede Drogenklassifikation ein Subkorpus erstellt, das alle Texte enthielt, die mit der entsprechenden Kombination versehen waren. Für diese Subkorpora konnten nun mit einem Java-basierten Programmpaket namens Mallet (MAchine Learning for LanguagE Toolkit) Topic Models erstellt werden (hier findet man eine hervorragende Anleitung dazu). Mallet wurde von uns so konfiguriert, dass es aus der Analyse der fünfzig größten Subkorpora 7 Topics zu je 18 Lemmata erstellt, außerdem sollten häufig vorkommende Funktionswörter herausgefiltert werden. Die Topics gerierten sich wie folgt:

  • Topic 0: rauchen joint gras freund cannabis abend kumpel kiffen bauen weg ankommen breit nen kopf tuete etwas essen
  • Topic 1: leicht uhr wirkung fuehlen stunde nehmen essen ca uebelkeit angenehm liegen stark gefuehl tag trinken magen schlafen etwas
  • Topic 2: pilz trip sehen essen lachen gedanke baum uhr decke wald farbe muster wand denken zimmer schauen natur
  • Topic 3: mdma mg uhr droge same tanzen wirkung abend teil stunden stunde nehmen pille party gefuehl ziehen euphorie halb
  • Topic 4: trip lsd farbe gedanke mensch legen klein wald stunde leben ankommen muster substanz raum reise
  • Topic 5: dxm trip sehen mg uhr nehmen zimmer kapsel bett dph tablett tablette schlafen dhm kg schauen nah tag
  • Topic 6: salvia rauchen ziehen sehen kopf trip koerper bong sekunde lachen realitaet blatt rauch gefuehl wirkung extrakt lunge auge

Zudem wurde jedem der fünfzig Subkorpora sieben Werte zugeschrieben, welche die statistische Nähe zu einem der Topics ausdrücken, zum Beispiel hat das Ecstasy-Subkorpus eine hohe Affinität zu Topic 3 und eine niedrige zu Topic 6. Somit ist jedem Topic einerseits der spezifische Wortschatz und andererseits die Wahrscheinlichkeit des Auftretens dieses Wortschatzes in den jeweiligen Subkorpora zuschreibbar. Nachdem wir die von Mallet produzierten Werte sortiert, in eine für Gephi lesbare Struktur gebracht und die Feinjustierung des Netzwerkgraphen vorgenommen haben, konnten wir wieder eine interaktive Visualisierung erstellen, aus der sich die Relationen zwischen erstens Topics und Wortschatz und zweitens Topics und Drogen herauslesen lassen:

network topics

Die größeren Knotenpunkte stellen die sieben Topics dar, jeder von ihnen ist mit einer eigenen Farbe gekennzeichnet, mit Ausnahme von Topic 2 und Topic 4. Das liegt daran, dass die beiden Topics sich einen Teil der Wortschatzes teilen und viele Subkorpora eine ähnlich hohe Affinität zu beiden dieser Themen besitzen:

Topic 2 und 4

Generell gesprochen, finden sich bei Topic 2 und Topic 4 Wörter und Kategorien, die den Psychedelika zuzuordnen sind, wobei Texte über Magic Mushrooms eher Topic 2 und Texte über LSD eher Topic 4 zugeordnet sind. Dies ist an der Nähe der Knotenpunkte zueinander und an der (nicht besonders gut erkennbaren) Dicke der Kanten ersichtlich:

LSDMit einem Klick auf einen Knoten oder bei der Suche nach bestimmten Begriffen werden sämtliche Verbindungen aufgefächert und der Rest des Schaubilds ausgeblendet.

Um den Knotenpunkt von Topic 3 gruppieren sich die meisten Partydrogen, folgerichtig finden sich dort auch die entsprechenden Vokabeln:

Topic3

Sehr interessant ist die Positionierung von 2C-B. Laut dem ersten Google-Treffer ist das ”Wirkspektrum von 2C-B [...] sehr breit gefächert und wird von Usern zwischen dem von LSD und MDMA verortet”. Der empirische Beweis für diese Verortung ist Mallet mühelos gelungen, Tripberichte zu 2C-B befinden sich in ihrer Typizität direkt zwischen diesen beiden Themen:

2C-B

Den exponierten Platz in der Mitte des Graphen hat Topic 0 inne, es verweist vor allem auf cannabisbezogenen Wortschatz:

Topic 0Die prominente Positionierung resultiert daher, dass Cannabis oft im Mischkonsum auftritt und somit die Nodes von Drogenkategorien mit Mischkonsum ein Stückchen zu sich zieht:

Pilze und Cannabis

Für individuelle Untersuchungs- und Erkenntnisinteressen scheint diese interaktive Visualisierung nach den ersten erklärenden Explorationen also durchaus als heuristisches Hilfsmittel geeignet zu sein. Sämtliche Beziehungen lassen sich unmöglich in diesem Blogpost darstellen, also zögert nicht, sie auf eigene Faust zu erkunden!

network_topics

Visualisierung von Trigrammen in Gephi

Da sich der Hauptteil dieses Projektes mit den themengebundenen Inhalten von Schilderungen über diverse Rauschzustände befasst, suchten wir mitunter nach geeigneten Methoden, spezifische Textmuster dieser Textsorte offenzulegen, um so Aufschluss über generelle Merkmale der Textgestaltung von Tripberichten zu erhalten. Für dieses Anliegen bietet sich in besonderem Maße die Untersuchung von N-Grammen an, welche das aufeinanderfolgende Auftreten von N Fragmenten eines Textes bezeichnen. In unserem Falle entschieden wir uns dafür, Trigramme auf Wortebene als Datengrundlage für unsere Visualisierungsversuche zu verwenden. Beim Trigramm handelt es sich demnach um ein Hyponym zu N-Gramm mit drei Elementen, also N = 3. Im gegebenen Fall lässt sich auf diese Weise, die Typizität von Rauscherfahrungen besser beschreiben, weshalb diese Analysestrategie außerdem ein probates Mittel darstellt, generell zur Aufklärung über die Charakteristika und Wirkungsweisen unterschiedlichster Drogen beizutragen. Die Visualisierung der Trigramme erfolgte schließlich mittels Gephi, einer mächtigen Visualisierungssoftware für alle erdenklichen Arten von Netzwerken.

Als erstes galt es nun, die Datengrundlage für die weitere Verarbeitung zu schaffen: Dafür mussten aus dem Korpus zunächst alle Trigramme mithilfe eines Perl-Scripts extrahiert werden. Das ursprüngliche Korpus wurde allerdings bereits im Hinblick auf die Übersichtlichkeit der anschließenden Visualisierung dahingehend modifiziert, dass typischerweise sehr häufig auftretende Funktionswörter, welche inhaltlich keine besondere Aussagekraft besitzen, aus dem Datenmaterial entfernt wurden. Das Perl-Script geht nun Schritt für Schritt das gesamte Korpus durch und speichert nacheinander alle Verbindung drei aufeinanderfolgender Lemmata ab. Gleichzeitig werden sukzedan exakt gleiche Trigramme gezählt. Bei der Größe des Korpus’ erschien es uns sinnvoll, eine erforderliche Mindestfrequenz von 3 Vorkommen je Trigramm festzulegen. Die so erfassten Daten werden schließlich in einem für Gephi optimierten Format als TXT-Datei gespeichert. Das Resultat sieht folgendermaßen aus:

ngrams_gephi

Gephi übersetzt nun aus den in dieser Form vorliegenden Daten die einzelnen Wörter in Knoten, die jeweilige Verbindung in Kanten und die Anzahl der Verbindungen in das dazugehörige Kantengewicht. Folglich würde beispielsweise Zeile 15 für sich betrachtet, als Graph mit drei Knoten (unglaublich, stark, Euphorie), die untereinander durch Kanten mit der Kantenstärke 3 verbunden sind, erscheinen. Auf diese Weise entsteht ein Geflecht von unterschiedlich gewichteten Knotenverbindungen, wodurch es möglich gemacht wird, diverse hierarchische Strukturen visualisieren zu können. Nebst dieser grundlegenden Funktionsweise bietet das Visualisierungstool darüber hinaus noch etliche bereits integrierte statistische Verfahren zur individuellen Modifikation eigener Graphen an. Im Internet besteht eine breite Vielfalt an Tutorials und Anleitungen die von Gephi implementierten Möglichkeiten der Datenaufbereitung gewinnbringend für persönliche Forschungsinteressen einzusetzen. Für die Umsetzung unseres Vorhabens erwies sich dieses Tutorial als sehr hilfreich. Zunächst wählten wir für unseren Graphen das Layoutmodul Force Atlas, mit dem die grundlegende Bezugsstruktur zwischen den einzelnen Knoten durch einen mathematische Algorithmus bestimmt wird, wobei einzelne Parameter (z. B. Repulsion Strength, Attraction Strength) manuell angepasst werden können. Desweiteren wurden Größe und Farbe der Knoten angepasst und mit den dazugehörigen Bezeichnungen (labels) versehen, die proportinal zur jeweiligen Knotengröße erscheinen. Zentral für diesen Vorgang ist die Berechnung der Betweenness Centrality, die für jeden Knoten misst, wie oft er auf dem kürzesten Weg zwischen zwei zufälligen Knoten im Netz auftritt. So kann der Einfluss jedes Knotens bestimmt und Größe und Farbe entsprechend angepasst werden. Um nun noch die für die Visualisierungen von Netzwerken essenzielle Zusammengehörigkeit zwischen einzelnen Verbindungen zu semantisieren, werden in einem weiteren Schritt die Modularity Classes ermittelt. Diese ermöglichen es, Knoten mit signifikant häufigen Verbindungen untereinander in Cluster zusammenzufassen, die wiederum entsprechend koloriert werden können. Um eine bessere Übersichtlichkeit des Graphen zu erhalten, wurden zuletzt noch Knoten mit verschwindend geringer oder übermäßig hoher Verbindungsanzahl (degree) herausgefiltert. Übermäßig hohe Verbindungszahlen wiesen lediglich noch einige wenige übrig gebliebene Funktionswörter auf, die gar nicht erst im Graphen hätten erscheinen sollen. Nach dem Durchlaufen der geschilderten Prozedur ließ sich unsere Visualisierung der Trigramme folgendermaßen exportieren:

ngrams_gephi_graph

Aus diesem Graphen lassen sich bereits erste Rückschlüsse über spezifische Textmuster und Themencluster ziehen, so sind diese anhand der zugeordneten Farben leicht zu erkennen. Will man allerdings einzelne Sprachmuster genauer untersuchen, ist es aufgrund der Masse an Daten sehr mühselig und teilweise sogar unmöglich gehaltvolle Aussagen zu treffen. Aus diesem Grund entschieden wir uns dafür, das Gephi-Plugin sigma.js-Exporter zu verwenden, welches es uns möglich machte, eine interaktive Version unserer Visualisierung auf einen Server zu laden und diese so öffentlich zugänglich zu machen. Das Endprodukt könnt ihr durch Klicken auf den Screenshot selbst begutachten:

ngram_interactive

In dieser Form der Darstellung ist es möglich jeden einzelnen Knoten individuell zu betrachten: Indem man mit dem Mauszeiger über einen Knoten fährt, werden alle ihm zugehörigen Verbindungen hervorgehoben. Zudem öffnet sich durch Anklicken eines Punktes auf der rechten Seite ein Feld, in dem die entsprechenden Zusatzinformationen aufgelistet sind (statistische Werte, eingehende und wegführende Verbindungen). Außerdem können mithilfe des Suchfeldes auf der linken Seite gezielt bestimmten Lemmata und deren Vernetzung ausgegeben werden. Sehr nützlich ist auch die verfügbare Option, jeweils alle Vertreter eines Ähnlichkeitsclusters über die Schaltfläche Group Selector auf einmal auszuwählen. So scheint beispielsweise Gruppe sechs vornehmlich Textmuster zu enthalten, die auf eher negative Erfahrungen des Drogenkonsums hinweisen. So beinhaltet diese Gruppe Verbindungen wie, panische Angst bekommen oder absolut/pur Horror. Gruppe drei scheint mit Mitgliedslemmata, wie Wirkung, Effekt, Euphorie oder Optik Textbausteine zu enthalten, die für die Beschreibung der Wirkungsweise von speziellen Substanzen essenziell sind.

Aber: Da es nicht das Ziel unseres Projektes war, vollständige Interpretationen zu den einzelnen Visualisierungen zu liefern, sondern hauptsächlich deren Funktionsweise zu erläutern und sich die hier besprochene Methode aufgrund ihres interaktiven Charakters und der großen Fülle der enthaltenen Daten besonders für die eigenständige Exploration anbietet, könnt ihr euch nun selbst in den Datenrausch der Rauschdaten vertiefen!

Durchschnittliche Wortanzahl und Satzlänge bei Tripberichten

Nachdem die absolute Beitragsanzahl zu den einzelnen Drogen (also ihr Vorkommen alleine und im Kontext von Mischkonsum) berechnet wurde, interessierte uns die durchschnittliche Beitragslänge der nach Substanzen sortierten Tripberichte. Mithilfe eines weiteren Perl-Scripts ermittelten wir die Länge jedes Textes und speicherten sie zusammen mit der dazugehörigen Drogenkombination ab (mit Länge des Textes ist hier die Anzahl der Wörter gemeint). In einem nächsten Schritt extrahierten wir alle singulären Vorkommen von Einzel- und Mischkonsum. Hierdurch konnten die einzelnen Textlängen mit einem auf RegEx beruhenden Match-Befehl unter ihren jeweiligen Konsumbetitelungen zusammengefasst werden. Insgesamt gibt es bei 3860 Tripberichten 990 verschiedene Drogenkombinationen, wobei aber lediglich 102 Klassifizierungen häufiger als fünfmal benutzt werden und das Gros der Verbindungen nur einmal vorkommt  –  731 einzigartige Drogencocktails, um genau zu sein. Zur Illustration hier ein kleiner Ausschnitt:

Beispiele für Mischkonsum

Um den Mittelwert der Textlänge zu errechnen, musste jetzt nur noch alle Beitragslängen innerhalb der Droge und Drogenkombination miteinander addiert und die so entstandene Summe durch die jeweilige Anzahl der Texte dividiert werden, wodurch schließlich solche Ergebnisse produziert werden:

...
Mischkonsum von LSD, Cannabis und Alkohol: 3543.71428571429
Kokain 837.4
Peyote 1623.23529411765
...

Alleine in diesem Beispiel zeigt sich schon die enorme Bandbreite der mittleren Textlängen: Tripberichte über den Mischkonsum von LSD, Cannabis und Alkohol sind im Schnitt mehr als viermal so lang wie diejenigen über den Konsum von Kokain und immer noch fast doppelt so lang wie diejenigen über den Konsum von Peyote. In einem letzten Schritt haben wir uns diese Ergebnisse nach absteigendem Wert des arithmetischen Mittels sortiert als Datei ausgeben lassen, dabei haben wir nur diejenigen Berichte berücksichtigt, deren Drogenkombination im Korpus mehr als fünfmal vorkommt.

Mit einem ganz ähnlichen Perl-Script ließ sich auch die durchschnittliche Satzlänge pro Drogenvorkommen berechnen. Statt den Wörtern mussten einfach die Sätze jedes Beitrages gezählt werden, um anschließend die Wort- durch die Satzanzahl zu teilen, das Vorgehen ist ansonsten analog zum oben beschriebenen. Auch hier ließen wir uns eine sortierte Output-Datei generieren, auch hier galt die Untergrenze von mindestens fünf Belegen. Die so gewonnenen Werte wurden angereicht um die Beitragsanzahl gemeinsam in eine CSV-Datei geschrieben, um sie kompatibel für eine Visualisierung mit R zu machen. In die Visualisierung wurden der besseren Übersichtlichkeit halber nur Berichte aufgenommen, deren Drogenklassifikation mehr als 20-mal belegt ist:

Geordnetes Säulendiagramm

In dieses gruppierte Balkendiagramm sind knapp einhundert individuelle Werte integriert: Jeder der 31 Drogenkategorien ist die ihr entsprechende Beitragsanzahl sowie der Mittelwert von Satz- und Textlänge zugeordnet. Die Wertebalken sind untereinander farblich unterschieden und verweisen weiterhin auf verschiedene Skalen, deren erster Einschnitt den Zehnerpotenzen 10¹, 10² und 10³ entspricht. So lassen sich je nach Erkenntnisinteresse auf einen Blick die gewünschten Informationen erfassen. Möchte man beispielsweise in Erfahrung bringen, bei welcher Art von Tripberichten es die wortreichsten Ausführungen gibt, muss man lediglich die grünen Balken miteinander vergleichen: Der Mischkonsum von LSD und Cannabis scheint also besonders berichtenswert zu sein, ebenso die auf 2C-B und Magic Mushrooms (+ Cannabis) gemachten Erfahrungen. Im Gegensatz dazu birgt die Einnahme von Katzenminze nur spärliches Erzählungsmaterial, was vermutlich mit der Unterrepräsentiertheit feliner Userinnen und User einhergeht. Insgesamt ist die durchschnittliche Wortanzahl mit den beiden Extremwerten 381 (Katzenminze) und 3543 (Mischkonsum von LSD, Cannabis und Alkohol; nicht im Graphen vertreten) über die Drogen verteilt verhältnismäßig heterogen.

Bei der durchschnittlichen Satzlänge (rote Balken) sieht es dagegen schon anders aus. 30 von 31 Werten haben sich mit einer maximalen Abweichung von lediglich 1,8 Wörtern um den relativ hohen Wert von 16 Wörtern pro Satz angeordnet. Die Satzlänge in Berichten über den synthetischen Cannabisersatz Spice bildet im Schaubild mit einem Wert von 11,22 die Ausnahme, insgesamt steht es auf dem vorletzten Platz und wird nur noch von der Satzlänge in Texten über Crystal Meth unterboten (10,97 Wörter pro Satz, nicht im Schaubild). Über die Verlässlichkeit der jeweiligen Einzeldaten kann man sich über die blau abgetragene Textanzahl ebenfalls informieren.

Drogenspezifische Schlagwortanalyse

Einige der spannendsten Fragen, die sich uns bereits beim Brainstorming über die sprachlichen Rauschdaten auftaten, waren inhaltlicher Natur: Worüber genau wird in den Texten überhaupt berichtet, was sind die Themen und wie sehr unterscheiden sich diese in Bezug auf die jeweiligen Drogen? Diese Fragen erschienen uns gerade im Hinblick auf tatsächliche Konsumgewohnheiten und typische Tripabläufe einerseits und die eigentliche Wirkungsweise der Drogen und die damit einhergehenden subjektiven Empfindungen andererseits als besonders interessant. Lässt sich also durch empirische Analyse des rohen Sprachmaterials beispielsweise so etwas wie eine Klasse der Partydrogen identifizieren oder erweist sich das Themengeflecht der Tripberichte doch eher als diffus?

Unser erster Zugang zu diesem Themenkomplex bildet die Analyse der im gesamten Korpus am häufigsten vorkommenden Substantive in Relation zu den in den Korpustexten frequentesten Drogen im Einzelkonsum. Allerdings werden bereits hier einige Schwierigkeiten der datengeleiteten Analyse sichtbar: Der Vorgang der Visualisierung bedeutet immer auch Selektion. Die Auswahl der letzendlich veranschaulichten statistischen Erhebungen beruht zu einem nicht unwesentlichem Teil auf subjektiver Einschätzung. Deshalb sollte man bei der Interpretation die getroffenen Entscheidungen in Relation zu ausdrücklich nicht-visualisierten Messdaten im Hinterkopf behalten.

Die hier getroffene Auswahl der Drogen basiert auf einer Liste der im gesamten Korpus absolut am häufigsten beschriebenen Drogen, wobei in diesem Fall nur Drogen im Einzelkonsum mit einbezogen wurden (eine detaillierte Beschreibung, wie diese Liste erstellt wurde, findet ihr hier). Die Anzahl der Drogen wurde zwecks Übersichtlichkeit auf 17 beschränkt. Wir entschieden uns dazu, häufig auftretenden Mischkonsum nicht miteinzubeziehen, da wir auf diese Weise eine höhere Trennschärfe in der Unterscheidung inhaltlicher Merkmale in der Berichterstattung zu spezifischen Drogensorten vermuteten. Auch die Wahl der Schlagwörter stellte uns vor einige Probleme, valide Ergebnisse zu erhalten. Um eine möglichst objektive Zusammenstellung zu gewährleisten, setzten wir die Schlagwortliste anhand der 13 frequentesten Substantive  im gesamten Korpus  fest. Die genaue Anzahl wurde wiederum nur aus Gründen der Übersichtlichkeit auf 13 beschränkt. Diese Auswahl ließ sich leicht in der IMS Open Corpus Workbench (CWB) über eine Suche nach normalen Nomen (Abfragesyntax: [pos="NN"]) und dem anschließenden Sortieren nach der Frequenz (Frequency Breakdown) erstellen und herunterladen:

CWB_NN

Um die letztendlich zu visualisierenden Werte – die relative Frequenz der Schlagwörter in Bezug zur jeweiligen Substanz – zu erhalten, mussten wir jetzt noch in einem Subkorpus, welches alle ausgewählten Drogen mit einschließt, nacheinander nach den jeweiligen Schlagwörtern suchen, deren Distribution bezüglich der Drogen ausgeben lassen und die Werte der relativen Frequenz (Frequenz pro Million Wörter) in einer CSV-Datei zusammenfassen. Zur Illustration sei hier ein Distributions-Beispiel aus der CWB für das Lemma Musik angegeben:

CWB_distribution 

Die aus diesem Vorgehen resultierenden Daten konnten anschließend problemlos in das Statistik- und Analysetool RStudio zur finalen Überarbeitung und Visualisierung importiert werden. Für unsere Zwecke erschien eine Darstellung als Heatmap besonders gut geeignet, da diese dann eingesetzt werden können, wenn sich – wie in unserem Fall – Datenbestände sinnvoll in zwei Dimensionen darstellen lassen. Weitere Pluspunkte dieser Darstellungsart sind das intuitive Verständnis durch die Skalierung mit Farben und die Möglichkeit, die erhobenen Daten in Ähnlichkeitscluster einteilen zu können. Mit einem relativ übersichtlichen R-Code resultierte daraus die folgende Visualisierung:

heatmap

In dieser Visualisierung sind nun alle erhobenen Daten übersichtlich zusammengefasst und können der Exploration und Deutung unterzogen werden. Bereits auf den ersten Blick wird der Vorteil dieser Darstellungsart ersichtlich: Die besonders stark rot gefärbten Bereiche stechen dem Betrachter ins Auge und bei genauerer Betrachtung lässt sich bei dem Schlagwort Trip eine typische Drogengruppe ausmachen. Durch die Auswertung der Messergebnisse kann bestätigt werden, dass von einem Drogentrip im Sprachgebrauch wohl hauptsächlich dann die Rede ist, wenn es sich bei den konsumierten Drogen um psychoaktive Substanzen handelt. So kann dieses Ähnlichkeitscluster leicht anhand des am linken Rand angefügten Baumdiagramms abgelesen werden und umfasst demnach die Drogen DXM, Hawaiianische Babyholzrose, DHM, Muskatnuss, Psilocybinhaltige Pilze, LSD, 2-CB und Salvia Divinorum. Laut dem Diagramm weisen außerdem Kratom und Katzenminze eine starke Ähnlichkeit auf. Besonders das äußerst frequente Schlagwort Wirkung unterscheidet diese beiden Drogen von den übrigen, allerdings sind auch Research Chemicals, MDMA, Lachgas, Speed, Salvia Divinorum und Muskatnuss bereits im dunkelorangen Bereich anzutreffen. Die Vermutung liegt nahe, dass es sich bei diesen Drogen hauptsächlich um nicht weit verbreitete oder nur schwer zugängliche Substanzen handelt und deshalb der Austausch über die Wirkungsweise im Vordergrund der Berichterstattung steht. Aber lässt sich auch die eingangs erwähnte Klasse der Partydrogen im Sprachgebrauch der Tripberichte wiederfinden? Die klassischen Partydrogen MDMA und Ecstasy weisen beispielsweise eine große Ähnlichkeit auf und haben gerade bei den Schlagwörtern Gefühl und Musik besonders hohe Werte, welche durchaus in einen Themenkomplex Party eingeordnet werden könnten. In diesen beiden Spalten sticht außerdem 2-CB als besonders potent hervor. Jedoch nähert sich diese Substanz unter Berücksichtigung der restlichen untersuchten Substantive eher den psychoaktiven Substanzen an. Es scheint also nicht lediglich ein Klassifikationsschema (z.B. Partydroge) auf dieses Rauschmittel zuzutreffen.

Mit diesem kurzen Interpretationsansatz sollte aufgezeigt werden, wie viel Potential in dieser doch recht übersichtlichen Visualisierung steckt und wie vielfältig eine solche Darstellung gelesen werden kann. Jedoch sei an dieser Stelle nochmals ausdrücklich auf die bereits angedeutete Problematik des Selektionsprozesses hingewiesen. So gerät man leicht in Versuchung, die in dieser Form vorliegenden Ergebnisse überzuinterpretieren. Um fundiertere Aussagen zu Themenkomplexen in Berichten zu Drogenerfahrungen treffen zu können, wären umfangreichere und vielfältigere Datenerhebungen vonnöten (beispielsweise eine größere Auswahl an Schlagwörtern und/oder eine Auflösung der Beschränkung auf Substantive).

Letztendlich kamen wir im Verlauf unseres Projektes aber zu dem Schluss, dass mit dieser Vorgehensweise der Inhaltsanalyse erhebliche Einschränkungen bezüglich der Datengrundlage nicht zu vermeiden sind und fanden in Form der Visualisierungen von Topic Models und N-Grammen eine wesentlich besser geeignete Methode, inhaltliche und themenspezifische Fragestellungen zu untersuchen.

Über welche Drogenerfahrungen wird am häufigsten berichtet?

Zu Beginn des Projektes interessierte uns vor allem, über welche Drogen am öftesten im Internet berichtet wird. Würde die Volksdroge Nr. 1 auch hier Spitzenreiter sein oder berichtet man im Internet nur über verbotene Substanzen? Würde sich der momentane mediale Hype um Crystal auch in unseren Daten niederschlagen? Wie untersucht man solche Fragen überhaupt? Und wie visualisiert man die Ergebnisse auf eine derartige Weise, dass auch ein der Thematik unbewanderter Rezipient Erkenntnisse daraus ziehen kann?

Das Land-der-Träume-Korpus ist nicht zuletzt auch insofern eine dankbare Untersuchungsgrundlage, da die knapp 4000 Tripberichte nach den darin beschriebenen Drogen kategorisiert sind, sodass ebendiese Drogenkategorien anschließend miteinander verglichen werden können. Allerdings sind die Einzeltexte nicht zwingend nur einer einzelnen Substanz zugeordnet, vielmehr kann der User selbst auswählen, ob es sich bei seinem Bericht um die Beschreibung eines isoliert konsumierten Mittels oder um eine Narration zu Auswirkungen eines Mischkonsums handelt. Um das Problem noch zu verkomplizieren, ist es dem Autor weiterhin möglich, die Reihenfolge der konsumierten Substanzen festzulegen. Ein Tripbericht über Mischkonsum von Cannabis und LSD wäre demnach anders einzuschätzen als einer über Mischkonsum von LSD und Cannabis – und zudem ist es unklar, ob es sich bei der festgelegten Reihenfolge um eine chronologische, quantitative oder qualitative Kategorisierung handelt. Überdies ist der Mischkonsum nicht auf zwei Elemente festgelegt, sondern kann beliebig viele Ingredienzien beinhalten:

Beispiel für Mischkonsum

Für die Untersuchung stellte sich uns folglich gleich vorweg die Frage, wie wir mit dieser Art von Textklassifikation umgehen sollten. Zum einen wollten wir einen “ungeschminkten” Sprachgebrauch untersuchen, der in den nach verschiedenen Substanzen kategorisierten Texte vorliegt. Dafür sind die Berichte über Mischkonsum mehr oder minder unbrauchbar. Zum anderen stand es natürlich auch nicht zur Debatte, jene Texte einfach wegfallen zu lassen, ohne adäquat ihre inhärente Kategorienverteilung zu untersuchen. Stichwort: USE ALL THE DATA

Das weitere Vorgehen bestand also darin, zunächst eine Rangliste der am häufigsten vorkommenden Tripberichte zu erstellen, die zu folgendem Ergebnis gelangte:

  1. Psilocybinhaltige Pilze 275
  2. Cannabis 239
  3. DXM 230
  4. Salvia Divinorum 107
  5. LSD 105
  6. Mischkonsum von Psilocybinhaltige Pilze und Cannabis 99
  7. Hawaiianische Baby-Holzrose 98
  8. Ecstasy 85
  9. DHM 70
  10. Mischkonsum von DXM und Cannabis 53
  11. Speed 47
  12. 2C-B 41
  13. Research Chemical 41
  14. Katzenminze 41
  15. Kratom 38
  16. Mischkonsum von DXM und DHM 37
  17. MDMA 37
  18. Mischkonsum von LSD und Cannabis 37
  19. Lachgas 34
  20. Muskatnuss 34
  21. keine Angabe 33
  22. Alkohol 31
  23. Mischkonsum von Ecstasy und Cannabis 30
  24. Mischkonsum von Cannabis und Psilocybinhaltige Pilze 30
  25. Mischkonsum von Cannabis und Alkohol 29
  26. … et cetera

Hinsichtlich unserer eingangs referierten Fragestellung ist hier bereits ein erstes Ergebnis zu verzeichnen: Alkohol landet auf einem abgeschlagenen 22. Platz, nur sieben Texte beschäftigen sich mit Crystal, was den 75. Rang bedeutet. Doch sind die Ergebnisse nur bedingt befriedigend, denn die Unübersichtlichkeit einer solchen Liste ist bereits hier im Blog ersichtlich: Um Werte aus dem oberen und unteren Ende der Aufzählung miteinander zu vergleichen, muss hoch und runter gescrollt werden, die rein numerischen Angaben lassen keine auf einen Blick fassbare Relationalität erkennen. Neben den rein optischen Mängeln ist außerdem die Aussagekraft der aus dem <drug>foo</drug> gewonnen xml-Tag dürftig: Es werden lediglich die absoluten Vorkommen jeder einzelnen Kombination gezählt, ohne die absolute Häufigkeit der sowohl einzeln als auch im Mischkonsum genannten Drogen zu berücksichtigen. Um die absolute Frequenz jeder kategorisierenden Drogennennung zu eruieren – sei es als Einzelvorkommen oder als Teil eines Mischkonsums – musste das Korpus mittels Perl-Scripts getrennt nach den Drogen im Einzelgebrauch und den Drogen im Mischkonsum durchforstet werden. Dieses Beispiel-Script extrahiert aus unserem Korpus sämtliche Nennungen von Drogen im Mischkonsum, zählt sie und gibt eine nach Anzahl geordnete Tabelle ähnlich der obigen als Output aus. Mit geringen Anpassungen lässt sich dieses Script auch für die Extraktion von beliebigen anderen Daten verwenden, so zum Beispiel für den Einzelkonsum.

Die absolute Häufigkeit der Drogenkategorien in Tripberichten auf Land der Träume bekommt man durch das Addieren der beiden jeweiligen Werte, jedoch gehen dadurch bereits gesammelte Informationen verloren: Mit einer Visualisierung der bereits gewonnenen Statistiken lässt sich dasselbe Ziel ohne Informationsverlust erreichen. Dafür braucht man lediglich eine entsprechend sortierte CSV-Datei und ein relativ kurzes Script für R:

Gestapeltes Balkendiagramm

Aus diesem mit RStudio erstellten Balkendiagramm ist durch die Sortierung nach Länge auf einen Blick ersichtlich, welche Droge am häufigsten zur Kategorisierung von Tripberichten verwendet wird, zudem ist das Verhältnis zwischen dem Auftreten in Mischkonsum- und Nicht-Mischkonsum-Kontexten ersichtlich. Des Weiteren zeigen sich vollkommen andere Ergebnisse als mit dem bloßen Auszählen des <drug>-Tags: Alkohol springt durch das berücksichtigte Auftreten im Mischkonsum auf den zweiten Platz, der Anteil von alkoholbezogenen Berichten ist also viel höher als zunächst angenommen, wenn man nicht nur reine Trinkgelage berücksichtigt. Cannabis steht mit überwältigendem Vorsprung an erster Stelle, sowohl was die Gesamtanzahl als auch den Mischkonsum angeht. Es lässt sich noch mehr aus diesem Graphen herauslesen: So scheinen psychedelische Drogen wie Psilocybinhaltige Pilze, DXM, Hawaiianische Babyholzrose und Salvia Divinorum in den Tripberichten eine höhere Tendenz zum Einzelkonsum zu besitzen (bei LSD und DHM ist die Tendenz nicht ganz so deutlich, aber auch vorhanden). Für Cannabis, Alkohol, Speed, Tabak und Kokain gilt laut den analysierten Daten das Gegenteil, jedoch sollte man daraus nicht ableiten, dass sie anscheinend eher in Kombination mit anderen Substanzen eingenommen als alleine. Der Rückschluss von den hier präsentierten Ergebnissen auf gesamtgesellschaftliche Konsumgewohnheiten ist nicht zulässig, da a) wahrscheinlich auf einer Internetplattform wie Land der Träume eine speziell stratifizierte Nutzergruppe zu finden ist, b) Tripberichte vermutlich nur dann überhaupt erstellt werden, wenn es etwas besonders Berichtenswertes darüber zu sagen gibt.

So stellt sich an dieser Stelle beispielsweise auch die Frage, wo denn das zu Beginn angesprochene Crystal im Schaubild abgeblieben ist: Es rangiert mit insgesamt 44 Beiträgen auf Platz 26 der häufigsten Tripberichte der Land-der-Träume-Community. Wie bereits im About-Bereich erwähnt, steht das Experimentieren mit und die technische Umsetzbarkeit von sprachdatenbezogenen Visualisierungen im Vordergrund dieses Projekts, weswegen hier nicht der Ort ist, um über Ursachen und Hintergründe der gewonnenen Einzelergebnisse zu mutmaßen: Korpusuntersuchungen und Visualisierungen sind letztlich auch konstruktive Akte, die ihre Untersuchungsgrundlage zumindest partiell auch selbst erzeugen. Ohne eine gründliche theoretische Auseinandersetzung mit sowohl den jeweiligen Daten (auch den nicht berücksichtigten) als auch der gewählten Methodik sollte nicht mehr als eine erste, vorsichtige Interpretationshandreichung formuliert werden.