Drogenspezifische Schlagwortanalyse

Einige der spannendsten Fragen, die sich uns bereits beim Brainstorming über die sprachlichen Rauschdaten auftaten, waren inhaltlicher Natur: Worüber genau wird in den Texten überhaupt berichtet, was sind die Themen und wie sehr unterscheiden sich diese in Bezug auf die jeweiligen Drogen? Diese Fragen erschienen uns gerade im Hinblick auf tatsächliche Konsumgewohnheiten und typische Tripabläufe einerseits und die eigentliche Wirkungsweise der Drogen und die damit einhergehenden subjektiven Empfindungen andererseits als besonders interessant. Lässt sich also durch empirische Analyse des rohen Sprachmaterials beispielsweise so etwas wie eine Klasse der Partydrogen identifizieren oder erweist sich das Themengeflecht der Tripberichte doch eher als diffus?

Unser erster Zugang zu diesem Themenkomplex bildet die Analyse der im gesamten Korpus am häufigsten vorkommenden Substantive in Relation zu den in den Korpustexten frequentesten Drogen im Einzelkonsum. Allerdings werden bereits hier einige Schwierigkeiten der datengeleiteten Analyse sichtbar: Der Vorgang der Visualisierung bedeutet immer auch Selektion. Die Auswahl der letzendlich veranschaulichten statistischen Erhebungen beruht zu einem nicht unwesentlichem Teil auf subjektiver Einschätzung. Deshalb sollte man bei der Interpretation die getroffenen Entscheidungen in Relation zu ausdrücklich nicht-visualisierten Messdaten im Hinterkopf behalten.

Die hier getroffene Auswahl der Drogen basiert auf einer Liste der im gesamten Korpus absolut am häufigsten beschriebenen Drogen, wobei in diesem Fall nur Drogen im Einzelkonsum mit einbezogen wurden (eine detaillierte Beschreibung, wie diese Liste erstellt wurde, findet ihr hier). Die Anzahl der Drogen wurde zwecks Übersichtlichkeit auf 17 beschränkt. Wir entschieden uns dazu, häufig auftretenden Mischkonsum nicht miteinzubeziehen, da wir auf diese Weise eine höhere Trennschärfe in der Unterscheidung inhaltlicher Merkmale in der Berichterstattung zu spezifischen Drogensorten vermuteten. Auch die Wahl der Schlagwörter stellte uns vor einige Probleme, valide Ergebnisse zu erhalten. Um eine möglichst objektive Zusammenstellung zu gewährleisten, setzten wir die Schlagwortliste anhand der 13 frequentesten Substantive  im gesamten Korpus  fest. Die genaue Anzahl wurde wiederum nur aus Gründen der Übersichtlichkeit auf 13 beschränkt. Diese Auswahl ließ sich leicht in der IMS Open Corpus Workbench (CWB) über eine Suche nach normalen Nomen (Abfragesyntax: [pos="NN"]) und dem anschließenden Sortieren nach der Frequenz (Frequency Breakdown) erstellen und herunterladen:

CWB_NN

Um die letztendlich zu visualisierenden Werte – die relative Frequenz der Schlagwörter in Bezug zur jeweiligen Substanz – zu erhalten, mussten wir jetzt noch in einem Subkorpus, welches alle ausgewählten Drogen mit einschließt, nacheinander nach den jeweiligen Schlagwörtern suchen, deren Distribution bezüglich der Drogen ausgeben lassen und die Werte der relativen Frequenz (Frequenz pro Million Wörter) in einer CSV-Datei zusammenfassen. Zur Illustration sei hier ein Distributions-Beispiel aus der CWB für das Lemma Musik angegeben:

CWB_distribution 

Die aus diesem Vorgehen resultierenden Daten konnten anschließend problemlos in das Statistik- und Analysetool RStudio zur finalen Überarbeitung und Visualisierung importiert werden. Für unsere Zwecke erschien eine Darstellung als Heatmap besonders gut geeignet, da diese dann eingesetzt werden können, wenn sich – wie in unserem Fall – Datenbestände sinnvoll in zwei Dimensionen darstellen lassen. Weitere Pluspunkte dieser Darstellungsart sind das intuitive Verständnis durch die Skalierung mit Farben und die Möglichkeit, die erhobenen Daten in Ähnlichkeitscluster einteilen zu können. Mit einem relativ übersichtlichen R-Code resultierte daraus die folgende Visualisierung:

heatmap

In dieser Visualisierung sind nun alle erhobenen Daten übersichtlich zusammengefasst und können der Exploration und Deutung unterzogen werden. Bereits auf den ersten Blick wird der Vorteil dieser Darstellungsart ersichtlich: Die besonders stark rot gefärbten Bereiche stechen dem Betrachter ins Auge und bei genauerer Betrachtung lässt sich bei dem Schlagwort Trip eine typische Drogengruppe ausmachen. Durch die Auswertung der Messergebnisse kann bestätigt werden, dass von einem Drogentrip im Sprachgebrauch wohl hauptsächlich dann die Rede ist, wenn es sich bei den konsumierten Drogen um psychoaktive Substanzen handelt. So kann dieses Ähnlichkeitscluster leicht anhand des am linken Rand angefügten Baumdiagramms abgelesen werden und umfasst demnach die Drogen DXM, Hawaiianische Babyholzrose, DHM, Muskatnuss, Psilocybinhaltige Pilze, LSD, 2-CB und Salvia Divinorum. Laut dem Diagramm weisen außerdem Kratom und Katzenminze eine starke Ähnlichkeit auf. Besonders das äußerst frequente Schlagwort Wirkung unterscheidet diese beiden Drogen von den übrigen, allerdings sind auch Research Chemicals, MDMA, Lachgas, Speed, Salvia Divinorum und Muskatnuss bereits im dunkelorangen Bereich anzutreffen. Die Vermutung liegt nahe, dass es sich bei diesen Drogen hauptsächlich um nicht weit verbreitete oder nur schwer zugängliche Substanzen handelt und deshalb der Austausch über die Wirkungsweise im Vordergrund der Berichterstattung steht. Aber lässt sich auch die eingangs erwähnte Klasse der Partydrogen im Sprachgebrauch der Tripberichte wiederfinden? Die klassischen Partydrogen MDMA und Ecstasy weisen beispielsweise eine große Ähnlichkeit auf und haben gerade bei den Schlagwörtern Gefühl und Musik besonders hohe Werte, welche durchaus in einen Themenkomplex Party eingeordnet werden könnten. In diesen beiden Spalten sticht außerdem 2-CB als besonders potent hervor. Jedoch nähert sich diese Substanz unter Berücksichtigung der restlichen untersuchten Substantive eher den psychoaktiven Substanzen an. Es scheint also nicht lediglich ein Klassifikationsschema (z.B. Partydroge) auf dieses Rauschmittel zuzutreffen.

Mit diesem kurzen Interpretationsansatz sollte aufgezeigt werden, wie viel Potential in dieser doch recht übersichtlichen Visualisierung steckt und wie vielfältig eine solche Darstellung gelesen werden kann. Jedoch sei an dieser Stelle nochmals ausdrücklich auf die bereits angedeutete Problematik des Selektionsprozesses hingewiesen. So gerät man leicht in Versuchung, die in dieser Form vorliegenden Ergebnisse überzuinterpretieren. Um fundiertere Aussagen zu Themenkomplexen in Berichten zu Drogenerfahrungen treffen zu können, wären umfangreichere und vielfältigere Datenerhebungen vonnöten (beispielsweise eine größere Auswahl an Schlagwörtern und/oder eine Auflösung der Beschränkung auf Substantive).

Letztendlich kamen wir im Verlauf unseres Projektes aber zu dem Schluss, dass mit dieser Vorgehensweise der Inhaltsanalyse erhebliche Einschränkungen bezüglich der Datengrundlage nicht zu vermeiden sind und fanden in Form der Visualisierungen von Topic Models und N-Grammen eine wesentlich besser geeignete Methode, inhaltliche und themenspezifische Fragestellungen zu untersuchen.

Hinterlasse eine Antwort

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *

Du kannst folgende HTML-Tags benutzen: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>