Theoretische Implikationen und abschließende Reflexion

Der vorliegende Blog kann in erster Linie als Eruierung von Verbildlichungsprozeduren angesehen werden, die für den Methodenkanon der Korpuslinguistik geeignet erscheinen. Die Korpuslinguistik macht sich die fortschreitende Digitalisierung, die stetig rapide steigenden Rechenleistungen und die Möglichkeiten des Web 2.0 zunutze, um sehr große Mengen sprachlicher Daten als Repräsentanten gesellschaftlicher und kultureller Phänomene beschreibbar zu machen. Durch empirische Analyse des Sprachgebrauchs mithilfe statistischer Verfahren soll so Auskunft über Diskurse jeglicher Art gegeben werden. Die Resultate dieser korpuslinguistischen Untersuchungen präsentieren sich meist als Listen von Bezugsgrößen, in welchen unterschiedliche statistische Messungen integriert sind. An dieser Stelle stellt sich allerdings die Frage, wie Ergebnisse dieser Art interpretiert werden können, schließlich sind – je nach angewandter Methodik – ab einem gewissen Punkt womöglich höchst interessante Befunde und Korrelationen in den erhobenen Daten aufgrund der Unübersichtlichkeit der Darstellung nicht mehr wahrzunehmen. Daher sind brauchbare Visualisierungen als heuristisches Mittel keinesfalls lediglich als schmückendes Beiwerk zu betrachten, sondern gehören zu einem notwendigen Bereich des Methodenrepertoires, dessen Aufgabe es ist, korpuslinguistische Untersuchungen überhaupt fruchtbar zu machen.

Wie in unserem About nachzulesen ist, lag der Fokus unseres Projektes primär auf der praktischen Umsetzung von Visualisierungen, die es im besten Fall möglich machen sollten, aus den zugrundeliegenden Daten Erkenntnisse zu gewinnen, die ohne diese Form der Aufbereitung nur sehr schwer oder gar nicht zugänglich sind. Jedoch sollten einige theoretische Grundlagen, die wir während des Arbeitsprozesses immer im Hinterkopf behielten, nicht unerwähnt bleiben. Dabei sei hier in erster Linie auf das von Sybille Krämer entworfene Konzept der operativen Bildlichkeit hingewiesen, das versucht, eine theoretische Grundlage für eine in den Wissenschaften “neue auf die Versinnlichung von Unsichtbarem zielende Methodik” zu liefern. In diesem Rahmen formuliert Krämer sechs Kriterien, die visuelle Phänomene generell (Schrift ebenso, wie Graphen oder Karten) in ihrer jeweiligen Spezifität aufweisen und gleichzeitig graduell unterscheiden:

Es geht um (1) die Flächigkeit und mit ihr verbunden um die Zweidimensionalität und die Simultaneität des Präsentierten; um (2) die Gerichtetheit, mit der auf der Fläche eine Orientierung möglich wird; um (3) den Graphismus, für den die Präzision des Striches die Elementaroperation und Urszene bildet; um (4) die Syntaktizität, welche eine Grammatikalität wie auch die Lesbarkeit einschließt; um (5) die Referenzialität, mit der Repräsentation und transnaturale Abbildung eine Rolle spielen; schließlich (6) um die Operativität, die nicht nur Handhabbarkeit und Explorierbarkeit ermöglicht, sondern der zugleich eine gegenstandskonstituierende, eine generative Funktion zukommt.

Da, wie eingangs erläutert, die hier vorgestellten Visualisierungen hauptsächlich als heuristisches Werkzeug fungieren sollen, waren wir natürlich besonders darauf bedacht, eine größtmögliche Operativität im beschriebenen Sinne sicherzustellen. Bei unseren ersten Versuchen, die recht simpel strukturierten außersprachlichen Datensätze zur drogenspezifischen Beitragsanzahl und durchschnittlichen Wortanzahl und Satzlänge zu verbildlichen, konnte eine übersichtliche und gut lesbare Form durch herkömmliche Balkendiagramme realisiert werden. Dennoch fällten wir die Entscheidungen für das gestapelte Balkendiagramm (Beitragsanzahl) und der für unterschiedliche Daten mehrfach skalierten X-Achse (Wortanzahl und Satzlänge) nicht willkürlich, sondern aufgrund des dadurch entstehenden Informationsgewinns. Auf einen Blick können so nicht bloß die erhobenen Daten herausgelesen, sondern zusätzlich noch Beziehungen erkannt werden, die ansonsten unsichtbar geblieben wären. Aber je komplexer die zugrundeliegenden Daten ausfallen, desto komplexer werden auch die Visualisierungsansprüche; trotzdem soll weiterhin eine größtmögliche Operativität gewährleistet werden. Die inhaltlich orientierten Ansätze unseres Projektes stellten uns daher vor größere Schwierigkeiten im Verbildlichungsprozess. Auch die drogenspezifische Schlagwortanalyse hätte durchaus als Balkendiagramm veranschaulicht werden können, jedoch erhofften wir uns in Form der Heatmap einen explorativen Mehrwert: Die für die themenbezogene Inhaltsanalyse essenzielle Erkennbarkeit von Ähnlichkeiten zwischen den unterschiedlichen Drogensorten ist direkt mit in die Visualisierung integriert. Im rohen Datenmaterial und auch in Form von Balkendiagrammen wären diese Cluster wohl nur sehr schwer oder überhaupt nicht erkennbar gewesen. Bei der Visualisierung der Trigramme scheint der Aspekt der Operativität besonders augenscheinlich. Demnach wäre es schlicht aufgrund der Quantität der Belege unmöglich, auf der Grundlage einer Liste aller Trigramme des gesamten Korpus Aussagen über typische Sprachmuster zu treffen. Die hier gewählte Darstellung als Netzwerk drängt sich angesichts der inhärenten Struktur der Daten quasi auf. Durch die zusätzliche Feinjustierung in Gephi (Ähnlichkeitscluster, Knotengröße proportional zur Betweenness Centrality etc.) und die interaktive Darstellungsform kann so die Berechnung von Trigrammen als sprachanalytisches Werkzeug überhaupt erst konstruktiv eingesetzt werden. Der operative Charakter der Visualisierung der Topic Models ähnelt sehr stark dem der Visualisierung von Trigrammen. Die “operative Arbeit” erfolgte hier vielmehr im Hintergrund: Aus den Berechnungen durch Mallet musste überhaupt erst eine geeignete Datenstruktur generiert werden, die eine Darstellung in der vorliegenden Form ermöglicht. Dabei galt es, gründlich zu überlegen, welche Beziehungen letztendlich im Graphen berücksichtigt werden. Die zusätzlichen analogen Visualisierungsansätze zu Topic Models waren hauptsächlich dazu gedacht, auf eine andere Dimension von informativen Visualisierungen hinzuweisen, die durchaus maßgeblichen Einfluss auf deren Operativität haben könnte: Die Rolle der Ästhetik. So könnten ästhetische Eigenschaften wie schön oder interessant beispielsweise direkten, relationalen Einfluss auf Aufmerksamkeitsspanne und -intensität haben und somit indirekt den operativen Wert steigern. An dieser Stelle soll nun keine erschöpfende theoretische Reflexion zu diesem Thema erfolgen, sondern es war uns ein besonderes Anliegen, wenigstens auf diese eine Problematik hinzuweisen, die unseres Erachtens in vielen Fällen von Informationsvisualisierungen vernachlässigt wird.

Zum Abschluss sei noch einmal auf die bereits mehrfach angesprochene Problematik von datengeleiteter Analyse generell und Visualisierungen speziell hingewiesen: Die Erhebung und Aufbereitung von Daten stellt immer auch einen Selektionsprozess dar, weshalb die anschließende Verarbeitung auch niemals absolut wertfreie und im klassischen Sinne objektive Ergebnisse liefern kann (Warum Trigramme und nicht Bi- oder Tetragramme? Warum sieben und nicht zehn oder zwölf Topics mit je fünfzehn oder zwanzig, statt achtzehn dazugehörigen Lemmata? usw.). Um Visualisierungen als heuristisches Mittel nutzen zu können, ist immer auf Transparenz der Vorgehensweise durch detaillierte Dokumentation zu achten — das gilt insbesondere für die hier vorgestellten Resultate, die keineswegs eine wie auch immer geartete “Realität” hinter den Daten aufzudecken suchen, sondern mehrheitlich das Produkt pragmatischer Überlegungen und Entscheidungsprozesse sind.

Visualisierung von Trigrammen in Gephi

Da sich der Hauptteil dieses Projektes mit den themengebundenen Inhalten von Schilderungen über diverse Rauschzustände befasst, suchten wir mitunter nach geeigneten Methoden, spezifische Textmuster dieser Textsorte offenzulegen, um so Aufschluss über generelle Merkmale der Textgestaltung von Tripberichten zu erhalten. Für dieses Anliegen bietet sich in besonderem Maße die Untersuchung von N-Grammen an, welche das aufeinanderfolgende Auftreten von N Fragmenten eines Textes bezeichnen. In unserem Falle entschieden wir uns dafür, Trigramme auf Wortebene als Datengrundlage für unsere Visualisierungsversuche zu verwenden. Beim Trigramm handelt es sich demnach um ein Hyponym zu N-Gramm mit drei Elementen, also N = 3. Im gegebenen Fall lässt sich auf diese Weise, die Typizität von Rauscherfahrungen besser beschreiben, weshalb diese Analysestrategie außerdem ein probates Mittel darstellt, generell zur Aufklärung über die Charakteristika und Wirkungsweisen unterschiedlichster Drogen beizutragen. Die Visualisierung der Trigramme erfolgte schließlich mittels Gephi, einer mächtigen Visualisierungssoftware für alle erdenklichen Arten von Netzwerken.

Als erstes galt es nun, die Datengrundlage für die weitere Verarbeitung zu schaffen: Dafür mussten aus dem Korpus zunächst alle Trigramme mithilfe eines Perl-Scripts extrahiert werden. Das ursprüngliche Korpus wurde allerdings bereits im Hinblick auf die Übersichtlichkeit der anschließenden Visualisierung dahingehend modifiziert, dass typischerweise sehr häufig auftretende Funktionswörter, welche inhaltlich keine besondere Aussagekraft besitzen, aus dem Datenmaterial entfernt wurden. Das Perl-Script geht nun Schritt für Schritt das gesamte Korpus durch und speichert nacheinander alle Verbindung drei aufeinanderfolgender Lemmata ab. Gleichzeitig werden sukzedan exakt gleiche Trigramme gezählt. Bei der Größe des Korpus’ erschien es uns sinnvoll, eine erforderliche Mindestfrequenz von 3 Vorkommen je Trigramm festzulegen. Die so erfassten Daten werden schließlich in einem für Gephi optimierten Format als TXT-Datei gespeichert. Das Resultat sieht folgendermaßen aus:

ngrams_gephi

Gephi übersetzt nun aus den in dieser Form vorliegenden Daten die einzelnen Wörter in Knoten, die jeweilige Verbindung in Kanten und die Anzahl der Verbindungen in das dazugehörige Kantengewicht. Folglich würde beispielsweise Zeile 15 für sich betrachtet, als Graph mit drei Knoten (unglaublich, stark, Euphorie), die untereinander durch Kanten mit der Kantenstärke 3 verbunden sind, erscheinen. Auf diese Weise entsteht ein Geflecht von unterschiedlich gewichteten Knotenverbindungen, wodurch es möglich gemacht wird, diverse hierarchische Strukturen visualisieren zu können. Nebst dieser grundlegenden Funktionsweise bietet das Visualisierungstool darüber hinaus noch etliche bereits integrierte statistische Verfahren zur individuellen Modifikation eigener Graphen an. Im Internet besteht eine breite Vielfalt an Tutorials und Anleitungen die von Gephi implementierten Möglichkeiten der Datenaufbereitung gewinnbringend für persönliche Forschungsinteressen einzusetzen. Für die Umsetzung unseres Vorhabens erwies sich dieses Tutorial als sehr hilfreich. Zunächst wählten wir für unseren Graphen das Layoutmodul Force Atlas, mit dem die grundlegende Bezugsstruktur zwischen den einzelnen Knoten durch einen mathematische Algorithmus bestimmt wird, wobei einzelne Parameter (z. B. Repulsion Strength, Attraction Strength) manuell angepasst werden können. Desweiteren wurden Größe und Farbe der Knoten angepasst und mit den dazugehörigen Bezeichnungen (labels) versehen, die proportinal zur jeweiligen Knotengröße erscheinen. Zentral für diesen Vorgang ist die Berechnung der Betweenness Centrality, die für jeden Knoten misst, wie oft er auf dem kürzesten Weg zwischen zwei zufälligen Knoten im Netz auftritt. So kann der Einfluss jedes Knotens bestimmt und Größe und Farbe entsprechend angepasst werden. Um nun noch die für die Visualisierungen von Netzwerken essenzielle Zusammengehörigkeit zwischen einzelnen Verbindungen zu semantisieren, werden in einem weiteren Schritt die Modularity Classes ermittelt. Diese ermöglichen es, Knoten mit signifikant häufigen Verbindungen untereinander in Cluster zusammenzufassen, die wiederum entsprechend koloriert werden können. Um eine bessere Übersichtlichkeit des Graphen zu erhalten, wurden zuletzt noch Knoten mit verschwindend geringer oder übermäßig hoher Verbindungsanzahl (degree) herausgefiltert. Übermäßig hohe Verbindungszahlen wiesen lediglich noch einige wenige übrig gebliebene Funktionswörter auf, die gar nicht erst im Graphen hätten erscheinen sollen. Nach dem Durchlaufen der geschilderten Prozedur ließ sich unsere Visualisierung der Trigramme folgendermaßen exportieren:

ngrams_gephi_graph

Aus diesem Graphen lassen sich bereits erste Rückschlüsse über spezifische Textmuster und Themencluster ziehen, so sind diese anhand der zugeordneten Farben leicht zu erkennen. Will man allerdings einzelne Sprachmuster genauer untersuchen, ist es aufgrund der Masse an Daten sehr mühselig und teilweise sogar unmöglich gehaltvolle Aussagen zu treffen. Aus diesem Grund entschieden wir uns dafür, das Gephi-Plugin sigma.js-Exporter zu verwenden, welches es uns möglich machte, eine interaktive Version unserer Visualisierung auf einen Server zu laden und diese so öffentlich zugänglich zu machen. Das Endprodukt könnt ihr durch Klicken auf den Screenshot selbst begutachten:

ngram_interactive

In dieser Form der Darstellung ist es möglich jeden einzelnen Knoten individuell zu betrachten: Indem man mit dem Mauszeiger über einen Knoten fährt, werden alle ihm zugehörigen Verbindungen hervorgehoben. Zudem öffnet sich durch Anklicken eines Punktes auf der rechten Seite ein Feld, in dem die entsprechenden Zusatzinformationen aufgelistet sind (statistische Werte, eingehende und wegführende Verbindungen). Außerdem können mithilfe des Suchfeldes auf der linken Seite gezielt bestimmten Lemmata und deren Vernetzung ausgegeben werden. Sehr nützlich ist auch die verfügbare Option, jeweils alle Vertreter eines Ähnlichkeitsclusters über die Schaltfläche Group Selector auf einmal auszuwählen. So scheint beispielsweise Gruppe sechs vornehmlich Textmuster zu enthalten, die auf eher negative Erfahrungen des Drogenkonsums hinweisen. So beinhaltet diese Gruppe Verbindungen wie, panische Angst bekommen oder absolut/pur Horror. Gruppe drei scheint mit Mitgliedslemmata, wie Wirkung, Effekt, Euphorie oder Optik Textbausteine zu enthalten, die für die Beschreibung der Wirkungsweise von speziellen Substanzen essenziell sind.

Aber: Da es nicht das Ziel unseres Projektes war, vollständige Interpretationen zu den einzelnen Visualisierungen zu liefern, sondern hauptsächlich deren Funktionsweise zu erläutern und sich die hier besprochene Methode aufgrund ihres interaktiven Charakters und der großen Fülle der enthaltenen Daten besonders für die eigenständige Exploration anbietet, könnt ihr euch nun selbst in den Datenrausch der Rauschdaten vertiefen!

Drogenspezifische Schlagwortanalyse

Einige der spannendsten Fragen, die sich uns bereits beim Brainstorming über die sprachlichen Rauschdaten auftaten, waren inhaltlicher Natur: Worüber genau wird in den Texten überhaupt berichtet, was sind die Themen und wie sehr unterscheiden sich diese in Bezug auf die jeweiligen Drogen? Diese Fragen erschienen uns gerade im Hinblick auf tatsächliche Konsumgewohnheiten und typische Tripabläufe einerseits und die eigentliche Wirkungsweise der Drogen und die damit einhergehenden subjektiven Empfindungen andererseits als besonders interessant. Lässt sich also durch empirische Analyse des rohen Sprachmaterials beispielsweise so etwas wie eine Klasse der Partydrogen identifizieren oder erweist sich das Themengeflecht der Tripberichte doch eher als diffus?

Unser erster Zugang zu diesem Themenkomplex bildet die Analyse der im gesamten Korpus am häufigsten vorkommenden Substantive in Relation zu den in den Korpustexten frequentesten Drogen im Einzelkonsum. Allerdings werden bereits hier einige Schwierigkeiten der datengeleiteten Analyse sichtbar: Der Vorgang der Visualisierung bedeutet immer auch Selektion. Die Auswahl der letzendlich veranschaulichten statistischen Erhebungen beruht zu einem nicht unwesentlichem Teil auf subjektiver Einschätzung. Deshalb sollte man bei der Interpretation die getroffenen Entscheidungen in Relation zu ausdrücklich nicht-visualisierten Messdaten im Hinterkopf behalten.

Die hier getroffene Auswahl der Drogen basiert auf einer Liste der im gesamten Korpus absolut am häufigsten beschriebenen Drogen, wobei in diesem Fall nur Drogen im Einzelkonsum mit einbezogen wurden (eine detaillierte Beschreibung, wie diese Liste erstellt wurde, findet ihr hier). Die Anzahl der Drogen wurde zwecks Übersichtlichkeit auf 17 beschränkt. Wir entschieden uns dazu, häufig auftretenden Mischkonsum nicht miteinzubeziehen, da wir auf diese Weise eine höhere Trennschärfe in der Unterscheidung inhaltlicher Merkmale in der Berichterstattung zu spezifischen Drogensorten vermuteten. Auch die Wahl der Schlagwörter stellte uns vor einige Probleme, valide Ergebnisse zu erhalten. Um eine möglichst objektive Zusammenstellung zu gewährleisten, setzten wir die Schlagwortliste anhand der 13 frequentesten Substantive  im gesamten Korpus  fest. Die genaue Anzahl wurde wiederum nur aus Gründen der Übersichtlichkeit auf 13 beschränkt. Diese Auswahl ließ sich leicht in der IMS Open Corpus Workbench (CWB) über eine Suche nach normalen Nomen (Abfragesyntax: [pos="NN"]) und dem anschließenden Sortieren nach der Frequenz (Frequency Breakdown) erstellen und herunterladen:

CWB_NN

Um die letztendlich zu visualisierenden Werte – die relative Frequenz der Schlagwörter in Bezug zur jeweiligen Substanz – zu erhalten, mussten wir jetzt noch in einem Subkorpus, welches alle ausgewählten Drogen mit einschließt, nacheinander nach den jeweiligen Schlagwörtern suchen, deren Distribution bezüglich der Drogen ausgeben lassen und die Werte der relativen Frequenz (Frequenz pro Million Wörter) in einer CSV-Datei zusammenfassen. Zur Illustration sei hier ein Distributions-Beispiel aus der CWB für das Lemma Musik angegeben:

CWB_distribution 

Die aus diesem Vorgehen resultierenden Daten konnten anschließend problemlos in das Statistik- und Analysetool RStudio zur finalen Überarbeitung und Visualisierung importiert werden. Für unsere Zwecke erschien eine Darstellung als Heatmap besonders gut geeignet, da diese dann eingesetzt werden können, wenn sich – wie in unserem Fall – Datenbestände sinnvoll in zwei Dimensionen darstellen lassen. Weitere Pluspunkte dieser Darstellungsart sind das intuitive Verständnis durch die Skalierung mit Farben und die Möglichkeit, die erhobenen Daten in Ähnlichkeitscluster einteilen zu können. Mit einem relativ übersichtlichen R-Code resultierte daraus die folgende Visualisierung:

heatmap

In dieser Visualisierung sind nun alle erhobenen Daten übersichtlich zusammengefasst und können der Exploration und Deutung unterzogen werden. Bereits auf den ersten Blick wird der Vorteil dieser Darstellungsart ersichtlich: Die besonders stark rot gefärbten Bereiche stechen dem Betrachter ins Auge und bei genauerer Betrachtung lässt sich bei dem Schlagwort Trip eine typische Drogengruppe ausmachen. Durch die Auswertung der Messergebnisse kann bestätigt werden, dass von einem Drogentrip im Sprachgebrauch wohl hauptsächlich dann die Rede ist, wenn es sich bei den konsumierten Drogen um psychoaktive Substanzen handelt. So kann dieses Ähnlichkeitscluster leicht anhand des am linken Rand angefügten Baumdiagramms abgelesen werden und umfasst demnach die Drogen DXM, Hawaiianische Babyholzrose, DHM, Muskatnuss, Psilocybinhaltige Pilze, LSD, 2-CB und Salvia Divinorum. Laut dem Diagramm weisen außerdem Kratom und Katzenminze eine starke Ähnlichkeit auf. Besonders das äußerst frequente Schlagwort Wirkung unterscheidet diese beiden Drogen von den übrigen, allerdings sind auch Research Chemicals, MDMA, Lachgas, Speed, Salvia Divinorum und Muskatnuss bereits im dunkelorangen Bereich anzutreffen. Die Vermutung liegt nahe, dass es sich bei diesen Drogen hauptsächlich um nicht weit verbreitete oder nur schwer zugängliche Substanzen handelt und deshalb der Austausch über die Wirkungsweise im Vordergrund der Berichterstattung steht. Aber lässt sich auch die eingangs erwähnte Klasse der Partydrogen im Sprachgebrauch der Tripberichte wiederfinden? Die klassischen Partydrogen MDMA und Ecstasy weisen beispielsweise eine große Ähnlichkeit auf und haben gerade bei den Schlagwörtern Gefühl und Musik besonders hohe Werte, welche durchaus in einen Themenkomplex Party eingeordnet werden könnten. In diesen beiden Spalten sticht außerdem 2-CB als besonders potent hervor. Jedoch nähert sich diese Substanz unter Berücksichtigung der restlichen untersuchten Substantive eher den psychoaktiven Substanzen an. Es scheint also nicht lediglich ein Klassifikationsschema (z.B. Partydroge) auf dieses Rauschmittel zuzutreffen.

Mit diesem kurzen Interpretationsansatz sollte aufgezeigt werden, wie viel Potential in dieser doch recht übersichtlichen Visualisierung steckt und wie vielfältig eine solche Darstellung gelesen werden kann. Jedoch sei an dieser Stelle nochmals ausdrücklich auf die bereits angedeutete Problematik des Selektionsprozesses hingewiesen. So gerät man leicht in Versuchung, die in dieser Form vorliegenden Ergebnisse überzuinterpretieren. Um fundiertere Aussagen zu Themenkomplexen in Berichten zu Drogenerfahrungen treffen zu können, wären umfangreichere und vielfältigere Datenerhebungen vonnöten (beispielsweise eine größere Auswahl an Schlagwörtern und/oder eine Auflösung der Beschränkung auf Substantive).

Letztendlich kamen wir im Verlauf unseres Projektes aber zu dem Schluss, dass mit dieser Vorgehensweise der Inhaltsanalyse erhebliche Einschränkungen bezüglich der Datengrundlage nicht zu vermeiden sind und fanden in Form der Visualisierungen von Topic Models und N-Grammen eine wesentlich besser geeignete Methode, inhaltliche und themenspezifische Fragestellungen zu untersuchen.

Datengrundlage

Dieses Projekt setzt es sich zum Ziel, mithilfe von Visualisierungen eine bessere Exploration großer Mengen sprachlicher Daten möglich zu machen. In unserem Falle beziehen sich diese Daten auf Berichte unterschiedlichster Drogentrips, wie sie auf der Internetplattform Land der Träume öffentlich zugänglich sind. Die von den Betreibern deklarierte Intention der Seite ist die unvoreingenommene Präsentation von individuellen Rauscherfahrungen und die Bereitstellung von möglichst objektiven Informationen, um die Nutzer in ihrem eigenverantwortlichem Handeln zu unterstützen:

Das Land der Träume (LdT) ist eine Seite für Interessierte und Konsumenten, aber keine Seite die pauschal “pro Drogen” ist. Drogen haben viel Potential, Drogen sind sehr gefährlich. Beide Seiten zu verstehen ist wichtig.

Wir erhoffen uns, mit dieser datengeleiteten Herangehensweise weiteren Aufschluss über das gesellschaftlich in weiten Teilen tabuisierte Thema Drogen zu erlangen. Im Speziellen interessiert uns das Potenzial visueller Methoden, die Versprachlichung derartiger Erfahrungen nachvollziehen und spezifische sprachliche Muster aufspüren zu können.

Aus dem reichen Fundus dieser Webseite wurde daher von Prof. Dr. Joachim Scharloth ein für linguistische Zwecke aufbereitetes Korpus generiert, welches uns als Basis für weitere korpuslinguistische Untersuchungen und die darauf aufbauenden Visualisierungen diente. Das Korpus umfasst insgesamt 3860 Texte, die insgesamt über 5,15 Millionen Tokens enthalten, und ist zum einen mit allgemeinen Metadaten (z. B. Textautor, Erstellungsdatum, beschriebene Droge, Bewertung der Online-Community, Set bzw. Setting des Drogentrips), zum anderen mit spezifisch linguistischen Zusatzinformationen zur Grundform (Lemma) und Wortart (Part-of-speech Tagging) jedes Tokens annotiert:

Korpus_Beispiel

In dieser Form bietet das Korpus vielfältige Möglichkeiten, geeignete Daten für anschließende Visualisierungen zu erheben. Bei der Eruierung unterschiedlicher Optionen der Datengewinnung erschien es uns sinnvoll, als ersten Ansatzpunkt das Korpus in die  IMS Open Corpus Workbench (CWB)  zu importieren. Die CWB ”ist eine Konkordanz- und Korpusanalyse-Software, mit der eigene Korpora, die mit linguistischen Annotationen versehen sind, bearbeitet werden können.” Im Webinterface dieses Programms ist es sehr einfach möglich, korpuslinguistische Basisberechnungen (u. a. Kollokationen, Distribution, Keywords) durchzuführen und deren Ergebnisse direkt als TXT-Datei herunterzuladen. Um das Korpus in die CWB einzuspeisen, war es jedoch vorerst nötig, das Korpus mittels eines Perl-Scripts und Modifikation durch Reguläre Ausdrücke in ein für diese Software kompatibles Format zu bringen. Nach erfolgreichem Import konnten wir bereits einige interessante Daten ermitteln und uns an ersten Visualisierungsmethoden versuchen. Wir mussten allerdings bald feststellen, dass die Datenerhebung in der CWB zwar schnell und mit geringem Aufwand zu realisieren ist, aber für spezifische Fragestellungen nicht die erforderliche Flexibilität aufweist.

Daher gingen wir im Weiteren hauptsächlich dazu über, die zu visualisierenden Daten mithilfe der Programmiersprache Perl direkt aus der Korpusdatei zu extrahieren. Auf diese Weise war es uns besser möglich, die Daten unseren jeweiligen VIsualisierungsinteressen anzupassen.

Das exakte Vorgehen der Datenbeschaffung und -aufbereitung und die vollständige Dokumentation unserer Visualisierungsversuche findet ihr in den jeweiligen Blogposts, die ihr über die Seitenleiste links ansteuern könnt.