Theoretische Implikationen und abschließende Reflexion

Der vorliegende Blog kann in erster Linie als Eruierung von Verbildlichungsprozeduren angesehen werden, die für den Methodenkanon der Korpuslinguistik geeignet erscheinen. Die Korpuslinguistik macht sich die fortschreitende Digitalisierung, die stetig rapide steigenden Rechenleistungen und die Möglichkeiten des Web 2.0 zunutze, um sehr große Mengen sprachlicher Daten als Repräsentanten gesellschaftlicher und kultureller Phänomene beschreibbar zu machen. Durch empirische Analyse des Sprachgebrauchs mithilfe statistischer Verfahren soll so Auskunft über Diskurse jeglicher Art gegeben werden. Die Resultate dieser korpuslinguistischen Untersuchungen präsentieren sich meist als Listen von Bezugsgrößen, in welchen unterschiedliche statistische Messungen integriert sind. An dieser Stelle stellt sich allerdings die Frage, wie Ergebnisse dieser Art interpretiert werden können, schließlich sind – je nach angewandter Methodik – ab einem gewissen Punkt womöglich höchst interessante Befunde und Korrelationen in den erhobenen Daten aufgrund der Unübersichtlichkeit der Darstellung nicht mehr wahrzunehmen. Daher sind brauchbare Visualisierungen als heuristisches Mittel keinesfalls lediglich als schmückendes Beiwerk zu betrachten, sondern gehören zu einem notwendigen Bereich des Methodenrepertoires, dessen Aufgabe es ist, korpuslinguistische Untersuchungen überhaupt fruchtbar zu machen.

Wie in unserem About nachzulesen ist, lag der Fokus unseres Projektes primär auf der praktischen Umsetzung von Visualisierungen, die es im besten Fall möglich machen sollten, aus den zugrundeliegenden Daten Erkenntnisse zu gewinnen, die ohne diese Form der Aufbereitung nur sehr schwer oder gar nicht zugänglich sind. Jedoch sollten einige theoretische Grundlagen, die wir während des Arbeitsprozesses immer im Hinterkopf behielten, nicht unerwähnt bleiben. Dabei sei hier in erster Linie auf das von Sybille Krämer entworfene Konzept der operativen Bildlichkeit hingewiesen, das versucht, eine theoretische Grundlage für eine in den Wissenschaften “neue auf die Versinnlichung von Unsichtbarem zielende Methodik” zu liefern. In diesem Rahmen formuliert Krämer sechs Kriterien, die visuelle Phänomene generell (Schrift ebenso, wie Graphen oder Karten) in ihrer jeweiligen Spezifität aufweisen und gleichzeitig graduell unterscheiden:

Es geht um (1) die Flächigkeit und mit ihr verbunden um die Zweidimensionalität und die Simultaneität des Präsentierten; um (2) die Gerichtetheit, mit der auf der Fläche eine Orientierung möglich wird; um (3) den Graphismus, für den die Präzision des Striches die Elementaroperation und Urszene bildet; um (4) die Syntaktizität, welche eine Grammatikalität wie auch die Lesbarkeit einschließt; um (5) die Referenzialität, mit der Repräsentation und transnaturale Abbildung eine Rolle spielen; schließlich (6) um die Operativität, die nicht nur Handhabbarkeit und Explorierbarkeit ermöglicht, sondern der zugleich eine gegenstandskonstituierende, eine generative Funktion zukommt.

Da, wie eingangs erläutert, die hier vorgestellten Visualisierungen hauptsächlich als heuristisches Werkzeug fungieren sollen, waren wir natürlich besonders darauf bedacht, eine größtmögliche Operativität im beschriebenen Sinne sicherzustellen. Bei unseren ersten Versuchen, die recht simpel strukturierten außersprachlichen Datensätze zur drogenspezifischen Beitragsanzahl und durchschnittlichen Wortanzahl und Satzlänge zu verbildlichen, konnte eine übersichtliche und gut lesbare Form durch herkömmliche Balkendiagramme realisiert werden. Dennoch fällten wir die Entscheidungen für das gestapelte Balkendiagramm (Beitragsanzahl) und der für unterschiedliche Daten mehrfach skalierten X-Achse (Wortanzahl und Satzlänge) nicht willkürlich, sondern aufgrund des dadurch entstehenden Informationsgewinns. Auf einen Blick können so nicht bloß die erhobenen Daten herausgelesen, sondern zusätzlich noch Beziehungen erkannt werden, die ansonsten unsichtbar geblieben wären. Aber je komplexer die zugrundeliegenden Daten ausfallen, desto komplexer werden auch die Visualisierungsansprüche; trotzdem soll weiterhin eine größtmögliche Operativität gewährleistet werden. Die inhaltlich orientierten Ansätze unseres Projektes stellten uns daher vor größere Schwierigkeiten im Verbildlichungsprozess. Auch die drogenspezifische Schlagwortanalyse hätte durchaus als Balkendiagramm veranschaulicht werden können, jedoch erhofften wir uns in Form der Heatmap einen explorativen Mehrwert: Die für die themenbezogene Inhaltsanalyse essenzielle Erkennbarkeit von Ähnlichkeiten zwischen den unterschiedlichen Drogensorten ist direkt mit in die Visualisierung integriert. Im rohen Datenmaterial und auch in Form von Balkendiagrammen wären diese Cluster wohl nur sehr schwer oder überhaupt nicht erkennbar gewesen. Bei der Visualisierung der Trigramme scheint der Aspekt der Operativität besonders augenscheinlich. Demnach wäre es schlicht aufgrund der Quantität der Belege unmöglich, auf der Grundlage einer Liste aller Trigramme des gesamten Korpus Aussagen über typische Sprachmuster zu treffen. Die hier gewählte Darstellung als Netzwerk drängt sich angesichts der inhärenten Struktur der Daten quasi auf. Durch die zusätzliche Feinjustierung in Gephi (Ähnlichkeitscluster, Knotengröße proportional zur Betweenness Centrality etc.) und die interaktive Darstellungsform kann so die Berechnung von Trigrammen als sprachanalytisches Werkzeug überhaupt erst konstruktiv eingesetzt werden. Der operative Charakter der Visualisierung der Topic Models ähnelt sehr stark dem der Visualisierung von Trigrammen. Die “operative Arbeit” erfolgte hier vielmehr im Hintergrund: Aus den Berechnungen durch Mallet musste überhaupt erst eine geeignete Datenstruktur generiert werden, die eine Darstellung in der vorliegenden Form ermöglicht. Dabei galt es, gründlich zu überlegen, welche Beziehungen letztendlich im Graphen berücksichtigt werden. Die zusätzlichen analogen Visualisierungsansätze zu Topic Models waren hauptsächlich dazu gedacht, auf eine andere Dimension von informativen Visualisierungen hinzuweisen, die durchaus maßgeblichen Einfluss auf deren Operativität haben könnte: Die Rolle der Ästhetik. So könnten ästhetische Eigenschaften wie schön oder interessant beispielsweise direkten, relationalen Einfluss auf Aufmerksamkeitsspanne und -intensität haben und somit indirekt den operativen Wert steigern. An dieser Stelle soll nun keine erschöpfende theoretische Reflexion zu diesem Thema erfolgen, sondern es war uns ein besonderes Anliegen, wenigstens auf diese eine Problematik hinzuweisen, die unseres Erachtens in vielen Fällen von Informationsvisualisierungen vernachlässigt wird.

Zum Abschluss sei noch einmal auf die bereits mehrfach angesprochene Problematik von datengeleiteter Analyse generell und Visualisierungen speziell hingewiesen: Die Erhebung und Aufbereitung von Daten stellt immer auch einen Selektionsprozess dar, weshalb die anschließende Verarbeitung auch niemals absolut wertfreie und im klassischen Sinne objektive Ergebnisse liefern kann (Warum Trigramme und nicht Bi- oder Tetragramme? Warum sieben und nicht zehn oder zwölf Topics mit je fünfzehn oder zwanzig, statt achtzehn dazugehörigen Lemmata? usw.). Um Visualisierungen als heuristisches Mittel nutzen zu können, ist immer auf Transparenz der Vorgehensweise durch detaillierte Dokumentation zu achten — das gilt insbesondere für die hier vorgestellten Resultate, die keineswegs eine wie auch immer geartete “Realität” hinter den Daten aufzudecken suchen, sondern mehrheitlich das Produkt pragmatischer Überlegungen und Entscheidungsprozesse sind.

Analoge Visualisierungen von Topics

Da letztlich jede Art von Verbildlichungsprozessen auf Selektion, Transformation und Interpretation von Informationen beruht, wäre es leichtgläubig, Visualisierungen außerhalb ihres Kontextes und ihrer angestrebten Funktion bewerten zu wollen. Unsere Herangehensweise an die sprachlichen Rauschdaten war größtenteils eine faktenproduzierende, bei den Visualisierungen stand die Operationalität und Lesbarkeit  im Vordergrund, ästhetische Gesichtspunkte wurden nur am Rande mitbedacht. Um diesem zugegebenermaßen etwas schönheitsfeindlichem Manko Abhilfe zu schaffen, haben wir ohne viele Erklärungen eine befreundete Künstlerin gebeten, sich in Skizzen unvoreingenommen mit den von Mallet errechneten Topics auseinanderzusetzen. Durch den Fokus auf eine ästhetisch ansprechende Gestaltung haben Kirsti Zimmermanns Visualisierungen im Vergleich zu den computergenerierten Diagrammen einen vollkommen unterschiedlichen qualitativen Wert, der für sich selbst spricht:

Topic 0: rauchen joint gras freund cannabis abend kumpel kiffen bauen weg ankommen breit nen kopf tuete etwas essen

Topic 0: rauchen joint gras freund cannabis abend kumpel kiffen bauen weg ankommen breit nen kopf tuete etwas essen

Topic 1: leicht uhr wirkung fuehlen stunde nehmen essen ca uebelkeit angenehm liegen stark gefuehl tag trinken magen schlafen etwas

Topic 1: leicht uhr wirkung fuehlen stunde nehmen essen ca uebelkeit angenehm liegen stark gefuehl tag trinken magen schlafen etwas

Topic 2: pilz trip sehen essen lachen gedanke baum uhr decke wald farbe muster wand denken zimmer schauen natur

Topic 2: pilz trip sehen essen lachen gedanke baum uhr decke wald farbe muster wand denken zimmer schauen natur

Topic 3: mdma mg uhr droge same tanzen wirkung abend teil stunden stunde nehmen pille party gefuehl ziehen euphorie halb

Topic 3: mdma mg uhr droge same tanzen wirkung abend teil stunden stunde nehmen pille party gefuehl ziehen euphorie halb

Topic 4: trip lsd farbe gedanke mensch legen klein wald stunde leben ankommen muster substanz raum reise

Topic 4: trip lsd farbe gedanke mensch legen klein wald stunde leben ankommen muster substanz raum reise

Topic 6: salvia rauchen ziehen sehen kopf trip koerper bong sekunde lachen realitaet blatt rauch gefuehl wirkung extrakt lunge auge

Topic 6: salvia rauchen ziehen sehen kopf trip koerper bong sekunde lachen realitaet blatt rauch gefuehl wirkung extrakt lunge auge

Datengrundlage

Dieses Projekt setzt es sich zum Ziel, mithilfe von Visualisierungen eine bessere Exploration großer Mengen sprachlicher Daten möglich zu machen. In unserem Falle beziehen sich diese Daten auf Berichte unterschiedlichster Drogentrips, wie sie auf der Internetplattform Land der Träume öffentlich zugänglich sind. Die von den Betreibern deklarierte Intention der Seite ist die unvoreingenommene Präsentation von individuellen Rauscherfahrungen und die Bereitstellung von möglichst objektiven Informationen, um die Nutzer in ihrem eigenverantwortlichem Handeln zu unterstützen:

Das Land der Träume (LdT) ist eine Seite für Interessierte und Konsumenten, aber keine Seite die pauschal “pro Drogen” ist. Drogen haben viel Potential, Drogen sind sehr gefährlich. Beide Seiten zu verstehen ist wichtig.

Wir erhoffen uns, mit dieser datengeleiteten Herangehensweise weiteren Aufschluss über das gesellschaftlich in weiten Teilen tabuisierte Thema Drogen zu erlangen. Im Speziellen interessiert uns das Potenzial visueller Methoden, die Versprachlichung derartiger Erfahrungen nachvollziehen und spezifische sprachliche Muster aufspüren zu können.

Aus dem reichen Fundus dieser Webseite wurde daher von Prof. Dr. Joachim Scharloth ein für linguistische Zwecke aufbereitetes Korpus generiert, welches uns als Basis für weitere korpuslinguistische Untersuchungen und die darauf aufbauenden Visualisierungen diente. Das Korpus umfasst insgesamt 3860 Texte, die insgesamt über 5,15 Millionen Tokens enthalten, und ist zum einen mit allgemeinen Metadaten (z. B. Textautor, Erstellungsdatum, beschriebene Droge, Bewertung der Online-Community, Set bzw. Setting des Drogentrips), zum anderen mit spezifisch linguistischen Zusatzinformationen zur Grundform (Lemma) und Wortart (Part-of-speech Tagging) jedes Tokens annotiert:

Korpus_Beispiel

In dieser Form bietet das Korpus vielfältige Möglichkeiten, geeignete Daten für anschließende Visualisierungen zu erheben. Bei der Eruierung unterschiedlicher Optionen der Datengewinnung erschien es uns sinnvoll, als ersten Ansatzpunkt das Korpus in die  IMS Open Corpus Workbench (CWB)  zu importieren. Die CWB ”ist eine Konkordanz- und Korpusanalyse-Software, mit der eigene Korpora, die mit linguistischen Annotationen versehen sind, bearbeitet werden können.” Im Webinterface dieses Programms ist es sehr einfach möglich, korpuslinguistische Basisberechnungen (u. a. Kollokationen, Distribution, Keywords) durchzuführen und deren Ergebnisse direkt als TXT-Datei herunterzuladen. Um das Korpus in die CWB einzuspeisen, war es jedoch vorerst nötig, das Korpus mittels eines Perl-Scripts und Modifikation durch Reguläre Ausdrücke in ein für diese Software kompatibles Format zu bringen. Nach erfolgreichem Import konnten wir bereits einige interessante Daten ermitteln und uns an ersten Visualisierungsmethoden versuchen. Wir mussten allerdings bald feststellen, dass die Datenerhebung in der CWB zwar schnell und mit geringem Aufwand zu realisieren ist, aber für spezifische Fragestellungen nicht die erforderliche Flexibilität aufweist.

Daher gingen wir im Weiteren hauptsächlich dazu über, die zu visualisierenden Daten mithilfe der Programmiersprache Perl direkt aus der Korpusdatei zu extrahieren. Auf diese Weise war es uns besser möglich, die Daten unseren jeweiligen VIsualisierungsinteressen anzupassen.

Das exakte Vorgehen der Datenbeschaffung und -aufbereitung und die vollständige Dokumentation unserer Visualisierungsversuche findet ihr in den jeweiligen Blogposts, die ihr über die Seitenleiste links ansteuern könnt.