Analoge Visualisierungen von Topics

Da letztlich jede Art von Verbildlichungsprozessen auf Selektion, Transformation und Interpretation von Informationen beruht, wäre es leichtgläubig, Visualisierungen außerhalb ihres Kontextes und ihrer angestrebten Funktion bewerten zu wollen. Unsere Herangehensweise an die sprachlichen Rauschdaten war größtenteils eine faktenproduzierende, bei den Visualisierungen stand die Operationalität und Lesbarkeit  im Vordergrund, ästhetische Gesichtspunkte wurden nur am Rande mitbedacht. Um diesem zugegebenermaßen etwas schönheitsfeindlichem Manko Abhilfe zu schaffen, haben wir ohne viele Erklärungen eine befreundete Künstlerin gebeten, sich in Skizzen unvoreingenommen mit den von Mallet errechneten Topics auseinanderzusetzen. Durch den Fokus auf eine ästhetisch ansprechende Gestaltung haben Kirsti Zimmermanns Visualisierungen im Vergleich zu den computergenerierten Diagrammen einen vollkommen unterschiedlichen qualitativen Wert, der für sich selbst spricht:

Topic 0: rauchen joint gras freund cannabis abend kumpel kiffen bauen weg ankommen breit nen kopf tuete etwas essen

Topic 0: rauchen joint gras freund cannabis abend kumpel kiffen bauen weg ankommen breit nen kopf tuete etwas essen

Topic 1: leicht uhr wirkung fuehlen stunde nehmen essen ca uebelkeit angenehm liegen stark gefuehl tag trinken magen schlafen etwas

Topic 1: leicht uhr wirkung fuehlen stunde nehmen essen ca uebelkeit angenehm liegen stark gefuehl tag trinken magen schlafen etwas

Topic 2: pilz trip sehen essen lachen gedanke baum uhr decke wald farbe muster wand denken zimmer schauen natur

Topic 2: pilz trip sehen essen lachen gedanke baum uhr decke wald farbe muster wand denken zimmer schauen natur

Topic 3: mdma mg uhr droge same tanzen wirkung abend teil stunden stunde nehmen pille party gefuehl ziehen euphorie halb

Topic 3: mdma mg uhr droge same tanzen wirkung abend teil stunden stunde nehmen pille party gefuehl ziehen euphorie halb

Topic 4: trip lsd farbe gedanke mensch legen klein wald stunde leben ankommen muster substanz raum reise

Topic 4: trip lsd farbe gedanke mensch legen klein wald stunde leben ankommen muster substanz raum reise

Topic 6: salvia rauchen ziehen sehen kopf trip koerper bong sekunde lachen realitaet blatt rauch gefuehl wirkung extrakt lunge auge

Topic 6: salvia rauchen ziehen sehen kopf trip koerper bong sekunde lachen realitaet blatt rauch gefuehl wirkung extrakt lunge auge

Visualisierung von Topic Models

Um dem drogenspezifischen Sprachgebrauch nachzuspüren, unternahmen wir die ersten Rechercheversuche für dieses Projekt nach der Transformation des ursprünglichen Korpus in ein datenbankgerechtes Format und der erfolgreichen Einbindung in die Corpus Workbench des Dresden Center for Digital Linguistics direkt über das CWB-Webinterface. Durch die Annotation der einzelnen Userbeiträge nach den jeweils beschriebenen Drogenarten ist es der CWB möglich, drogenspezifische Subkorpora zu generieren, was uns zunächst sehr hilfreich erschien. Doch schon bald mussten wir feststellen, dass die Ergebnisse ziemlich dürftig ausfielen und nur relativ aufwändig zu produzieren waren. Bei der Suche nach Alternativen stießen wir auf das Konzept des Topic Modeling, von dem wir uns weitaus bessere Resultate versprachen: Mithilfe von Topic Models lassen sich in einer beliebigen Sammlung von Texten eine zuvor spezifizierte Anzahl von “Themen” identifizieren, die prinzipiell nichts anderes sind als eine Liste von Wörtern, die signifikant häufig in Text A vorkommen, in Text B dagegen seltener oder überhaupt nicht.

Bestünde ein Korpus nun beispielsweise aus zehn Texten über Überschwemmungen im Nildelta, zehn Texten über Neoliberalismus und zehn Texten über den Anbau von transgenem Reis in der chinesischen Jiangxi-Provinz, würden sich bei einer Suche nach drei Topics in Topic 1 Lexeme wie Ägypten, Hochwasser, Staudamm, Mittelmeed, Kairo wiederfinden, in Topic 2 wirtschaftliches Fachvokabular und in Topic 3 Wörter zu Reisanbau, Gentechnik und China und zudem vermutlich eine treffsichere Klassifikation der dreißig Texte erhalten. Spannend wird es nun, wenn wir uns nicht drei, sondern sieben oder zwölf Topics ausgeben lassen: Wir könnten Ähnlichkeiten zwischen Texten feststellen, die wir vorher überhaupt nicht vermutet hatten. So könnte eines der Topics die Lexeme Fluss, Überflutung, längste, Wasser beinhalten, die sowohl aus den Texten über Nilüberschwemmungen als auch aus Texten über den chinesischen Reisanbau extrahiert wurden, da für die maschinelle Themenbestimmung belanglos ist, ob sich das Wort auf den Nil oder den Jangtsekiang bezieht. Die Berechnung der korrespondierenden Typizität zum “Fluss-Topic” geschieht für jeden Text einzeln, sodass sich Texte aus zunächst grundverschieden scheinenden Themenbereichen in diesem Einzelaspekt sehr ähnlich oder immer noch sehr unterschiedlich sein können (man würde erwarten, dass sich hier ein paar Texte über Nildelta und Reisanbau wiederfinden, nicht aber Texte zum Neoliberalismus). Natürlich vereinfacht dieses konstruierte Beispiel den mathematischen Aspekt stark, doch wird (hoffentlich) zumindest die Idee hinter Topic Models deutlich, denn die exakte Beschreibung des dahinter liegenden statistischen Modells müsste in meinem Fall ohnehin zwangsläufig scheitern. An dieser Stelle kann und soll auch überhaupt keine keine generelle Einführung in Theorie und Praxis des Topic Modeling entworfen werden, darum sei hier für Interessierte noch auf die ausreichend vorhandenen Einführungen, Verortungen und kritischen Auseinandersetzungen verwiesen, um uns nun der praktischen Anwendung dieser Methode auf unsere Daten zu widmen.

Für die Berechnung von Topic Models musste das auf Lemmata reduzierte Gesamtkorpus in viele einzelne Subkorpora zerlegt werden, wobei jedes Subkorpus einer eindeutig klassifizierten Droge oder Drogenkombination entspricht. Dies erreichten wir durch die Umformung des Perl-Codes, den wir bereits für die Zählung der Wortanzahl und Sätzlängen gebraucht hatten. Dadurch wurde für jede Drogenklassifikation ein Subkorpus erstellt, das alle Texte enthielt, die mit der entsprechenden Kombination versehen waren. Für diese Subkorpora konnten nun mit einem Java-basierten Programmpaket namens Mallet (MAchine Learning for LanguagE Toolkit) Topic Models erstellt werden (hier findet man eine hervorragende Anleitung dazu). Mallet wurde von uns so konfiguriert, dass es aus der Analyse der fünfzig größten Subkorpora 7 Topics zu je 18 Lemmata erstellt, außerdem sollten häufig vorkommende Funktionswörter herausgefiltert werden. Die Topics gerierten sich wie folgt:

  • Topic 0: rauchen joint gras freund cannabis abend kumpel kiffen bauen weg ankommen breit nen kopf tuete etwas essen
  • Topic 1: leicht uhr wirkung fuehlen stunde nehmen essen ca uebelkeit angenehm liegen stark gefuehl tag trinken magen schlafen etwas
  • Topic 2: pilz trip sehen essen lachen gedanke baum uhr decke wald farbe muster wand denken zimmer schauen natur
  • Topic 3: mdma mg uhr droge same tanzen wirkung abend teil stunden stunde nehmen pille party gefuehl ziehen euphorie halb
  • Topic 4: trip lsd farbe gedanke mensch legen klein wald stunde leben ankommen muster substanz raum reise
  • Topic 5: dxm trip sehen mg uhr nehmen zimmer kapsel bett dph tablett tablette schlafen dhm kg schauen nah tag
  • Topic 6: salvia rauchen ziehen sehen kopf trip koerper bong sekunde lachen realitaet blatt rauch gefuehl wirkung extrakt lunge auge

Zudem wurde jedem der fünfzig Subkorpora sieben Werte zugeschrieben, welche die statistische Nähe zu einem der Topics ausdrücken, zum Beispiel hat das Ecstasy-Subkorpus eine hohe Affinität zu Topic 3 und eine niedrige zu Topic 6. Somit ist jedem Topic einerseits der spezifische Wortschatz und andererseits die Wahrscheinlichkeit des Auftretens dieses Wortschatzes in den jeweiligen Subkorpora zuschreibbar. Nachdem wir die von Mallet produzierten Werte sortiert, in eine für Gephi lesbare Struktur gebracht und die Feinjustierung des Netzwerkgraphen vorgenommen haben, konnten wir wieder eine interaktive Visualisierung erstellen, aus der sich die Relationen zwischen erstens Topics und Wortschatz und zweitens Topics und Drogen herauslesen lassen:

network topics

Die größeren Knotenpunkte stellen die sieben Topics dar, jeder von ihnen ist mit einer eigenen Farbe gekennzeichnet, mit Ausnahme von Topic 2 und Topic 4. Das liegt daran, dass die beiden Topics sich einen Teil der Wortschatzes teilen und viele Subkorpora eine ähnlich hohe Affinität zu beiden dieser Themen besitzen:

Topic 2 und 4

Generell gesprochen, finden sich bei Topic 2 und Topic 4 Wörter und Kategorien, die den Psychedelika zuzuordnen sind, wobei Texte über Magic Mushrooms eher Topic 2 und Texte über LSD eher Topic 4 zugeordnet sind. Dies ist an der Nähe der Knotenpunkte zueinander und an der (nicht besonders gut erkennbaren) Dicke der Kanten ersichtlich:

LSDMit einem Klick auf einen Knoten oder bei der Suche nach bestimmten Begriffen werden sämtliche Verbindungen aufgefächert und der Rest des Schaubilds ausgeblendet.

Um den Knotenpunkt von Topic 3 gruppieren sich die meisten Partydrogen, folgerichtig finden sich dort auch die entsprechenden Vokabeln:

Topic3

Sehr interessant ist die Positionierung von 2C-B. Laut dem ersten Google-Treffer ist das ”Wirkspektrum von 2C-B [...] sehr breit gefächert und wird von Usern zwischen dem von LSD und MDMA verortet”. Der empirische Beweis für diese Verortung ist Mallet mühelos gelungen, Tripberichte zu 2C-B befinden sich in ihrer Typizität direkt zwischen diesen beiden Themen:

2C-B

Den exponierten Platz in der Mitte des Graphen hat Topic 0 inne, es verweist vor allem auf cannabisbezogenen Wortschatz:

Topic 0Die prominente Positionierung resultiert daher, dass Cannabis oft im Mischkonsum auftritt und somit die Nodes von Drogenkategorien mit Mischkonsum ein Stückchen zu sich zieht:

Pilze und Cannabis

Für individuelle Untersuchungs- und Erkenntnisinteressen scheint diese interaktive Visualisierung nach den ersten erklärenden Explorationen also durchaus als heuristisches Hilfsmittel geeignet zu sein. Sämtliche Beziehungen lassen sich unmöglich in diesem Blogpost darstellen, also zögert nicht, sie auf eigene Faust zu erkunden!

network_topics

Durchschnittliche Wortanzahl und Satzlänge bei Tripberichten

Nachdem die absolute Beitragsanzahl zu den einzelnen Drogen (also ihr Vorkommen alleine und im Kontext von Mischkonsum) berechnet wurde, interessierte uns die durchschnittliche Beitragslänge der nach Substanzen sortierten Tripberichte. Mithilfe eines weiteren Perl-Scripts ermittelten wir die Länge jedes Textes und speicherten sie zusammen mit der dazugehörigen Drogenkombination ab (mit Länge des Textes ist hier die Anzahl der Wörter gemeint). In einem nächsten Schritt extrahierten wir alle singulären Vorkommen von Einzel- und Mischkonsum. Hierdurch konnten die einzelnen Textlängen mit einem auf RegEx beruhenden Match-Befehl unter ihren jeweiligen Konsumbetitelungen zusammengefasst werden. Insgesamt gibt es bei 3860 Tripberichten 990 verschiedene Drogenkombinationen, wobei aber lediglich 102 Klassifizierungen häufiger als fünfmal benutzt werden und das Gros der Verbindungen nur einmal vorkommt  –  731 einzigartige Drogencocktails, um genau zu sein. Zur Illustration hier ein kleiner Ausschnitt:

Beispiele für Mischkonsum

Um den Mittelwert der Textlänge zu errechnen, musste jetzt nur noch alle Beitragslängen innerhalb der Droge und Drogenkombination miteinander addiert und die so entstandene Summe durch die jeweilige Anzahl der Texte dividiert werden, wodurch schließlich solche Ergebnisse produziert werden:

...
Mischkonsum von LSD, Cannabis und Alkohol: 3543.71428571429
Kokain 837.4
Peyote 1623.23529411765
...

Alleine in diesem Beispiel zeigt sich schon die enorme Bandbreite der mittleren Textlängen: Tripberichte über den Mischkonsum von LSD, Cannabis und Alkohol sind im Schnitt mehr als viermal so lang wie diejenigen über den Konsum von Kokain und immer noch fast doppelt so lang wie diejenigen über den Konsum von Peyote. In einem letzten Schritt haben wir uns diese Ergebnisse nach absteigendem Wert des arithmetischen Mittels sortiert als Datei ausgeben lassen, dabei haben wir nur diejenigen Berichte berücksichtigt, deren Drogenkombination im Korpus mehr als fünfmal vorkommt.

Mit einem ganz ähnlichen Perl-Script ließ sich auch die durchschnittliche Satzlänge pro Drogenvorkommen berechnen. Statt den Wörtern mussten einfach die Sätze jedes Beitrages gezählt werden, um anschließend die Wort- durch die Satzanzahl zu teilen, das Vorgehen ist ansonsten analog zum oben beschriebenen. Auch hier ließen wir uns eine sortierte Output-Datei generieren, auch hier galt die Untergrenze von mindestens fünf Belegen. Die so gewonnenen Werte wurden angereicht um die Beitragsanzahl gemeinsam in eine CSV-Datei geschrieben, um sie kompatibel für eine Visualisierung mit R zu machen. In die Visualisierung wurden der besseren Übersichtlichkeit halber nur Berichte aufgenommen, deren Drogenklassifikation mehr als 20-mal belegt ist:

Geordnetes Säulendiagramm

In dieses gruppierte Balkendiagramm sind knapp einhundert individuelle Werte integriert: Jeder der 31 Drogenkategorien ist die ihr entsprechende Beitragsanzahl sowie der Mittelwert von Satz- und Textlänge zugeordnet. Die Wertebalken sind untereinander farblich unterschieden und verweisen weiterhin auf verschiedene Skalen, deren erster Einschnitt den Zehnerpotenzen 10¹, 10² und 10³ entspricht. So lassen sich je nach Erkenntnisinteresse auf einen Blick die gewünschten Informationen erfassen. Möchte man beispielsweise in Erfahrung bringen, bei welcher Art von Tripberichten es die wortreichsten Ausführungen gibt, muss man lediglich die grünen Balken miteinander vergleichen: Der Mischkonsum von LSD und Cannabis scheint also besonders berichtenswert zu sein, ebenso die auf 2C-B und Magic Mushrooms (+ Cannabis) gemachten Erfahrungen. Im Gegensatz dazu birgt die Einnahme von Katzenminze nur spärliches Erzählungsmaterial, was vermutlich mit der Unterrepräsentiertheit feliner Userinnen und User einhergeht. Insgesamt ist die durchschnittliche Wortanzahl mit den beiden Extremwerten 381 (Katzenminze) und 3543 (Mischkonsum von LSD, Cannabis und Alkohol; nicht im Graphen vertreten) über die Drogen verteilt verhältnismäßig heterogen.

Bei der durchschnittlichen Satzlänge (rote Balken) sieht es dagegen schon anders aus. 30 von 31 Werten haben sich mit einer maximalen Abweichung von lediglich 1,8 Wörtern um den relativ hohen Wert von 16 Wörtern pro Satz angeordnet. Die Satzlänge in Berichten über den synthetischen Cannabisersatz Spice bildet im Schaubild mit einem Wert von 11,22 die Ausnahme, insgesamt steht es auf dem vorletzten Platz und wird nur noch von der Satzlänge in Texten über Crystal Meth unterboten (10,97 Wörter pro Satz, nicht im Schaubild). Über die Verlässlichkeit der jeweiligen Einzeldaten kann man sich über die blau abgetragene Textanzahl ebenfalls informieren.

Über welche Drogenerfahrungen wird am häufigsten berichtet?

Zu Beginn des Projektes interessierte uns vor allem, über welche Drogen am öftesten im Internet berichtet wird. Würde die Volksdroge Nr. 1 auch hier Spitzenreiter sein oder berichtet man im Internet nur über verbotene Substanzen? Würde sich der momentane mediale Hype um Crystal auch in unseren Daten niederschlagen? Wie untersucht man solche Fragen überhaupt? Und wie visualisiert man die Ergebnisse auf eine derartige Weise, dass auch ein der Thematik unbewanderter Rezipient Erkenntnisse daraus ziehen kann?

Das Land-der-Träume-Korpus ist nicht zuletzt auch insofern eine dankbare Untersuchungsgrundlage, da die knapp 4000 Tripberichte nach den darin beschriebenen Drogen kategorisiert sind, sodass ebendiese Drogenkategorien anschließend miteinander verglichen werden können. Allerdings sind die Einzeltexte nicht zwingend nur einer einzelnen Substanz zugeordnet, vielmehr kann der User selbst auswählen, ob es sich bei seinem Bericht um die Beschreibung eines isoliert konsumierten Mittels oder um eine Narration zu Auswirkungen eines Mischkonsums handelt. Um das Problem noch zu verkomplizieren, ist es dem Autor weiterhin möglich, die Reihenfolge der konsumierten Substanzen festzulegen. Ein Tripbericht über Mischkonsum von Cannabis und LSD wäre demnach anders einzuschätzen als einer über Mischkonsum von LSD und Cannabis – und zudem ist es unklar, ob es sich bei der festgelegten Reihenfolge um eine chronologische, quantitative oder qualitative Kategorisierung handelt. Überdies ist der Mischkonsum nicht auf zwei Elemente festgelegt, sondern kann beliebig viele Ingredienzien beinhalten:

Beispiel für Mischkonsum

Für die Untersuchung stellte sich uns folglich gleich vorweg die Frage, wie wir mit dieser Art von Textklassifikation umgehen sollten. Zum einen wollten wir einen “ungeschminkten” Sprachgebrauch untersuchen, der in den nach verschiedenen Substanzen kategorisierten Texte vorliegt. Dafür sind die Berichte über Mischkonsum mehr oder minder unbrauchbar. Zum anderen stand es natürlich auch nicht zur Debatte, jene Texte einfach wegfallen zu lassen, ohne adäquat ihre inhärente Kategorienverteilung zu untersuchen. Stichwort: USE ALL THE DATA

Das weitere Vorgehen bestand also darin, zunächst eine Rangliste der am häufigsten vorkommenden Tripberichte zu erstellen, die zu folgendem Ergebnis gelangte:

  1. Psilocybinhaltige Pilze 275
  2. Cannabis 239
  3. DXM 230
  4. Salvia Divinorum 107
  5. LSD 105
  6. Mischkonsum von Psilocybinhaltige Pilze und Cannabis 99
  7. Hawaiianische Baby-Holzrose 98
  8. Ecstasy 85
  9. DHM 70
  10. Mischkonsum von DXM und Cannabis 53
  11. Speed 47
  12. 2C-B 41
  13. Research Chemical 41
  14. Katzenminze 41
  15. Kratom 38
  16. Mischkonsum von DXM und DHM 37
  17. MDMA 37
  18. Mischkonsum von LSD und Cannabis 37
  19. Lachgas 34
  20. Muskatnuss 34
  21. keine Angabe 33
  22. Alkohol 31
  23. Mischkonsum von Ecstasy und Cannabis 30
  24. Mischkonsum von Cannabis und Psilocybinhaltige Pilze 30
  25. Mischkonsum von Cannabis und Alkohol 29
  26. … et cetera

Hinsichtlich unserer eingangs referierten Fragestellung ist hier bereits ein erstes Ergebnis zu verzeichnen: Alkohol landet auf einem abgeschlagenen 22. Platz, nur sieben Texte beschäftigen sich mit Crystal, was den 75. Rang bedeutet. Doch sind die Ergebnisse nur bedingt befriedigend, denn die Unübersichtlichkeit einer solchen Liste ist bereits hier im Blog ersichtlich: Um Werte aus dem oberen und unteren Ende der Aufzählung miteinander zu vergleichen, muss hoch und runter gescrollt werden, die rein numerischen Angaben lassen keine auf einen Blick fassbare Relationalität erkennen. Neben den rein optischen Mängeln ist außerdem die Aussagekraft der aus dem <drug>foo</drug> gewonnen xml-Tag dürftig: Es werden lediglich die absoluten Vorkommen jeder einzelnen Kombination gezählt, ohne die absolute Häufigkeit der sowohl einzeln als auch im Mischkonsum genannten Drogen zu berücksichtigen. Um die absolute Frequenz jeder kategorisierenden Drogennennung zu eruieren – sei es als Einzelvorkommen oder als Teil eines Mischkonsums – musste das Korpus mittels Perl-Scripts getrennt nach den Drogen im Einzelgebrauch und den Drogen im Mischkonsum durchforstet werden. Dieses Beispiel-Script extrahiert aus unserem Korpus sämtliche Nennungen von Drogen im Mischkonsum, zählt sie und gibt eine nach Anzahl geordnete Tabelle ähnlich der obigen als Output aus. Mit geringen Anpassungen lässt sich dieses Script auch für die Extraktion von beliebigen anderen Daten verwenden, so zum Beispiel für den Einzelkonsum.

Die absolute Häufigkeit der Drogenkategorien in Tripberichten auf Land der Träume bekommt man durch das Addieren der beiden jeweiligen Werte, jedoch gehen dadurch bereits gesammelte Informationen verloren: Mit einer Visualisierung der bereits gewonnenen Statistiken lässt sich dasselbe Ziel ohne Informationsverlust erreichen. Dafür braucht man lediglich eine entsprechend sortierte CSV-Datei und ein relativ kurzes Script für R:

Gestapeltes Balkendiagramm

Aus diesem mit RStudio erstellten Balkendiagramm ist durch die Sortierung nach Länge auf einen Blick ersichtlich, welche Droge am häufigsten zur Kategorisierung von Tripberichten verwendet wird, zudem ist das Verhältnis zwischen dem Auftreten in Mischkonsum- und Nicht-Mischkonsum-Kontexten ersichtlich. Des Weiteren zeigen sich vollkommen andere Ergebnisse als mit dem bloßen Auszählen des <drug>-Tags: Alkohol springt durch das berücksichtigte Auftreten im Mischkonsum auf den zweiten Platz, der Anteil von alkoholbezogenen Berichten ist also viel höher als zunächst angenommen, wenn man nicht nur reine Trinkgelage berücksichtigt. Cannabis steht mit überwältigendem Vorsprung an erster Stelle, sowohl was die Gesamtanzahl als auch den Mischkonsum angeht. Es lässt sich noch mehr aus diesem Graphen herauslesen: So scheinen psychedelische Drogen wie Psilocybinhaltige Pilze, DXM, Hawaiianische Babyholzrose und Salvia Divinorum in den Tripberichten eine höhere Tendenz zum Einzelkonsum zu besitzen (bei LSD und DHM ist die Tendenz nicht ganz so deutlich, aber auch vorhanden). Für Cannabis, Alkohol, Speed, Tabak und Kokain gilt laut den analysierten Daten das Gegenteil, jedoch sollte man daraus nicht ableiten, dass sie anscheinend eher in Kombination mit anderen Substanzen eingenommen als alleine. Der Rückschluss von den hier präsentierten Ergebnissen auf gesamtgesellschaftliche Konsumgewohnheiten ist nicht zulässig, da a) wahrscheinlich auf einer Internetplattform wie Land der Träume eine speziell stratifizierte Nutzergruppe zu finden ist, b) Tripberichte vermutlich nur dann überhaupt erstellt werden, wenn es etwas besonders Berichtenswertes darüber zu sagen gibt.

So stellt sich an dieser Stelle beispielsweise auch die Frage, wo denn das zu Beginn angesprochene Crystal im Schaubild abgeblieben ist: Es rangiert mit insgesamt 44 Beiträgen auf Platz 26 der häufigsten Tripberichte der Land-der-Träume-Community. Wie bereits im About-Bereich erwähnt, steht das Experimentieren mit und die technische Umsetzbarkeit von sprachdatenbezogenen Visualisierungen im Vordergrund dieses Projekts, weswegen hier nicht der Ort ist, um über Ursachen und Hintergründe der gewonnenen Einzelergebnisse zu mutmaßen: Korpusuntersuchungen und Visualisierungen sind letztlich auch konstruktive Akte, die ihre Untersuchungsgrundlage zumindest partiell auch selbst erzeugen. Ohne eine gründliche theoretische Auseinandersetzung mit sowohl den jeweiligen Daten (auch den nicht berücksichtigten) als auch der gewählten Methodik sollte nicht mehr als eine erste, vorsichtige Interpretationshandreichung formuliert werden.