Durchschnittliche Wortanzahl und Satzlänge bei Tripberichten

Nachdem die absolute Beitragsanzahl zu den einzelnen Drogen (also ihr Vorkommen alleine und im Kontext von Mischkonsum) berechnet wurde, interessierte uns die durchschnittliche Beitragslänge der nach Substanzen sortierten Tripberichte. Mithilfe eines weiteren Perl-Scripts ermittelten wir die Länge jedes Textes und speicherten sie zusammen mit der dazugehörigen Drogenkombination ab (mit Länge des Textes ist hier die Anzahl der Wörter gemeint). In einem nächsten Schritt extrahierten wir alle singulären Vorkommen von Einzel- und Mischkonsum. Hierdurch konnten die einzelnen Textlängen mit einem auf RegEx beruhenden Match-Befehl unter ihren jeweiligen Konsumbetitelungen zusammengefasst werden. Insgesamt gibt es bei 3860 Tripberichten 990 verschiedene Drogenkombinationen, wobei aber lediglich 102 Klassifizierungen häufiger als fünfmal benutzt werden und das Gros der Verbindungen nur einmal vorkommt  –  731 einzigartige Drogencocktails, um genau zu sein. Zur Illustration hier ein kleiner Ausschnitt:

Beispiele für Mischkonsum

Um den Mittelwert der Textlänge zu errechnen, musste jetzt nur noch alle Beitragslängen innerhalb der Droge und Drogenkombination miteinander addiert und die so entstandene Summe durch die jeweilige Anzahl der Texte dividiert werden, wodurch schließlich solche Ergebnisse produziert werden:

...
Mischkonsum von LSD, Cannabis und Alkohol: 3543.71428571429
Kokain 837.4
Peyote 1623.23529411765
...

Alleine in diesem Beispiel zeigt sich schon die enorme Bandbreite der mittleren Textlängen: Tripberichte über den Mischkonsum von LSD, Cannabis und Alkohol sind im Schnitt mehr als viermal so lang wie diejenigen über den Konsum von Kokain und immer noch fast doppelt so lang wie diejenigen über den Konsum von Peyote. In einem letzten Schritt haben wir uns diese Ergebnisse nach absteigendem Wert des arithmetischen Mittels sortiert als Datei ausgeben lassen, dabei haben wir nur diejenigen Berichte berücksichtigt, deren Drogenkombination im Korpus mehr als fünfmal vorkommt.

Mit einem ganz ähnlichen Perl-Script ließ sich auch die durchschnittliche Satzlänge pro Drogenvorkommen berechnen. Statt den Wörtern mussten einfach die Sätze jedes Beitrages gezählt werden, um anschließend die Wort- durch die Satzanzahl zu teilen, das Vorgehen ist ansonsten analog zum oben beschriebenen. Auch hier ließen wir uns eine sortierte Output-Datei generieren, auch hier galt die Untergrenze von mindestens fünf Belegen. Die so gewonnenen Werte wurden angereicht um die Beitragsanzahl gemeinsam in eine CSV-Datei geschrieben, um sie kompatibel für eine Visualisierung mit R zu machen. In die Visualisierung wurden der besseren Übersichtlichkeit halber nur Berichte aufgenommen, deren Drogenklassifikation mehr als 20-mal belegt ist:

Geordnetes Säulendiagramm

In dieses gruppierte Balkendiagramm sind knapp einhundert individuelle Werte integriert: Jeder der 31 Drogenkategorien ist die ihr entsprechende Beitragsanzahl sowie der Mittelwert von Satz- und Textlänge zugeordnet. Die Wertebalken sind untereinander farblich unterschieden und verweisen weiterhin auf verschiedene Skalen, deren erster Einschnitt den Zehnerpotenzen 10¹, 10² und 10³ entspricht. So lassen sich je nach Erkenntnisinteresse auf einen Blick die gewünschten Informationen erfassen. Möchte man beispielsweise in Erfahrung bringen, bei welcher Art von Tripberichten es die wortreichsten Ausführungen gibt, muss man lediglich die grünen Balken miteinander vergleichen: Der Mischkonsum von LSD und Cannabis scheint also besonders berichtenswert zu sein, ebenso die auf 2C-B und Magic Mushrooms (+ Cannabis) gemachten Erfahrungen. Im Gegensatz dazu birgt die Einnahme von Katzenminze nur spärliches Erzählungsmaterial, was vermutlich mit der Unterrepräsentiertheit feliner Userinnen und User einhergeht. Insgesamt ist die durchschnittliche Wortanzahl mit den beiden Extremwerten 381 (Katzenminze) und 3543 (Mischkonsum von LSD, Cannabis und Alkohol; nicht im Graphen vertreten) über die Drogen verteilt verhältnismäßig heterogen.

Bei der durchschnittlichen Satzlänge (rote Balken) sieht es dagegen schon anders aus. 30 von 31 Werten haben sich mit einer maximalen Abweichung von lediglich 1,8 Wörtern um den relativ hohen Wert von 16 Wörtern pro Satz angeordnet. Die Satzlänge in Berichten über den synthetischen Cannabisersatz Spice bildet im Schaubild mit einem Wert von 11,22 die Ausnahme, insgesamt steht es auf dem vorletzten Platz und wird nur noch von der Satzlänge in Texten über Crystal Meth unterboten (10,97 Wörter pro Satz, nicht im Schaubild). Über die Verlässlichkeit der jeweiligen Einzeldaten kann man sich über die blau abgetragene Textanzahl ebenfalls informieren.

Hinterlasse eine Antwort

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *

Du kannst folgende HTML-Tags benutzen: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>