Datengrundlage

Dieses Projekt setzt es sich zum Ziel, mithilfe von Visualisierungen eine bessere Exploration großer Mengen sprachlicher Daten möglich zu machen. In unserem Falle beziehen sich diese Daten auf Berichte unterschiedlichster Drogentrips, wie sie auf der Internetplattform Land der Träume öffentlich zugänglich sind. Die von den Betreibern deklarierte Intention der Seite ist die unvoreingenommene Präsentation von individuellen Rauscherfahrungen und die Bereitstellung von möglichst objektiven Informationen, um die Nutzer in ihrem eigenverantwortlichem Handeln zu unterstützen:

Das Land der Träume (LdT) ist eine Seite für Interessierte und Konsumenten, aber keine Seite die pauschal “pro Drogen” ist. Drogen haben viel Potential, Drogen sind sehr gefährlich. Beide Seiten zu verstehen ist wichtig.

Wir erhoffen uns, mit dieser datengeleiteten Herangehensweise weiteren Aufschluss über das gesellschaftlich in weiten Teilen tabuisierte Thema Drogen zu erlangen. Im Speziellen interessiert uns das Potenzial visueller Methoden, die Versprachlichung derartiger Erfahrungen nachvollziehen und spezifische sprachliche Muster aufspüren zu können.

Aus dem reichen Fundus dieser Webseite wurde daher von Prof. Dr. Joachim Scharloth ein für linguistische Zwecke aufbereitetes Korpus generiert, welches uns als Basis für weitere korpuslinguistische Untersuchungen und die darauf aufbauenden Visualisierungen diente. Das Korpus umfasst insgesamt 3860 Texte, die insgesamt über 5,15 Millionen Tokens enthalten, und ist zum einen mit allgemeinen Metadaten (z. B. Textautor, Erstellungsdatum, beschriebene Droge, Bewertung der Online-Community, Set bzw. Setting des Drogentrips), zum anderen mit spezifisch linguistischen Zusatzinformationen zur Grundform (Lemma) und Wortart (Part-of-speech Tagging) jedes Tokens annotiert:

Korpus_Beispiel

In dieser Form bietet das Korpus vielfältige Möglichkeiten, geeignete Daten für anschließende Visualisierungen zu erheben. Bei der Eruierung unterschiedlicher Optionen der Datengewinnung erschien es uns sinnvoll, als ersten Ansatzpunkt das Korpus in die  IMS Open Corpus Workbench (CWB)  zu importieren. Die CWB ”ist eine Konkordanz- und Korpusanalyse-Software, mit der eigene Korpora, die mit linguistischen Annotationen versehen sind, bearbeitet werden können.” Im Webinterface dieses Programms ist es sehr einfach möglich, korpuslinguistische Basisberechnungen (u. a. Kollokationen, Distribution, Keywords) durchzuführen und deren Ergebnisse direkt als TXT-Datei herunterzuladen. Um das Korpus in die CWB einzuspeisen, war es jedoch vorerst nötig, das Korpus mittels eines Perl-Scripts und Modifikation durch Reguläre Ausdrücke in ein für diese Software kompatibles Format zu bringen. Nach erfolgreichem Import konnten wir bereits einige interessante Daten ermitteln und uns an ersten Visualisierungsmethoden versuchen. Wir mussten allerdings bald feststellen, dass die Datenerhebung in der CWB zwar schnell und mit geringem Aufwand zu realisieren ist, aber für spezifische Fragestellungen nicht die erforderliche Flexibilität aufweist.

Daher gingen wir im Weiteren hauptsächlich dazu über, die zu visualisierenden Daten mithilfe der Programmiersprache Perl direkt aus der Korpusdatei zu extrahieren. Auf diese Weise war es uns besser möglich, die Daten unseren jeweiligen VIsualisierungsinteressen anzupassen.

Das exakte Vorgehen der Datenbeschaffung und -aufbereitung und die vollständige Dokumentation unserer Visualisierungsversuche findet ihr in den jeweiligen Blogposts, die ihr über die Seitenleiste links ansteuern könnt.

Hinterlasse eine Antwort

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *

Du kannst folgende HTML-Tags benutzen: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>