Theoretische Implikationen und abschließende Reflexion

Der vorliegende Blog kann in erster Linie als Eruierung von Verbildlichungsprozeduren angesehen werden, die für den Methodenkanon der Korpuslinguistik geeignet erscheinen. Die Korpuslinguistik macht sich die fortschreitende Digitalisierung, die stetig rapide steigenden Rechenleistungen und die Möglichkeiten des Web 2.0 zunutze, um sehr große Mengen sprachlicher Daten als Repräsentanten gesellschaftlicher und kultureller Phänomene beschreibbar zu machen. Durch empirische Analyse des Sprachgebrauchs mithilfe statistischer Verfahren soll so Auskunft über Diskurse jeglicher Art gegeben werden. Die Resultate dieser korpuslinguistischen Untersuchungen präsentieren sich meist als Listen von Bezugsgrößen, in welchen unterschiedliche statistische Messungen integriert sind. An dieser Stelle stellt sich allerdings die Frage, wie Ergebnisse dieser Art interpretiert werden können, schließlich sind – je nach angewandter Methodik – ab einem gewissen Punkt womöglich höchst interessante Befunde und Korrelationen in den erhobenen Daten aufgrund der Unübersichtlichkeit der Darstellung nicht mehr wahrzunehmen. Daher sind brauchbare Visualisierungen als heuristisches Mittel keinesfalls lediglich als schmückendes Beiwerk zu betrachten, sondern gehören zu einem notwendigen Bereich des Methodenrepertoires, dessen Aufgabe es ist, korpuslinguistische Untersuchungen überhaupt fruchtbar zu machen.

Wie in unserem About nachzulesen ist, lag der Fokus unseres Projektes primär auf der praktischen Umsetzung von Visualisierungen, die es im besten Fall möglich machen sollten, aus den zugrundeliegenden Daten Erkenntnisse zu gewinnen, die ohne diese Form der Aufbereitung nur sehr schwer oder gar nicht zugänglich sind. Jedoch sollten einige theoretische Grundlagen, die wir während des Arbeitsprozesses immer im Hinterkopf behielten, nicht unerwähnt bleiben. Dabei sei hier in erster Linie auf das von Sybille Krämer entworfene Konzept der operativen Bildlichkeit hingewiesen, das versucht, eine theoretische Grundlage für eine in den Wissenschaften “neue auf die Versinnlichung von Unsichtbarem zielende Methodik” zu liefern. In diesem Rahmen formuliert Krämer sechs Kriterien, die visuelle Phänomene generell (Schrift ebenso, wie Graphen oder Karten) in ihrer jeweiligen Spezifität aufweisen und gleichzeitig graduell unterscheiden:

Es geht um (1) die Flächigkeit und mit ihr verbunden um die Zweidimensionalität und die Simultaneität des Präsentierten; um (2) die Gerichtetheit, mit der auf der Fläche eine Orientierung möglich wird; um (3) den Graphismus, für den die Präzision des Striches die Elementaroperation und Urszene bildet; um (4) die Syntaktizität, welche eine Grammatikalität wie auch die Lesbarkeit einschließt; um (5) die Referenzialität, mit der Repräsentation und transnaturale Abbildung eine Rolle spielen; schließlich (6) um die Operativität, die nicht nur Handhabbarkeit und Explorierbarkeit ermöglicht, sondern der zugleich eine gegenstandskonstituierende, eine generative Funktion zukommt.

Da, wie eingangs erläutert, die hier vorgestellten Visualisierungen hauptsächlich als heuristisches Werkzeug fungieren sollen, waren wir natürlich besonders darauf bedacht, eine größtmögliche Operativität im beschriebenen Sinne sicherzustellen. Bei unseren ersten Versuchen, die recht simpel strukturierten außersprachlichen Datensätze zur drogenspezifischen Beitragsanzahl und durchschnittlichen Wortanzahl und Satzlänge zu verbildlichen, konnte eine übersichtliche und gut lesbare Form durch herkömmliche Balkendiagramme realisiert werden. Dennoch fällten wir die Entscheidungen für das gestapelte Balkendiagramm (Beitragsanzahl) und der für unterschiedliche Daten mehrfach skalierten X-Achse (Wortanzahl und Satzlänge) nicht willkürlich, sondern aufgrund des dadurch entstehenden Informationsgewinns. Auf einen Blick können so nicht bloß die erhobenen Daten herausgelesen, sondern zusätzlich noch Beziehungen erkannt werden, die ansonsten unsichtbar geblieben wären. Aber je komplexer die zugrundeliegenden Daten ausfallen, desto komplexer werden auch die Visualisierungsansprüche; trotzdem soll weiterhin eine größtmögliche Operativität gewährleistet werden. Die inhaltlich orientierten Ansätze unseres Projektes stellten uns daher vor größere Schwierigkeiten im Verbildlichungsprozess. Auch die drogenspezifische Schlagwortanalyse hätte durchaus als Balkendiagramm veranschaulicht werden können, jedoch erhofften wir uns in Form der Heatmap einen explorativen Mehrwert: Die für die themenbezogene Inhaltsanalyse essenzielle Erkennbarkeit von Ähnlichkeiten zwischen den unterschiedlichen Drogensorten ist direkt mit in die Visualisierung integriert. Im rohen Datenmaterial und auch in Form von Balkendiagrammen wären diese Cluster wohl nur sehr schwer oder überhaupt nicht erkennbar gewesen. Bei der Visualisierung der Trigramme scheint der Aspekt der Operativität besonders augenscheinlich. Demnach wäre es schlicht aufgrund der Quantität der Belege unmöglich, auf der Grundlage einer Liste aller Trigramme des gesamten Korpus Aussagen über typische Sprachmuster zu treffen. Die hier gewählte Darstellung als Netzwerk drängt sich angesichts der inhärenten Struktur der Daten quasi auf. Durch die zusätzliche Feinjustierung in Gephi (Ähnlichkeitscluster, Knotengröße proportional zur Betweenness Centrality etc.) und die interaktive Darstellungsform kann so die Berechnung von Trigrammen als sprachanalytisches Werkzeug überhaupt erst konstruktiv eingesetzt werden. Der operative Charakter der Visualisierung der Topic Models ähnelt sehr stark dem der Visualisierung von Trigrammen. Die “operative Arbeit” erfolgte hier vielmehr im Hintergrund: Aus den Berechnungen durch Mallet musste überhaupt erst eine geeignete Datenstruktur generiert werden, die eine Darstellung in der vorliegenden Form ermöglicht. Dabei galt es, gründlich zu überlegen, welche Beziehungen letztendlich im Graphen berücksichtigt werden. Die zusätzlichen analogen Visualisierungsansätze zu Topic Models waren hauptsächlich dazu gedacht, auf eine andere Dimension von informativen Visualisierungen hinzuweisen, die durchaus maßgeblichen Einfluss auf deren Operativität haben könnte: Die Rolle der Ästhetik. So könnten ästhetische Eigenschaften wie schön oder interessant beispielsweise direkten, relationalen Einfluss auf Aufmerksamkeitsspanne und -intensität haben und somit indirekt den operativen Wert steigern. An dieser Stelle soll nun keine erschöpfende theoretische Reflexion zu diesem Thema erfolgen, sondern es war uns ein besonderes Anliegen, wenigstens auf diese eine Problematik hinzuweisen, die unseres Erachtens in vielen Fällen von Informationsvisualisierungen vernachlässigt wird.

Zum Abschluss sei noch einmal auf die bereits mehrfach angesprochene Problematik von datengeleiteter Analyse generell und Visualisierungen speziell hingewiesen: Die Erhebung und Aufbereitung von Daten stellt immer auch einen Selektionsprozess dar, weshalb die anschließende Verarbeitung auch niemals absolut wertfreie und im klassischen Sinne objektive Ergebnisse liefern kann (Warum Trigramme und nicht Bi- oder Tetragramme? Warum sieben und nicht zehn oder zwölf Topics mit je fünfzehn oder zwanzig, statt achtzehn dazugehörigen Lemmata? usw.). Um Visualisierungen als heuristisches Mittel nutzen zu können, ist immer auf Transparenz der Vorgehensweise durch detaillierte Dokumentation zu achten — das gilt insbesondere für die hier vorgestellten Resultate, die keineswegs eine wie auch immer geartete “Realität” hinter den Daten aufzudecken suchen, sondern mehrheitlich das Produkt pragmatischer Überlegungen und Entscheidungsprozesse sind.

Hinterlasse eine Antwort

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *

Du kannst folgende HTML-Tags benutzen: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>