Semantische Nähe Als Ähnlichkeit von Kookkurrenzprofilen – Zusammenfassung

Das hier zu behandelnde Paper beschäftigt sich mit einem wichtigen Tool der korpuslinguistischen Forschung: Der Kookkurrenzanalyse und dem Erstellen von Kookkurrenzprofilen.

Doch bevor in diesem Blog-Post eine etwas ausführlichere Zusammenfassung des Papers geliefert wird, wollen wir zunächst den Autor Cyril Belica kurz vorstellen, damit wir wissen, mit wem wir es hier zu tun haben. Der Paperverfasser Belica hat von 1976-1981 an der Slowakischen Technischen Universität in Bratislava Informatik studiert. Nach seinem Studium war er eben an dieser Uni wissenschaftlicher Mitarbeiter, bis es Ihn 1991 an das IDS in Mannheim verschlagen hat. Am Institut der deutschen Sprache (IDS) war er zunächst in der LDS, dann in der Abteilung Lexik als wissenschaftlicher Mitarbeiter tätig. Zudem war er Leiter verschiedener Projekte am IDS. Darunter zählen das Projekt „COSMAS I“ und „COSMAS II“, sowie das Projekt „Ausbau und Pflege der Korpora geschriebener Sprache“.

Das hier vorliegende Paper wurde im Nachhinein an einem Vortrag vom 28.03.2008 in Brixen (mit der Zusammenarbeit von Holger Kiebel, Marc Kupietz, Rainer Perkuhn und Marie Vachková) verfasst.

Noch Im zweiten Satz des Abstracts wird der Begriff der Kookkurrenz – durch eine Fußnote – vom Begriff der Kollokation abgegrenzt. Im Allgemeinen liegt hier der Unterschied, dass bei Kollokation Wörter bzw. Lexeme aufeinanderfolgen die in einem näheren semantischen Zusammenhang stehen. Bei der Kookkurrenz hingegen können es diverse Wörter bzw. Lexeme sein, die aneinandergereiht sind, welche jedoch nicht in einem näheren semantischen Zusammenhang stehen. Mittels der Kookkurrenzanalyse werden diese Wortverbindungen ermittelt und gemessen und je nach Wichtigkeit, das heißt semantischer Logik quantifiziert. Doch dazu später mehr.

Widmen wir uns nun Schritt für den Inhalt des Papers. Es ist in Fünf Teile untergliedert Die nun Schritt für Schritt abgearbeitet werden, um die Übersichtlichkeit zu wahren.

Im ersten und kürzesten Teil stellt Belica kurz und knackig das Deutsche Referenzkorpus vor. Quasi der Standard der für jeden Korpuslinguisten zur Kenntnis genommen werden sollte. Der Zweite Abschnitt wird für uns schon etwas interessanter. Der Autor setzt den Rahmen für zwei wichtige Dinge. Zum einen den theoretischen Rahmen für das Arbeiten mit Korpora und damit verbundenen Computeranalysen im Allgemeinen, zum anderen den theoretischen Rahmen für die Kookkurrenzanalyse. Konkret sehen die beiden Rahmen, die zusammengehören, folgender Maßen aus:
Zunächst gibt es Motivatoren, die ein Benutzer des Korpuses in sich tragen kann. Auf der einen Seite der „dokumentarisch unterstützenden“ und auf der anderen Seite der „Vermutungen“ überprüfende Beweggrund. Hat man einen dieser Beweggründe für sich ausgewählt ist es wichtig sich zu vergewissern, ob die Umsetzbarkeit meiner Arbeit überhaupt möglich, bzw. wissenschaftlich epistemisch, das heißt „wahr“ sein kann. Direkt gesagt, – und das sollte jeder Linguist sich verinnerlichen, daher kann es auch nicht oft genug wiederholt werden -  es müssen diverse theoretische Credos vermieden werden, um zu einem repräsentativen und authentischen Ergebnis zu gelangen. Belica bezieht sich hier auf Kupietz und Keibel und nennt folgende Credos:

  • die Annahme, das Sprache als adäquates System fassbar ist
  • die Annahme, dass Dekomposition uneingeschränkt als Explanationsprinzip anwendbar ist
  • eine vollständige Theorie als Forschungsziel anzustreben
  • die sprachliche Kompetenz zum Gegenstand der Forschung zu machen

Erst wenn wir uns vor Augen führen, dass man diese Credos vermeidet, bzw. bevor man eine Analyse durchführt, so wenig wie möglich Vorannahmen trifft, erst dann ist es sinnvoll sich mit dem eigentlichen Thema zu beschäftigen und die nötigen Tools einzusetzen: die Kookkurrenzanalyse.

Der Gedanke der bei dieser Analyse dahinter steckt ist, dass Regelhaftes und Konventionelles im Sprachgebrauch ausgehandelt wird. Diese Aushandlungsprozesse müssten konkrete Spuren in Sprachkopora hinterlassen. Diese hinterlassenen Spuren versucht man mittels einer „Spurensuche“ zur identifizieren. Dabei gibt es zwei Strategien die verfolgt werden können: man findet die in den lokalen lexikalischen Kontexten, in denen die einzelnen lexikalischen Einheiten gebraucht wurden einerseits heraus, und andererseits die in den globalen situativen Kontexten, in denen jene Aushandlungsprozesse jeweils stattgefunden haben. Beide Möglichkeiten werden vom Verfasser im weiteren Kontext unter die Lupe genommen.

Um die Regularitäten in den lokalen lexikalischen Kontexten zu erfassen, bietet sich die Möglichkeit der „Statistischen Kollokationsanalyse und –clustering“. Diese Analyse baut einen erweiterten iterativen, das heißt sich wiederholenden, Algorithmus zur Herausfilterung von Kookkurrenzen höherer Ordnung, welche als diskontinuierliche n-Tupel auftreten können, ein. Hierbei werden Kookkurrenzen beliebiger Ordnung ermittelt, wobei es eine Besonderheit gibt. Das auszuwertende Kontextfenster wird dynamisch bestimmt. Die Herausgefilterten Kookkurrenzen werden mit einem Clusteringverfahren in Form von Baumhierrachien angeordnet. Zur besseren Vorstellung dieses Verfahrens klärt Abbildung 1 auf.

Baumhierarchie

 

Das hier genommene Tool zur Durchführung der Analyse ist COSMAS (Corpus Search, Management and Analysis System), welches online abrufbar ist. Im Zusammenhang mit diesem Verfahren taucht ein für uns weiterer wichtiger Begriff auf: Das Kookkurrenzprofil. Zur Erläuterung bietet sich hier ein wörtliches Zitat von Belica an: „Die Gesamtheit aller quantitativen Ergebnisse der Kookkurrenzanalyse zu einem gegebenen Analyseobjekt (einem Lexem, einer Wortverbindung usw.) wir als Kookkurrenzprofil des Objektes bezeichnet und stellt – informell gesagt – ein Kondensat seines Gebrauchs dar.

Weiter im Kontext geht Belica auf die globalen Kontexte ein. Hierbei ist überraschend, dass sich die globalen Kontexte in der Struktur wechselseitiger Beziehung von zahlreichen Kookkurrenzprofilen zeigen. Diese Wechselbeziehung wird mit Hilfe der „korpuslingustische[n] Denk- und Experimentalplattform für die Erforschung und theoretische Begründung von systemisch-strukturellen Eigenschaften von Kohäsionsrelationen zwischen den Konstituenten des Sprachgebrauchs“ (CCDB) untersucht.

An dieser Stelle wird nun der Begriff der Ähnlichkeit interessant.  Vergleicht man zum Beispiel Wörter die intuitiv „ähnlich“ sind (Bsp. Synonyme), so wird man feststellen, dass sich auch deren Kookkurrenzprofile ähneln. Belica wählt hier das Beispiel „lächeln“ und „grinsen“. Im Umkehrschluss folgert man daraus, dass Kookkurrenzprofile, welche gewisse Überlappungen aufzeigen, auch in ihrem ubiquitären Gebrauch ähnlich sind. Jedoch ist wissenschaftlich nicht belegt, welches Maß an „Ähnlichkeit“ für die zu untersuchenden Objekte vorliegen muss um ähnliche komplexe Kookkurrenzprofile aufzuzeigen.

Wählen wir uns nun Beispiele für Wörter und suchen ähnliche Kookkurrenzprofile:

Belica wählt hier zum einen das Wort „Hindi“ aus. Nachweislich sind andere Sprache wie Chinesisch, Englisch, Spanisch, Türkisch, etc. in ihren Kookkurrenzprofilen ähnlich. Jedoch besteht hier keine wirkliche semantische Nähe der ausgewählten Objekte. Vielmehr sind die Ähnlichkeitsprofile Kohyponyme. Anders fällt es bei einem weitaus komplexeren Begriff aus, zum Beispiel bei dem Wort „Charakteriskum“. Ein schwierig definierbares und schwieriges Wort, in dem Sinne, dass es sich nicht wirklich visualisieren lässt. Ähnliche Profile wären zu diesem Lexem die Wörter Merkmal, Eigenheit, Eigenschaft, Eigenart, Element, Ausformung und andere. Hierbei benötigt es eine tiefere Analyse um die einzelnen Parallelität aufzuzeigen, da hier nicht nur die Messwerte erklärend sind.

Eine Frage die sich an diesem Punkt stellt, lässt sich diese Ähnlichkeit (welche messbar ist) visualisieren? Die Antwort ist kurz und knapp – Ja, sie lässt sich.

Abbildung Zwei zeigt das Lexem „Quark“ und dessen Merkmalskarte:

semantische nähe

 

Diese Merkmalskarte zeigt, dass zum Beispiel die Lexem Konfitüre und Süßspeise in Ihren Kookkurrenzprofilen ähnlich dem von Quark sind, und auch, dass sie sich untereinander ähnlich sind, da sie im selben Quadrat untereinander stehen. Anders wäre es mit Beispielsweise dem Quadrat rechts oben, welches das Lexem Atomkern enthält. Atomkerne und Quarks gehören in der Teilchenphysik zusammen und haben daher auch ein ähnliches Kookkurrenzprofil. Jedoch haben Elementarteilchen oder Atomkerne wenig gemeinsam mit Konfitüre (Obwohl man auch wenige Parallelen aufstellen könnte). Daher werden diese Topografisch voneinander weit entfernt aufgestellt.

 

Nachdem alle theoretischen Rahmen und Tools vorgestellt wurden, stellt sich zum Abschluss die Frage der direkten Anwendungsgebiete. Drei nennt uns der Autor in seinem Paper. Zum einen können solche Analysen zum Dechiffrieren von feinen Bedeutungsdifferenzen bei Quasisynonymen verwendet werden. Ein Beispiel hierfür wäre Einsamkeit und Zweisamkeit.

Ein zweiter Bereich ist die Lexikografie und Lexikologie. Anschaulich heißt das, „der emergente Charakter der lexikalisch-semantischen und lexikalisch-syntaktischen Strukturen sowie die fruchtbare Verquickung von Welt und Sprachwissen“ stehen hier im Vordergrund. Der dritte und zugleich letzte im Paper genannte Anwendungsbereich ist die Didaktik. In diesem Bereich hat das IDS ein Projekt mit dem Titel „simulated late partial immersion“. Ziel ist es Korpora auf syntagmatische Muster zu prüfen, diese Muster in denen nur Kookkurrenzpartner eines ausgewählten Lernvokabulares vorkommen, zu extrahieren, redaktionell zu prüfen und ggf. didaktisch aufzubereiten. Je nach Lernniveau kann dieses Vorgehen angepasst werden.

Zum Schluss lässt sich sagen, dass das Paper auf dem ersten Blick gewiss nicht leicht erschließbar erscheint, jedoch Schritt für Schritt die Analyse immer sinniger und stimmiger wird und man hiermit ein Tool besitzt, welches für eine korpuslinguistische Analyse nahezu unverzichtbar ist.

 

Literatur: Belica, Cyril: Semantische Nähe als Ähnlichkeit von Kookkurrenzprofilen. In: Korpusinstrumente in Lehre und Forschung / Corpora: strumenti per la didattica e la ricerca / Corpus Tools in Teaching and Research. Bozen : alpha beta piccadilly Verlag, im Druck.