Kookkurrenzanalyse – Ein Blog über die Definition und Funktion einer korpuslinguistischen Methode

Was haben die Wörter grinsen und lächeln, faulenzen und chillen oder machen und tun gemeinsam? Auf den ersten Blick scheinen sie sich sehr ähnlich zu sein. Doch wann kann man von der Ähnlichkeit zwischen Wörtern sprechen? Werden sie im Sprachgebrauch gleich verwendet? Sind sie sich nur scheinbar ähnlich? Oder vielleicht doch synonym?

Auf diese Fragen kann der Aufsatz von Cyril Belica „Semantische Nähe als Ähnlichkeit von Kookkurrenzprofilen“ eine Antwort geben, welcher Thema dieses Blogs sein soll. Lesen kann man Belicas Text hier: http://corpora.ids-mannheim.de/SemProx.pdf

Was ist ein Kookkurrenzprofil überhaupt? Und wozu brauche ich das?

Kookurrenzprofile erfassen sowohl dominante Wortbildungsstrukturen als auch Varianten im lokal- lexikalischen Kontext, so schreibt Belica in seinem Aufsatz. Einfacher ausgedrückt bedeutet das, dass die Kookkurrenzprofile uns eine Auskunft darüber geben können, wie Wörter im Sprachgebrauch verwendet werden. Das heißt, wie sind sie in diesem eingebettet, welche anderen Wörter befinden sich in unmittelbarer Nähe und mit welchen Wörtern kommen sie besonders häufig vor.

Um das alles herauszufinden kann man unter <http://corpora.ids-mannheim.de/ccdb/ die Kookkurrenzdatenbank des Instituts für deutsche Sprache abrufen. Hier hat man die Möglichkeit das Kookkurrenzprofil eines Wortes zu erstellen.

Kookkurrenzprofil abrufen

Wie funktioniert das?

Gibt man das gesuchte Wort ein, so öffnet sich ein neues Fenster: nämlich dessen Kookkurrenzprofil. Im Folgenden werde ich das Kookkurrenzprofil des Wortes lächeln näher erläutern.

Kookkurrenzprofil lächeln

Was lässt sich anhand dieses Profils ablesen? Zunächst ist festzuhalten, dass jede Zeile eine Kookkurrenz repräsentiert. Diese sind durch Cluster mit interner hierarchischer Struktur geordnet. Ein Klick auf das + am linken Rand öffnet die Liste der Konkordanzen für diese Kookkurrenz. Das heißt der Kontext in dem die Wörter in den Texten des, der Kookkurrenzdatenbank zugrundeliegenden Korpus (in diesem Fall das DeReKo = Deutsches Referenzkorpus), vorkommen. Die Zahlen am linken Rand z.B. die -4 und 5 ganz oben vor dem Wort freundlich verdeutlichen, dass eben dieses Wort typischerweise 4 Stellen vor dem Wort lächeln und bis zu 5 Stellen danach vorkommt. Ebenfalls abzulesen ist, dass freundlich, dadurch, dass es an oberster Stelle des Kookkurrenzprofiles steht, der primäre Kookkurrenzpartner von lächeln ist. Die Zahl 10893 links neben freundlich zeigt den log likelihood Wert der Kookkurrenz von lächeln mit dem Kookkurrenpartner freundlich an. Die Zahlen in der Mitte, z.B. die 814 rechts von milde, stellen die Anzahl der Konkordanzen in diesem Cluster dar. In diesem Fall kommen milde und lächeln 814mal zusammen im DeReKo vor. Die Prozentwerte welche hinter der Anzahl der Konkordanzen im Cluster stehen weisen auf das dominante syntagmatische Muster dieser Kookkurrenz hin. Verdeutlicht wird dies durch die typischen Varianten und die relativen Abdeckraten. An Kookkurrenzprofil von lächeln ist dementsprechend zu erkennen, dass milde und lächeln 814mal zusammen auftreten. 27% dieser Vorkommen folgen dem Muster lächelt [...] milde.

Wie man sieht können anhand des Kookkurrenzprofiles eine Reihe von Daten bezüglich des Sprachgebrauches abgelesen werden. Interessant ist aber auch der paarweise Vergleich von Kookkurrenzprofilen. Belica geht in seinem Aufsatz davon aus, dass Wörter die sich ähneln auch ähnliche Kookkurrenzprofile haben. Er führt dies anhand des synonymischen Paares lächeln und grinsen vor. Zum Vergleich könnt ihr hier das Kookkurrenzprofil von grinsen sehen:

Kookkurrenzprofil grinsen

Wie man sieht weisen die Kookkurrenzprofile von grinsen und lächeln eindeutige Übereinstimmungen auf. Schon in den ersten Zeilen sind Überlappungen in vier Bereichen ihrer Kookkurrenzcluster erkennbar. Beide Wörter kommen zusammen mit den Worten sagt, verschmitzt, freundlich und verlegen vor. Dies zeigt auch die folgende Abbildung, welche dem Aufsatz von Belica entnommen ist.

SemProx_page16_image2

Belica weist in seinem Aufsatz darauf hin, dass der Umkehrschluss, nämlich, “dass man Objekte, deren Kookkurrenzprofile messbare Überlappungen aufweisen, als in ihrem Gebrauch ähnlich bezeichnen kann”, nicht immer korrekt sein muss beziehungsweise die Ähnlichkeiten mancher Wörter nicht so leicht nachzuvollziehen sind. Er beweist dies am Beispiel der Wörter Hindi und Charakteristikum. Wörter mit Kookkurrenzprofilen die dem von Hindi am ähnlichsten sind, sind unter anderem Chinesisch, Englisch, Spanisch, Türkisch, Urdu, Portugiesisch…etc. Ihre Ähnlichkeit lässt sich mit Hilfe der semantischen Nähe leicht erklären. Anders ist dies beim Wort Charakteristikum. Wörter die ähnliche Kookkurrenzprofile aufweisen sind beispielsweise Merkmal, Eigenheit, Eigenschaft, Eigenart, Ausprägung und auch Element, Stilmittel, Ereignis und Spielart. Wo hier die Ähnlichkeiten liegen lässt sich nicht so leicht sagen. Belica stellt deswegen folgende Vermutung auf:

Je facettenreicher die (denotativen und konnotativen) semantischen Strukturen sind, die mit einem Lexem (d.h. nicht mit einem seiner Denotate) typischerweise assoziiert werden, desto heterogener und divergenter ist die Menge der Lexeme, die in ihrem Gebrauch ähnlich sind.

Dies zeigt auch die selbstorganisierende lexikalische Merkmalskarte für das Lexem Quark, welche Belica in seinem Aufsatz vorstellt. SemProx_page16_image3

Diese Merkmalskarte enthält nur Lexeme deren Kookkurrenzprofil dem Profil von Quark besonders ähnlich ist, so Belica. Die Lexeme, die zusammen in einem Quadrat stehen, weisen auch untereinander Ähnlichkeiten auf, so zum Beispiel bei Süßspeise und Konfitüre. In großer Entfernung davon findet man dagegen Lexeme die man zwar immernoch leicht mit dem Wort Quark in Verbindung bringen kann dagegen aber nicht mehr mit den Wörtern Süßspeise und Konfitüre, in diesem Fall zum Beipsiel Proton, Neutron, Elektron etc. Laut Belica kann aus dieser Tatsache geschlussfolgert werden, dass das Lexem Quark ,,in mindestens zwei unterschiedlichen globalen, situativen Kontexten gebraucht wird, die hier verkürzt als Milchprodukt- Kontext und Elementarteilchen- Kontext bezeichnet werden.”

Was kann ich mit der Kookkurrenzanalyse anfangen?

In seinem Aufsatz verweist Belica auf drei Themengebiete in denen die Ergebnisse von Kookkurrenzanalysen Verwendung finden können. Zunächst geht er dabei auf die Synonymie und Plesionymie ein. Kombinierte lexikalische Merkmalskarten können uns helfen feine Bedeutungsdifferenzen bei Quasisynonymen aufzuspüren. Über die Kookkurrenzdatenbank hat man die Möglichkeit solche Merkmalskarten von Beinahe- Synonymen zu erstellen.

Lexikalische Merkmalskarte Lächeln-grinsen

Hier sieht man die lexikalische Merkmalskarte für das Wortpaar lächeln/ grinsen. Die Farbgebung verdeutlicht welche Wörter man typischerweise mit dem Lexem lächeln und welche man mit dem Wort grinsen verbindet. Anhand dieser Merkmalskarte wird deutlich, dass der Unterschied zwischen lächeln und grinsen darin besteht, das grinsen etwas boshaftes und fieses an sich hat, während lächeln im Zusammenhang mit gütig, artig und charmant steht.

Einen zweiten Anwendungsbereich der Kookurrenzanalyse sieht Belica in der Lexikografie und Lexikologie. ,,Das Einbeziehen von Kookkurrenzprofilen in die lexikografische Arbeit bedeutet, einen schnellen und übersichtlichen Zugriff auf eine assoziativ signifikante Diskursmenge als Orientierungsskelett zu haben”, so Belica. Dementsprechend kann die korpuslinguistische Methodik dem Lexikografen helfen Wörter nicht als feste Entitäten von Form und Bedeutung wahrzunehmen, sondern sie mit semiotisch aussagekräftigem Wortmaterial zu belegen (siehe Belica).

Das dritte und letzte Anwendungsgebiet ist die Didaktik. Für diese sind vor allem die syntagmatischen Muster von Bedeutung, also die Wortverbindungen, welche im Sprachgebrauch besonders häufig vorkommen. Belica geht davon aus, dass es sinnvoll wäre eine Sammlung gebräuchlicher syntagmatischer Muster für Deutschlernende zu konzipieren. Hierzu gibt es bereits Experimente.

Fazit

Die Kookkurrenzanalyse ist eine Bereicherung für Korpuslingistische Untersuchungen. Über die verschiedenen vorgeführten Methoden lässt sich herausfinden wie Wörter im Sprachgebrauch eingebettet sind, wie sie verwendet werden und was sie von anderen ähnlichen oder auch synonym verwendeten Wörtern unterscheidet. Zum Beispiel kann mit Hilfe der Kookkurrenzanalyse nun auch die am Anfang gestellte Frage beantwortet werden was grinsen und lächeln gemeinsam haben. Wie ich in diesem Blog gezeigt habe, haben grinsen und lächeln sehr ähnliche Kookkurrenzprofile, jedoch hat die lexikalische Merkmalskarte gezeigt, dass diese beiden Lexeme sich semantische voneinander unterscheiden.

Wie Belica in seinem Aufsatz gezeigt hat bieten sich noch viele weitere Anwendungsmöglichkeiten auch in anderen sprachwissenschaftlichen Bereichen. Dementsprechend ist die Kookkurrenzanalyse eine interessante und sinnvolle Methode für korpuslinguistische Projekte.

Literatur:

Belica, Cyril: Semantische Nähe als Ähnlichkeit von Kookkurrenzprofilen. In: Korpusinstrumente in Lehre und Forschung / Corpora: strumenti per la didattica e la ricerca / Corpus Tools in Teaching and Research. Bozen : alpha beta piccadilly Verlag, im Druck.