Semantische Nähe als Ähnlichkeit von Kookkurrenzprofilen – nach Cyril Belica

Ist ein Grinsen das Gleiche wie ein Lächeln? Ist Quark wirklich nur ein Milchprodukt? Und ist Einsamkeit das Gegenteil von Zweisamkeit? Der Zusammenhang zwischen diesen Fragen mag vielleicht nicht direkt ins Auge fallen, dennoch gibt es eine Verbindung. Die folgenden Ausführungen handeln von einer Forschungsfrage des Korpuslinguisten Cyril Belica, wissenschaftlicher Mitarbeiter am Institut für Deutsche Sprache (IDS) in Mannheim.[i]

Dieser Beitrag basiert auf folgendem Aufsatz: Belica, Cyril: Semantische Nähe als Ähnlichkeit von Kookkurrenzprofilen, in: Korpusinstrumente
in Lehre und Forschung / Corpora: strumenti per la didattica e la ricerca /
Corpus Tools in Teaching and Research. Bozen : alpha beta piccadilly Verlag, im
Druck.

Die Basis von Belicas Forschungen bildet das Deutsche Referenzkorpus (DeReKo).  Es ist eine Sammlung von über 24 Milliarden Textwörtern[ii], elektronisch erfasst und für Forschungszwecke verwendbar. Trotz seiner unvorstellbaren Größe darf es weder „repräsentativ“ noch „ausgewogen“ genannt werden, vielmehr ist es eine „möglichst umfassende Ur-Stichprobe“[iii].  Das Korpus wird am häufigsten verwendet, um Aussagen zu unterstützen oder Vermutungen zu überprüfen.

Cyril Belicas Ziel dagegen ist es, eine Theorie auf Grundlage des DeReKo zu entwickeln. Anstatt einzelne Wörter oder Wortgebilde zu erforschen, hat er nach einer Möglichkeit gesucht, mithilfe der aufgestellten Theorie die semantische Nähe, das heißt die Bedeutungsähnlichkeit, von Wörtern oder Wortgebilden zu analysieren. Er will sich dabei vom Korpus selbst zu einer Theorie leiten lassen und mit möglichst wenig eigenen Vorannahmen an die Theoriebildung herangehen. Die Schwierigkeit liegt hierbei in der Schließung einer Kluft zwischen der praktischen (Ausprobieren am Korpus) und der theoretischen Ebene (Generalisieren von Ergebnissen).

Die Grundhypothese lautet dabei: „Alles Regelhafte und Konventionelle in der Sprache [ist] ein Epiphänomen des Sprachgebrauchs […] und [wird] von den Sprachteilnehmern fortlaufend ausgehandelt […].“[iv] Dazu stellt Belica zwei Annahmen auf:

-          Der Mensch besitzt die Fähigkeit, Ähnlichkeiten unwillkürlich zu erkennen. Er kann sich Erinnern, Kontexte verbinden oder Schlussfolgern.

-          Der Mensch besitzt die Fähigkeit, nur auf Basis seiner Spracherfahrung Hypothesen über grammatische Regelhaftigkeiten zu formulieren.

Was bedeutet Kookkurrenzanalyse?

Mithilfe eines algorithmischen Verfahrens werden Kookkurrenzen (häufige Wortverbindungen –> Regelhaftigkeiten) in einem Kookkurrenzprofil zusammengestellt.

Die erste Fähigkeit wird auch immer die sein, die der Mensch zuerst anwendet. Bemerkenswert ist auch, dass die Gesprächsteilnehmer oftmals grammatische Strukturen gar nicht mehr aufzulösen brauchen, um zu verstehen, was gemeint ist. (Auf ähnliche Weise funktioniert das menschliche Gehirn, wenn es nur wenige Buchstaben eines Wortes sieht und dieses dennoch vervollständigen und lesen kann.) Gemessen am Erfolg der Kommunikation wird Regelhaftes angenommen oder nicht und hinterlässt je nach dem Spuren in Sprachkorpora. Diese Spuren gilt es herauszufinden, denn sie können dabei helfen, die Entstehungsbedingungen für Regelhaftes nachzuvollziehen, was eine der interessantesten Dinge der Kookkurrenzanalyse ist.

 

Wie funktioniert die Spurensuche? Eine große Anzahl von Kookkurrenzprofilen, die auf Kookkurrenzanalysen höherer Ordnung basieren, wird – unter Anwendung des Funktionsprinzips von selbstorganisierenden Karten – eine sogenannte lexikalische Merkmalskarte entwickelt. Um das Kookkurrenzprofil noch anschaulicher und übersichtlicher zu machen, werden auch die Kookkurrenzen auf ihre Umgebung geprüft und können so zu größeren Themengebieten zusammengefasst werden. Das folgende Beispiel zeigt dabei Erstaunliches:

SemProx_page16_image3

Dank der graphischen Ausarbeitung lassen sich einige semantische Felder zusammenstellen. Wichtig dabei ist, dass nicht unbedingt die Wörter vorkommen, die das Suchwort – in dem Fall „Quark“ – beschreiben, sondern die Wörter, die am häufigsten mit dem Suchwort vorkommen. Wird also mit dem Suchwort zum Beispiel ein Gegensatz häufig beschrieben, kommt auch das gegensätzliche Wort dementsprechend im Kookkurrenzprofil vor. Dennoch werden die beiden Wörter als „semantisch ähnlich“ bezeichnet. In diesem Beispiel kann nicht von einem Gegensatz die Rede sein, wohl aber von einer Homonymie: „Quark“ besitzt gleich mehrere Semantiken. Am meisten wird der Begriff benutzt, um das Milchprodukt zu beschreiben. Es existiert aber auch ein semantisches Feld für Quark als physikalisches Elementarteilchen, von der Bedeutung für Quark als Unsinn ganz zu schweigen. Die Kookkurenzanalyse alleine reicht jedoch nicht aus, um wertvolle Ergebnisse zu erzielen.[v]

Desweiteren ist es möglich, zwei Suchwörter miteinander zu vergleichen, um Gemeinsamkeiten und Unterschiede herauszufinden. Besonders spannend ist das im Fall von semantisch sehr ähnlichen Wörtern. Auch hier gibt Belica ein Beispiel:      Die Graphik zeigt, dass zwischen den Wörtern „Grinsen“ und „Lächeln“ viele Gemeinsamkeiten vorherrschen, obwohl eine erste Vermutung dies vielleicht nicht direkt nahelegt.

SemProx_page16_image2

Ein weiteres Beispiel finden wir beim Erforschen von Gegensätzen. Belica wählt hierfür die Wörter „Einsamkeit“ und „Zweisamkeit“ aus. Rein inhaltlich könnten diese Begriffe nicht gegensätzlicher sein, dennoch lassen sie sich als semantisch ähnlich einstufen:SemProx_page16_image4

Wozu kann man die Ergebnisse verwenden? – Aussicht auf zwei Nachbardisziplinen

-          Lexikographie und Lexikologie: Die Ergebnisse von Kookkurrenzanalysen helfen Lexikologen dabei, die Semantik eines Wortes besser einschätzen zu können, ohne auf eigene Erfahrungs-  oder Kontextwerte zurückzufallen.

-          Didaktik: Mit der nahezu unbegrenzten Möglichkeit, wichtige Floskeln, Phrasen, Sprichwörter und ähnliches aus einem riesigen Korpus zu ermitteln, kann es Deutschlernenden einfacher gemacht werden, Vokabular zu lernen und vor allem richtig anzuwenden.

 

 


[i]Dieser Blogeintrag ist einer von mehreren Einträgen dieser Art, begleitend zum Seminar „Einführung in die Korpuslinguistik“ unter der Leitung von Noah Bubenhofer im Sommersemester 2014.

[ii]Stand vom 15.04.2014; Im November 2008, als Belica den Aufsatz veröffentlichte, waren es noch 3,4 Milliarden Wörter. Quelle: http://www1.ids-mannheim.de/kl/projekte/korpora/ (zuletzt aufgerufen am 29.06.14).

[iii]Belica, Cyril: Semantische Nähe als Ähnlichkeit von Kookkurrenzprofilen, in: Korpusinstrumente in Lehre und Forschung / Corpora: strumenti per la didattica e la ricerca / Corpus Tools in Teaching and Research. Bozen : alpha beta piccadilly Verlag, im Druck. ; S.2.

[iv] Ebd.

[v] Ein Eigenversuch hat zum Beispiel gezeigt, dass diese sogenannten Teekesselchen (Homonyme) in ihrem vollen Umfang oftmals nicht zuverlässig angezeigt werden. Gibt man beispielsweise das Suchwort „Bank“ ein, taucht in keinem semantischen Feld das Wort „Möbel“ oder “Sitzen“ auf, weil es im Gegensatz zu der Bedeutung des Geldhauses zu selten gebraucht wird.

One thought on “Semantische Nähe als Ähnlichkeit von Kookkurrenzprofilen – nach Cyril Belica

  1. Beispiel Einsamkeit/Zweisamkeit:

    “Belica wählt hierfür die Wörter „Einsamkeit“ und „Zweisamkeit“ aus. Rein inhaltlich könnten diese Begriffe nicht gegensätzlicher sein, dennoch lassen sie sich als semantisch ähnlich einstufen.” Warum?

Comments are closed.