Die Datengrundlage

DeReWo

DeReWo ist eine Sammlung korpusbasierter Wort-und Grundformenlisten, die auf dem Deutschen Referenzkorpus (DeReKo: http://www1.ids-mannheim.de/kl/projekte/methoden/derewo.html) basiert. Das DeReKo stellt mit über sechs Milliarden Wörtern (Stand 19.09.2013) die weltweit größte deutschsprachige Textsammlung dar, die sowohl Zeitungen als auch belletristische, wissenschaftliche und andere Textsorten enthält. Die DeReWo-Wortlisten werden auf Basis drei kombinierter Verfahren erstellt: Aus automatischen, semi-automatischen und manuellen Verfahren.

Aufgrund der aussagekräftigen Größe des Korpus verwende ich die auf ihm basierende Frequenzliste der deutschen Sprache. Diese führt der Häufigkeit nach absteigend die deutschen Wörter auf, beginnend mit den frequentesten in Klasse 0 bis zu den seltensten in Klasse 30.

Für meine Zwecke eignet sich die Grundformenliste besonders gut, die circa 3 Milliarden Wörter beinhaltet. Die DeReWo-Liste werde ich darauf hin untersuchen, ob sie sich als Grundlage für einen Deutsch-Lernwortschatz eignet oder ob Probleme auftreten. Dabei werde ich, vor allem im Hinblick auf die Sprachniveaustufen A1 und A2, analysieren, ob das Vokabular angemessen und relevant erscheint.

 

Langenscheidt Wortschatz Intensivtrainer

Die Analysen des Wortschatzes im Hinblick auf seine Häufigkeitsklassen führe ich an den Langenscheidt Wortschatz Intensivtrainern A1 und A2 von Christiane Lemcke und Lutz Rohrmann durch, die sich am gemeinsamen europäischen Referenzrahmen orientieren. Meines Erachtens nach repräsentiert dieser Wortschatz gut den typischen Deutsch-Lernwortschatz, der auch in dieser Form in anderen Lehrwerken zu finden ist.

 

Leipziger Wortschatz

Für die Analyse der Häufigkeitsklassen sowie die Erstellung der Begriffsnetze verwende ich das Korpus „Leipziger Wortschatz“, der größtenteils aus Zeitungstexten, allgemeinen Webseiten und Wikipedia-Texten besteht und dadurch ausgewogen ist. Seine größte Quelle ist die Webseite www.n24.de. Im Jahr 2009 belief sich der Umfang des Korpus auf 2 Milliarden Wörter. Aufgrund der Größe und Ausgewogenheit der Datengrundlage erhoffe ich mir ein repräsentatives Ergebnis.

 

 Kookkurrenzdatenbank des Instituts für Deutsche Sprache (Mannheim)

Für meine Analyse wird auch die Kookkurrenzdatenbank des Instituts für Deutsche Sprache in Mannheim (http://corpora.ids-mannheim.de/ccdb/) von großem Nutzen sein. Mithilfe des Korpus können entweder Kookkurrenzprofile dargestellt oder Kookkurrenzpartner ermittelt werden. Die Sammlung besteht aus Kookkurrenzprofilen von etwa 220.000 verschiedenen Lemmata, die auf Grundlage eines Korpus geschriebener Gegenwartssprache des Umfangs von 2,2 Milliarden Wörtern ermittelt wurden. Jedes der Lemmata enthält zudem eine Sammlung von bis zu fünf verschiedenen Kookkurrenzprofilen.

(Quelle: Belica, Cyril: Kookkurrenzdatenbank CCDB. Eine korpuslinguistische Denk- und Experimentierplattform für die Erforschung und theoretische Begründung von systemisch-strukturellen Eigenschaften von Kohäsionsrelationen zwischen den Konstituenten des Sprachgebrauchs. © 2001 ff., Institut für Deutsche Sprache, Mannheim.)

 

 

Hinterlasse eine Antwort

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *

Du kannst folgende HTML-Tags benutzen: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>