DWDS und COSMAS II

Wir haben uns heute mit dem DWDS und COSMAS II beschäftigt. Nachfolgend möchten wir die beiden Projekte kurz vorstellen und ihre Vor- und Nachteile für uns und unsere Arbeit erläutern. Zunächst planen wir, mit beiden Projekten zu arbeiten, zumindest versuchsweise. Im Laufe dieser Arbeit werden wir herausfinden, ob COSMAS II und/oder das DWDS für die Untersuchung unserer Hypothesen geeignet sind. Falls dies der Fall ist, werden sie zu unseren Datengrundlagen gehören.

Das DWDS

Im Folgenden stellen wir das Projekt (sehr) kurz vor, viele weitere Informationen finden alle Interessierten auf der Internetseite des DWDS unter: http://www.dwds.de/

Das „Digitale Wörterbuch der deutschen Sprache“ (DWDS) ist ein Projekt der Berlin-Brandenburgischen Akademie der Wissenschaften. Es handelt sich um ein öffentlich zugängliches Korpus.

Ausgangsbasis des digitalen Wörterbuchs sind Wörterbücher und Korpora der Akademie (und ihrer Vorgänger), ein Textkorpus des 20. und 21. Jahrhunderts sowie einige Spezialkorpora. Das Kernkorpus des 20./21. Jahrhunderts (das für uns wahrscheinlich am interessantesten ist) beinhaltet etwa 100 Millionen Wörter in 79.830 Dokumenten, wobei die Arbeit am Korpus des 21. Jahrhunderts noch nicht abgeschlossen ist.

Aus den Vorgängerinstitutionen befindet sich das Wörterbuch der Gebrüder Grimm, das Wörterbuch der deutschen Gegenwartssprache und das Etymologische Wörterbuch des Deutschen im Korpus.

Zusätzlich finden sich vor allem Zeitungsartikel. Das Korpus ist nach eigenen Angaben ausgewogen und wird ständig ausgebaut.

Das Korpus ist annotiert, das heißt, es ist mit linguistischen Informationen angereichert: Die Texte sind in Sätze zerlegt, diese wiederum in Wörter (Tokens) und diese sind einer Wortart zugeordnet

 

COSMAS II

Ein weiteres online verfügbares Korpus bietet das Deutsche Referenzkorpus COSMAS II. Es handelt sich um ein sehr viel größeres Korpus als das DWDS, sodass wir uns hier aussagekräftigere Ergebnisse erhoffen, vor allem bei eher seltenen Wörtern wie „Burnout“.

Auch diese Projekt möchten wir sehr kurz vorstellen, viel umfangreichere Informationen sind ebenfalls auf der Internetseite von COSMAS II und auf der Webpräsenz des Instituts für Deutsche Sprache (IDS Mannheim) zu finden:

http://www1.ids-mannheim.de/start/

https://cosmas2.ids-mannheim.de/cosmas2-web/menu.home.do

COSMAS II ist ein Projekt des IDS Mannheim, die Abkürzung bedeutet Corpus Search, Management and Analysis System. Das Korpus ist frei zugänglich und für wissenschaftliche und nicht-kommerzielle Zwecke kostenlos verfügbar.

Das Korpus umfasst über 3,9 Milliarden Wörter und besteht aus Zeitungs-, Sach- und Fachtexten, aber auch als Belletristik aus Österreich, der Schweiz und Deutschland. Zeitlich beginnt das Korpus 1772 und reicht bis zur Gegenwart. Das Korpus ist annotiert, also mit linguistischen Informationen angereichert.

 

Vor- und Nachteile:

Am DWDS sind die übersichtlichen Wortprofile sehr interessant. Man kann verschiedene Profile aufrufen (z.B. das gesuchte Wort hat Attribut, Präpositionalgruppe uvm.). Dabei handelt es sich zwar zunächst um grammatische Informationen, allerdings werden Häufigkeiten deutlich, die sehr einfach aufzurufen sind und auch für semantische Analysen von Interesse sein können.

Ebenfalls sehr interessant sind Wortverläufe. Dort wird gut deutlich, seit wann ein Wort im Korpus nachweisbar ist und auch in welcher Art von Veröffentlichung (Wissenschaft, Zeitung, Gebrauchsliteratur und Belletristik).

Ein Nachteil am DWDS ist jedoch, dass es häufig mehr Ergebnisse findet, als es anzeigt. Warum das so ist, ist uns nicht klar.

Ein Nachteil gegenüber COSMAS II und vor allem für unsere Arbeit ist die geringere Größe des DWDS. Weniger häufige Worte wie Burnout oder Hyperaktivität erzielen fast überhaupt keine Treffer.

Obwohl das DWDS einige sehr schöne Funktionen und Übersichten bietet, ist es leider für unsere Arbeit nur bedingt geeignet, da sich mit so wenigen Ergebnissen kaum valide Aussagen zu unserem Thema machen lassen.

Besser funktioniert unsere erste Recherche bei COSMAS II. Da das Korpus viel größer ist, sind die Ergebnisse viel aussagekräftiger. Leider ist die Korpusrecherche ein wenig unübersichtlicher und viel weniger anschaulich als beim DWDS. Dies stellt selbstverständlich kein Problem dar, COSMAS II erscheint uns geeignet, um zumindest einige unserer Hypothesen zu untersuchen.

 

Abschließend bleibt jedoch zu sagen, dass wir wohl nicht umhin kommen, unser eigenes Korpus zu erstellen, um unsere Hypothesen wirklich gut untersuchen zu können. Damit haben wir nach wie vor einige Probleme, aber wir sind zuversichtlich, diese bald in den Griff zu bekommen.

Hinterlasse eine Antwort

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *

Du kannst folgende HTML-Tags benutzen: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>