Das Deutsche Textarchiv

 

Das Deutsche Textarchiv wird durch die “Deutsche Forschungsgemeinschaft” (DFG) unterstützt und hat ihren Sitz in der Berlin-Brandenburgischen Akademie der Wissenschaften (BBAW). Das Projekt, welches seit Beginn 2007 läuft, befindet sich bereits in der dritten Projektphase.

Bis Juli 2014 wurden 1320 Texte in das Kernkorpus aufgenommen und enthält somit ca. 100 Millionen Textwörter bzw. 695 Millionen Zeichen. Der geplante Umfang beträgt ca. 1600 Texte des 17. bis 19. Jahrhunderts. Geleitet wird das Projekt von Professor Dr. Wolfgang Klein. Den genauen Überblick zum DTA-Team findet ihr hier.

Die Online-bzw. Volltextdatenbank des DTA ist für jeden Interessierten zugänglich, da es eine frei verfügbare Ressource im Internet ist. Die enthaltenen oder nachgewiesenen Dokumente können dennoch zugangsbeschränkt oder kostenpflichtig sein. Sämtliche Texte stehen zum Download bereit.

Das Kernkorpus bilden Texte unterschiedlicher Textsorten und Disziplinen, welche mit dem Ziel zusammengestellt wurden, das gesamte Spektrum der deutschen Sprache zu erfassen. Somit soll ein ausgewogenes historisches Referenzkorpus geschaffen werden. Das Deutsche Textarchiv unterscheidet sich von anderen umfangreichen Textsammlungen (wie z. B. Google Books) durch eine sorgfälltige Teztauswahl, die sehr hohe Erfassungsgenauigkeit durch strukturelle und linguistische Erschließung der Textdaten sowie die Verlässlichkeit der Metadaten. Das DTA dient als Grundlage für ein Referenzkorpus der neuhochdeutschen Sprache im Zeitraum von ca. 1600 bis 1900.

Die Textauswahl erfolgt auf Grundlage einer von Akademiemitgliedern erstellten und ausführlich kommentierten, umfangreichen Bibliografie. Ergänzend werden dazu einschlägige Literaturgeschichten und (Fach-)Bibliografien ausgewertet. Somit wird ein ausgewogenes Korpus zusammengestellt, dass repräsentativ für die Entwicklung der deutschen Sprache seit der frühen Neuzeit steht. Um den Sprachstand möglichst genau abzubilden, werden als Vorlage für die Digitalisierung in der Regel die Erstausgaben, also die erste gedruckte, selbstständige Publikation, der Werke zugrunde gelegt. Die Verteilung der Texte soll hinsichtlich der Disziplinen und Textsorten ausgewogen sein.
Die folgenden Diagramme zeigen die Verteilung der DTA-Texte auf Basis der jeweiligen Anzahl der Titel.
Im DTA verfügbare Werke nach Genre

Im DTA verfügbare Werke nach Genre

Im DTA verfügbare Werke nach Genre und Dekade
Das Kernkorpus enthält Titel, die überregional wirksam sind und dokumentiert somit die Entwicklung einer überregionalen Umgangssprache im hochdeutschen Sprachraum seit dem Ende der frühneuhochdeutschen Sprachperiode. Regionalismen, welche vor allem in älteren Texten zu finden sind, werden nicht ausgeschlossen, sondern stellen einen wichtigen Aspekt innerhalb dieser Entwicklung dar. Literatur, welche nur auf bestimmte Dialektgebiete begrenzt ist, bleibt im DTA-Kernkorpus weitestgehend unberücksichtigt.
Das Deutsche Textarchiv ist an keine bestimmte Disziplin gebunden. Es kann sprachhistorische Forschungen möglich machen, ist aber nicht darauf beschränkt. Der Schwerpunkt liegt auf den Geistes- und Sozialwissenschaften. Nebenher werden aber auch naturwissenschaftliche und medizinische Texte aufgenommen, die wissenschafts-oder sprachhistorisch eine wichtige Rolle gespielt haben.

In der Zunkunft soll sich das DTA  zu einem “aktiven Archiv” weiterentwickeln, welches allen Interessierten im Internet frei zugänglich ist.

Suchoptionen:
Deshalb ist es möglich, Suchanfragen durch bestimmte Wortarten-, Kontext- und Metadatenfilter zu präzisieren.

Im Anschluss werden einige der wichtigsten Suchoptionen erörtert und einige Ergebnisse präsentiert:

1. Einfache Suche
Bei der einfachen Wortsuche werden ebenso flektierte Formen sowie orthographische Varianten des Suchwortes angezeigt:
aaa
Soll nur nach einer bestimmten Wortform oder Variante gesucht werden, sollte @ vor das gesuchte Wort gesetzt werden:
aab
Wird nun nach Wörtern gesucht, die eine exakte Zeichenkette enthalten sollen, so wird die gesuchte Zeichenkette in // gesetzt:
aac

 

2. Phrasensuche

Bei der Phrasensuche muss das Gesuchte in “” gesetzt werden. Ebenfalls werden flektierte Formen und orthographische Varianten angezeigt.

aav

Des weiteren kann die Suchanfrage mit einem Abstandsoperator # versehen werden.

Ist hierbei die Reihenfolge nicht wichtig, stelle ich meine Suchanfrage wie in der dritten Spalte der vorliegenden Tabelle.

3. Part-of-speech-Suche
Alle vorliegenden Texte des DTA wurden mit einer linguistischen Annotation versehen, d. h. alle Wörter wurden mit Tags markiert, in denen die Wortart sowie die unflektierte Form gespeichert ist. Dadurch ist es möglich die Suchanfragen detailliert und bestimmt zu stellen:
aan

 

4. Position im Satz

 

Des weiteren existieren zahlreiche andere Suchmodi, wie beispielsweise inhaltliche und typographische Kontextfilter und Filter auf Basis der Metadaten, d. h. Autor, Textgattung, Zeitraum, usw.

 

Präsentation: Präsentation_DTA