Der Google NGram Viewer

Der Google NGram Viewer ist ein Webtool, welches dem Nutzer ermöglicht, eine große Menge digitalisierter Bücher auf die Häufigkeit des Auftretens ausgewählter Wörter und Wortfolgen zu untersuchen. Der Viewer funktioniert über Data-Mining, also über das systematische Finden und Erkennen von Datenmustern. Im Fall des Google NGram Viewers sind diese Muster sogenannte N-Gramme, die das Ergebnis der Zerlegung eines Textes in Fragmente sind. Die Fragmente können hierbei Buchstaben, Phoneme, Wörter oder auch kurze Wortfolgen sein. Bei der Zerlegung des Textes werden jeweils N Fragmente als ein N-Gramm zusammengefasst, wobei das N für die Anzahl der Fragmente steht. So bildet beispielsweise der Buchstabe „A“ aber auch das Wort „laufen“ ein Monogramm, die Buchstabenfolge „AZ“ und die Wortfolge „laufen werden“ sind als Bigramme zu bezeichnen.

Das Tool stützt sich auf Textkorpora in den Sprachen Englisch, Deutsch, Spanisch, Französisch, Russisch, Italienisch, Hebräisch und Chinesisch, wobei die Sprache Englisch durch insgesamt vier Korpora vertreten ist: English, English Fiction, American English, British English. Alle Korpora basieren auf zufällig ausgewählten Publikationen, die zwischen 1500 und 2008 veröffentlicht und im Rahmen des Google Books Projekts digitalisiert wurden. Offizielle Zahlen zu der Anzahl von Büchern, deren Inhalte mit dem NGram Viewer durchsucht werden können, liegen nicht vor, es wird aber von etwa 5,2 Millionen ausgegangen.

Der User kann also mithilfe des Google NGram Viewers die Gebrauchsfrequenz des von ihm gewählten N-Gramms feststellen, aber auch die Häufigkeit des Vorkommens unterschiedlicher N-Gramme vergleichen. Die Vorkommensfrequenz der angegebenen N-Gramme wird im NGram Viewer in der vom Nutzer festgelegten Zeitspanne von Jahr zu Jahr angezeigt. Es wird Auskunft darüber gegeben, wieviel Prozent des gewählten Korpus aus dem gewählten N-Gramm bestehen. Hierbei muss erwähnt werden, dass lediglich N-Gramme, die in mindestens 40 Büchern des gewählten Zeitraums vorkommen, gelistet werden.

Die Recherche zum Vorkommen der N-Gramme ist dank der benutzerfreundlichen Eingabemaske ohne Anleitung möglich und nimmt nur wenig Zeit in Anspruch. Die Ergebnisse werden dem Nutzer in anschaulichen Graphen präsentiert. Ein paar Beispiele sollen nun die Anwendung des Google NGram Viewes illustrieren.

Vergleich der Gebrauchsfrequenz verschiedener N-Gramme

Bei der Basissuche werden vom User ein oder mehrere N-Gramme in die Maske eingegeben. In diesem Fall habe ich mich für die Monogramme chillen, faulenzen und relaxen entschieden. Es kann ein Häkchen in das Kästchen case-insensitive gesetzt werden, Groß- und Kleinschreibung wird bei der Suche nun nicht berücksichtigt. Der Nutzer hat außerdem die Möglichkeit, einen Smoothing Grad zwischen 0 und 50 auszuwählen und den Graphen zu glätten. Bei der Wahl des Smoothing Grades 3 würde dann beispielsweise für das Jahr 1990 die Gebrauchsfrequenz eines N-Gramms angegeben, die aus der Häufigkeit seines Vorkommens der Jahre 1987 bis 1993 zusammengesetzt ist. Basissuche mit dem Google NGram Viewer

Durch den Klick auf den Search lots of books Button wird zwischen der X-Achse, an der die Jahreszahlen vermerkt sind, und der Y-Achse, die anzeigt, wieviel Prozent des deutschen Korpus jeweils aus den eingegebenen Monogrammen bestehen, ein Graph aufgebaut, der beim Herüberfahren mit der Maus für jedes Jahr die Vorkommensfrequenz der N-Gramme anzeigt. Die Recherche zeigt u.a., dass faulenzen von den drei N-Grammen prozentual am häufigsten im deutschen Textkorpus vorkommt und dass die Gebrauchsfrequenz von chillen seit 2000 stark zugenommen hat.

Suchoptionen 

Neben der einfachen Basissuche bietet der NGram Viewer eine kleine Auswahl an Suchoptionen, die der User bei seiner Recherche in die Maske eingeben kann. Die wichtigsten sollen hier kurz vorgestellt werden.

Um Kollokationen zu einem N-Gramm zu finden, kann beim Wildcard Search in Verbindung mit einem Wort oder einer Wortfolge ein * in die Suchmaske eingesetzt werden. Dem Nutzer werden dann die zehn am häufigsten auftretenden Kollokationen zu dem von ihm gewählten N-Gramm angezeigt.Wildcard Search

Möchte sich der User die verschiedenen verwendeten grammatischen Kategorien eines N-Gramms anzeigen lassen, so kann er dies über den Inflection Search mit der Eingabe von _INF tun.Inflection Search

Manche Wörter können verschiedenen Wortarten zugeschrieben werden. Ein Beispiel hierfür ist das englische Wort book, was als Verb buchen und als Nomen Buch bedeutet. Mithilfe des Part-of-speech-tags (z.B. _NOUN_, _VERB_) kann der User sich die Gebrauchsfrequenz des Wortes, differenziert nach unterschiedlichen Wortarten, anzeigen lassen. Part of Speech

Unter https://books.google.com/ngrams/info können Informationen zu den genannten und weiteren Suchoptionen gefunden werden.

Fazit 

Der Google NGram Viewer ist ein spielerisches Tool, welches verwendet werden kann, um kulturelle, sprachliche und gesellschaftliche Veränderungen anhand von Sprachgebrauchsfrequenzen zu untersuchen. Mit nur wenigen Mausklicks können erste Hypothesen und Überlegungen zur Häufigkeit des Vorkommens bestimmter Wörter geprüft werden. Im Gegensatz zu vielen anderen Webtools erklärt sich die Handhabung dabei beinahe von selbst und auch die Ergebnisdarstellung in Form von bunten Graphen ist sehr anschaulich gestaltet.

Negativ fällt auf, dass die prozentual angegebenen Belege für ein N-Gramm nicht eingesehen werden können. Der Nutzer erfährt nicht, in welchen Publikationen das von ihm gewählte N-Gramm erwähnt wird. Darüber hinaus könnte man bemängeln, dass die Textkorpora mittlerweile veraltet sind und aktuelle Phänomene nicht untersucht werden können.

Den Google NGram Viewer findet ihr hier: https://books.google.com/ngrams

One thought on “Der Google NGram Viewer

  1. Die allgemeine Einführung in die n-Gramme ist natürlich richtig, aber im Falle der Google n-Grams muss man betonen, dass es sich hier um Wort-n-Gramme, also Ketten von Wörtern, und nicht um Buchstaben-n-Gramme, handelt.

    Sind die Publikationen wirklich zufällig im Sinne einer Zufallsauswahl ausgewählt? Ich denke, es ist eher eine pragmatische Zusammenstellung nach dem, was in den Bibliotheken, die Google als Kooperationspartner gewinnen konnte, verfügbar war und gemeinfrei war.

Comments are closed.