Warum Mathematik glücklich macht: 151 verblüffende Geschichten (German Edition)
folgende Liste ist ein Auszug aus Spivacks Analyse:
Häufigkeit i
1
2
3
4
5
6
7
8
9
10
Anzahl der Worte ni
14376
4343
2292
1463
1043
837
638
519
430
364
Das heißt, 14.376 Wörter kamen demnach in Shakespeares Opus nur einmal vor, 4343 Wörter zweimal usw. Die vollständige Tabelle dieser Häufigkeitsklassen ist wesentlich länger und informiert uns in ihrer Gesamtheit, dass 5 Wörter genau 100-mal verwendet wurden und insgesamt 846 Wörter mehr als 100-mal. In der damaligen Zeit war dies eine buchhalterische Herkulesaufgabe Spivacks. Wie im Reich des Geistes üblich fragen wir nicht, warum er so etwas Verrücktes tat, sondern etwas Leichteres:
Wie groß war Shakespeares Wortschatz insgesamt?
Im Jahr 1976 erschien ein Artikel der beiden Statistiker Bradley Efron und Ronald Thisted unter dem Titel Schätzung der Anzahl der ungesehenen Arten. Wie viele Wörter kannte Shakespeare? So unzugänglich das Erfragte zu sein scheint, man kann die Problematik seriös in den Griff kriegen, vorausgesetzt, man ist mit einer Schätzung zufrieden.
Die erwähnten Daten Spivacks können als Zusammenfassung einer Stichprobe aus Shakespeares Gesamtwortschatz angesehen werden. Die Grundidee besteht dann darin, jede Wortposition als eine Zufallsgröße zu betrachten. Angenommen, es gibt W verschiedene Wörter, und in einem Textkorpus von m Wörtern Umfang haben wir für w = 1, …, W jeweils m w Wörter vom Typ w. Nicht alle Wörter treten natürlich in einem m-Wörter-Text auf. Jene mit m w = 0 sind nicht vertreten. Nun wird die Annahme getroffen, dass Wörter vom Typ w (w = 1, …, W) zufällig auftreten mit einer je eigenen Rate von r w Stück pro Korpus von m Wörtern. Deutlicher gesagt: Die Anzahl m w ist der beobachtete Wert einer Poisson-verteilten Zufallsgröße, die statistisch um ihren Mittelwert r w streut. Die Poisson-Verteilung kann hier gerechtfertigt werden, wenn man noch annimmt, dass die Wahrscheinlichkeit, ein gegebenes Wort in einem gegebenen Textabschnitt anzutreffen, proportional zur Länge dieses Textabschnitts ist und dass ferner das Auftauchen eines Wortes an einer Stelle statistisch unabhängig vom Erscheinen oder Nichterscheinen des Wortes an allen vorausgehenden Textstellen ist. Mit diesen Annahmen konnten Efron und Thisted eine Beziehung herstellen zwischen den Anzahl-Daten m w und den Klassen-Daten n i der obigen Tabelle. Außerdem konnten sie von den Zählungen m w im m-Wörter-Korpus extrapolieren auf die zu erwartenden Zählungen in größeren Werken, sagen wir, in solchen Texten mit t · m weiteren Wörtern. Sei m w (t) die Anzahl der Wörter w im gesamten Textkorpus der dann (1 + t)m Wörter. Die getroffenen Annahmen liefern uns Folgendes:
m w (t) hat eine Poisson-Verteilung mit Mittelwert (1 + t)r w .
Die Stichprobe vom Umfang m ist repräsentativ für den größeren Bestand vom Umfang (1 + t)m Wörter.
Hieraus kann man mit der erwähnten Beziehung auch n(t), die Anzahl verschiedener Wörter im (1+t)m-Wort-Korpus schätzen. Die Schätzung des Gesamtvokabulars des Autors ergibt sich dann als der Grenzwert für immer größer werdendes t.
Hypothetisch sei einmal angenommen, ganz neue Shakespeare-Werke würden entdeckt mit demselben Umfang (d.h. auch 884.647 Wörter) wie die tatsächliche Stichprobe, die sein Opus ist. Dazu stellen wir eine Frage, mit der wir uns dem Untersuchungsgegenstand nähern: Wie viele Wörter könnten wir in dieser zweiten Stichprobe erwarten, die nicht auch schon in der ersten Stichprobe vertreten sind? Efron und Thisted konnten mit der beschriebenen Methode schätzen, dass 11.430 neue Wörter in dieser zweiten Stichprobe erwartet werden könnten. Dasselbe Argument wurde mit einer dritten, vierten und fünften Stichprobe wiederholt usw. Jede Stichprobe entspricht dabei hypothetisch gefundenen, ganz neuen Werken Shakespeares desselben Umfangs mit zufälligen Wortanzahlen gemäß der Poisson-Verteilung. Für jede Stichprobe kann man die Zahl ganz neuer Wörter abschätzen, die vorher noch in keiner Stichprobe aufgetaucht sind. Die Zahl neuer Wörter wird mit jeder weiteren Stichprobe immer kleiner. Schließlich, bei hinreichend vielen Wiederholungen dieses Prozesses, kommen keine neuen Wörter mehr hinzu; im konkreten Fall liegt dann die Gesamtzahl neuer Wörter in der zweiten bis letzten Stichprobe bei rund 35.000. Dies
Weitere Kostenlose Bücher