Schönes Chaos: Mein wundersames Leben (German Edition)
dafür. Walsh stellte die Formel vor und merkte an, dass sie allen Betrachtern rätselhaft vorkam. Zu Beginn des 20.Jahrhunderts war es üblich, dass Physiker Graphen dieser Art sehr sorgfältig und kritisch betrachteten, aber diese Haltung wurde von nachfolgenden Physikergenerationen erst wieder in den 1970er- und 1980er-Jahren aufgegriffen – während ich schon seit den frühen 1950ern dafür eingetreten bin.
Leider führt Zipfs Annahme zu Folgerungen, die schlicht unmöglich sind. Zum Beispiel impliziert sie, dass mit zunehmender Länge eines Texts etwa jedes zehnte Wort vorher noch nicht verwendet worden ist. Zu erwarten wäre aber, dass neue Wörter mit langsam abnehmender Rate auftreten. Schlimmer noch: Gemäß der Definition der Häufigkeit müssen sich die relativen Häufigkeiten der verschiedenen Wörter zu 100 Prozent addieren – doch Zipfs Formel widerspricht dieser unabdingbaren mathematischen Forderung. Ein leichter Ausweg bestünde im »Kürzen«: Man nimmt an, neue Wörter würden nicht länger addiert, sobald die Gesamtzahl verschiedener Wörter den Wert 22000 (ungefähr gleich e 10 ) erreicht hätte. Wie sollte eine so universelle Beschränkung sowohl für James Joyce als auch für einen Idioten gelten können? Mit modischen, in der Physik seit 1900 häufig verwendeten Begriffen ausgedrückt: Zipfs ursprüngliche Gleichung leidet am »Divergenzproblem«, einer »ultravioletten Katastrophe«, wodurch seine Behauptungen sich mathematisch selbst zerstören.
Könnte das einer der Gründe gewesen sein, weshalb jeder, der genauer hinsah, die ganze Angelegenheit verwarf? Zipfs Behauptungen schienen wunderbar objektiv, doch eigentlich verbargen sie das Problem, dass in seinen Graphen das Produkt Häufigkeit mal Rang nicht exakt der universellen Konstante von einem Zehntel entspricht. Es variiert! Doch ich muss zugeben, dass auch ich das nicht sofort beachtete. Ich erinnere mich aber, um der Argumentation willen akzeptiert zu haben, dass die ursprüngliche Formel die Daten zu einem gewissem Grad repräsentiert. Dann versuchte ich, sie auf ein Grundprinzip zu reduzieren – frei von jeglicher »Katastrophe«, die vielleicht James Joyce, Analphabeten und all die anderen dazwischen erklären konnte.
Die Tatsache, dass sie sich auf alle Sprachen anwenden lässt – also universell ist –, schließt ein, dass Zipfs Formel für den Kernbereich der Linguistik, die Grammatik, nicht relevant ist. Es war eines der wenigen eindeutigen Heureka-Erlebnisse meines Lebens, als ich erkannte, dass all das tiefgreifend mit der Informationstheorie und daher mit der statistischen Thermodynamik verknüpft sein könnte – ich ließ mich lebenslang von Potenzgesetzen und ihren Verteilungen einfangen. Jene »Details« waren sowohl Zipf – der keine Ausbildung als Wissenschaftler oder Mathematiker hatte – als auch Walsh entgangen. Wie auch immer, die Wertschätzung der Ideengeschichte macht einen nicht zum ausgebufften wissenschaftlichen Entdecker. Mein Glück ergab sich aus einem unfairen Vorteil. Ich sollte der erste – und auf unbestimmte Zeit der einzige – mathematisch gebildete Wissenschaftler sein, der Zipfs Gesetze ernst nahm.
Der Kepler der Worthäufigkeiten?
Warum sehe ich diese schicksalhafte Fahrt mit der Metro als einen Kepler-Moment? Für Kepler hatte ursprünglich die Ellipse die Rolle des Spielzeugs übernommen, eine esoterische geometrische Kurve mit wenig bekannten Anwendungsbereichen. Ich befasste mich mit einem esoterischen Kniff der Sprachwissenschaften auf dem Stand von 1950. Dieser Kniff – statistische Thermodynamik – ist einer der erhabensten Pfeiler der Physik.
Das entscheidende Merkmal des Exponenten der Zipf-Mandelbrot-Formel war aus der Begründung für die statistische Thermodynamik übernommen: eine »Temperatur für sprachlichen Ausdruck«. Damit ließen sich Unterschiede von Text zu Text und von Redner zu Redner messen. Er wies dem Umfang des Vokabulars eines Menschen einen numerischen Wert zu. Niedrige Temperatur, geringer Wortschatz. Hohe Temperatur, reicher Wortschatz. Die ursprüngliche Formel Zipfs stellt eine sehr enge Annäherung dar – aber sie ist irreführend. Zipf hatte Joyces Ulysses begrüßt, weil das Werks so lang, aber auch weil es untypisch war. Die Temperatur des sprachlichen Ausdrucks konnte ein leistungsfähiges Werkzeug soziologischer Messung werden, weil sie Belesenheit in einer Zahl festhielt.
So wurde diese lange Fahrt mit der Metro zum Zeugen des ersten von
Weitere Kostenlose Bücher