Google-Mitarbeiter Nr. 59
allem«, sagte Jeff, »wollten wir mit diesen Maschinen viel mehr Anfragen pro Sekunde bedienen. Ein wichtiger Punkt war die vollständige Änderung des Index-Formates, um es kompakter zu machen.«
Allgemein verständlich ausgedrückt war der Index von Google voll mit Leerzeichen, sie hingen an den Daten wie Schlabberhosen und liefen ständig Gefahr, den Boden zu berühren. Google vergeudete wertvolle Zeit damit, leere Taschen zu durchsuchen, um die Bits zu finden, die es brauchte. Eine der Neuerungen von »JeffnSanjay« war, die meisten Varianten der Grundform eines Wortes in einen einzelnen Block in der Datenbank zu schieben. Als würdest du in deiner Geldbörse die Cents von den Euros trennen, sodass du keine Zeit verschwendest, wenn du in dieser Börse nach einem Zehn-Cent-Stück suchst. Die Software, die den Index durchsuchte, konnte anhand des Datenblockkopfes schnell erkennen, dass aus diesem Block nichts gebraucht wird, und weiterspringen. Dadurch wird jede Maschine schneller.
»Wir verbesserten das«, sagte Jeff, »und fügten Sprung-Tabellen hinzu, um noch größere Einheiten als nur Blöcke auszulassen.« Das Ziel war, die Anzahl der Vorgänge zu minimieren, wie oft Google jede Festplatte las, weil das physische Bewegen eines Kopfes über eine Festplatte viel langsamer ist als das Arbeiten innerhalb eines elektronischen Schaltkreises. »JeffnSanjay« schrieben die Festplattensteuerung um und gaben jeder Platte einen eigenen Satz von Codes. Das reduzierte die Suchzeiten um 30 bis 40 Prozent. Eine 30-Prozent-Verbesserung entsprach dem Laufen einer Vier-Minuten-Meile in unter drei Minuten. Eine atemberaubende Leistung. Aber es war nicht genug.
Also schafften Jeff und Sanjay »The« ab.
Das »The« ist das am häufigsten vorkommende Wort im Englischen, aber es transportiert kaum nützliche Information. »JeffnSanjay« beschlossen, »The« zu ignorieren, und damit 1 Prozent des Platzes freizumachen, der vom Index benutzt wurde. Die einzige Kehrseite? Es wurde ungeheuer schwierig, Information über die alternative Rockband der Achtzigerjahre mit dem Namen »The The« zu finden: Fortschritt der Technik bedeutet eben auch, Kompromisse einzugehen.
Um zu verhindern, dass ein Fehler einer einzelnen Maschine die Daten ruinierte und einen kompletten Neustart des Crawls erforderte, führte das Team der Einsatzzentrale Prüfpunkte ein, an denen der Stand des Crawls gesichert wurde, sodass sie zum letzten Prüfpunkt zurückgehen konnten, wenn etwas schiefging, anstatt wieder bei null anzufangen.
Die Hardware war auf dem Weg zu den Rechenzentren, der Crawler, der Indexer, der Pageranker und die Userseiten machten Fortschritte. Damit blieb nur noch ein Thema. Yahoo wollte, dass seine Suchergebnisse aktuell wirkten, also bestanden sie darauf, dass mindestens ein Teil des Indexes tagtäglich aktualisiert wurde.
Stellen Sie sich einen Falschspieler am Blackjack-Tisch vor. Er präpariert sorgfältig die Karten, um sicherzustellen, dass jeder ein gutes Blatt hat, aber nicht so gut wie sein eigenes. Er fängt an, die Karten auszuteilen. Stellen Sie sich jetzt vor, wie er versucht, durch das Ausgeben neuer Karten sowohl das eigene Blatt als auch das der anderen zu verbessern. So in etwa gestaltete sich unser Problem.
Der PageRank-Algorithmus von Google brauchte anderthalb Tage, um einen Index zu bewerten. Alle 24 Stunden zusätzliche Informationen hinzuzufügen bedeutete, dass der Pageranker schneller laufen musste, während er die neuen Daten integrierte. »Es ist ein viel größeres Problem, einen Index jeden Tag zu aktualisieren, als einen statischen Index zu haben«, erklärte Jeff. »Es gibt viel mehr sich verändernde Bestandteile, die man berücksichtigen muss.«
Jeff war ausgepowert. Sanjay überlastet. Ben Gomes’ Festplatte war voll. Das Entwickeln eines inkrementellen Indexsystems würde mit einer nur dafür eingesetzten Mannschaft von Entwicklern Jahre brauchen, aber es blieben nur wenige Wochen, bevor der Vertrag in Kraft trat. Larry und Sergey, die das verzweifelte Bemühen erkannten, öffneten die Schleusentore und gaben Urs unbeschränkte Vollmacht, zu tun, was erforderlich war. Niemals eine Gelegenheit vergeudend, ging Urs mit ganzer Kraft voran. Er stellte jemanden ein.
»Ich hatte keine Erfahrung mit Crawlern«, erinnert sich Anurag Acharya, »und Google erzählte den Leuten nicht, woran sie arbeiteten.« Urs hatte sein Sirenen-Lied in Reinform gesungen und seinen ehemaligen Kollegen an der
Weitere Kostenlose Bücher