Google-Mitarbeiter Nr. 59
messbar. Aber das Hinzufügen der Hardware allein würde die Probleme von Google nicht beheben – auch ohne das Geschäft mit Yahoo.
»Unser Datenverkehr stieg lange Zeit um 8 Prozent pro Woche«, sagte Jeff Dean. »Bei solchen Wachstumsraten muss man kontinuierlich Softwareverbesserungen vornehmen, denn so schnell kann man die Hardware gar nicht nachrüsten. Alle arbeiteten hart, aber wenn man 4 Prozent Maschinen pro Woche hinzufügt und ein 8-Prozent-Wachstum hat, reicht das nicht. Deshalb arbeiteten wir unaufhörlich an der Verbesserung unseres Serversystems und suchten nach alternativen Designs für einzelne Teile, um mehr Datendurchsatz zu bekommen.« Diese Art von Software verlangte Kreativität und Designdurchbrüche, die nicht wie ein Server-Montageband geplant werden konnten.
»Es war gut für uns«, sagte Urs, der davon überzeugt war, dass die vertraglichen Verpflichtungen, ständig den Index zu aktualisieren und den Wartezeitgarantien zu entsprechen, Google zu »einem erwachsenen Unternehmen« machten, indem sie es zwangen, seinen eigenen Fortschritt engmaschig zu kontrollieren. »Wir wollten immer schnell sein, aber der Vertrag gab die maximale einstündige Latenz vor 64 . Wir mussten anfangen, zu messen. Sobald man etwas messen kann, ist es viel leichter, Ziele zu setzen und zu fragen: ›Können wir das im nächsten Monat 10 Prozent besser machen?‹ Auf diese Weise wurden viele Dinge losgetreten.«
Der letzte Crawl
Zusammen mit Geschwindigkeit und Kapazität hatte Google Yahoo aktuellere Ergebnisse versprochen. Ein scheinbar angemessenes Angebot, abgesehen davon, dass im März 2000 der Crawler von Google angeschlagen war und nur notdürftig lief. Die Googlebot-Software stolperte durch das Web, um URL-Adressen zu sammeln, verlor ihr Gleichgewicht und stürzte ab. Die Techniker starteten sie neu, und das Ganze wiederholte sich. Noch einmal versuchen. Absturz. Google hatte seit vier Monaten keinen neuen Index aufgebaut – ungefähr die Zeit, die ich im Unternehmen war, obwohl ich nie jemanden auf dieses Zusammentreffen hinwies.
Der Aufbau eines Indexes brauchte Wochen. Es mussten Information gesammelt werden, welche Websites existierten und welche Inhalte sie enthielten. Diese Daten mussten dann zu einer brauchbaren Liste von URL-Adressen kompiliert werden, die in eine Rangfolge gebracht und als Suchergebnisse präsentiert werden konnten, wenn jemand eine Suchanfrage abschickte. Die meisten User nahmen an, dass die Ergebnisse den genauen Status des Web zu dem Zeitpunkt widerspiegelten, wenn sie einen Suchbegriff eintippten. Deshalb verwirrte und verärgerte es sie manchmal, wenn sie ganz aktuelle Nachrichten und Informationen nicht fanden. Wenn ein Index seit mehr als einem Monat nicht aktualisiert worden war, wurde er merklich »abgestanden« und die Unzufriedenheit der User wuchs. Der Index von Google war nicht nur alt, er war von Moder bedeckt. Ohne einen funktionsfähigen Crawler würde Google seinen Vertrag mit Yahoo verletzen und – noch wichtiger – Google.com würde immer nutzloser werden.
»Der Crawler war nicht tolerant gegenüber Maschinenfehlern«, erinnert sich Jeff Dean, »ein halbwegs funktionierendes Chaos von Python-Scripts«, geschrieben, bevor er sich dem Unternehmen anschloss. 65 »Wenn eine Maschine mitten im Crawl ausfiel, brach er einfach ab. Dieser Crawler war nutzlos. Also starteten wir ihn neu. Wir crawlten wieder zehn Tage und wieder stürzte die Maschine ab. Na schön. Wirf alles weg. Fang neu an. Das war sehr mühsam.« Laut Jeff lautete das Motto für den Back-up-Plan: »Oh, Mist. Lasst es uns neu versuchen.«
Je größer der Index wurde, desto mehr Maschinen brauchte er, und je mehr Maschinen liefen, desto wahrscheinlicher wurde es, dass eine oder mehrere ausfielen 66 , insbesondere da Google nicht in Hardware investiert hatte, die bei Problemen warnte.
»Unsere Maschinen hatten keine Parität«, bekannte Jeff. Parität konnte einen informieren, wenn der Computerspeicher Bits sporadisch auf eine Weise verarbeitete, wie er es nicht sollte. »Speicher mit Parität waren für hochwertige Server gedacht und Speicher ohne Parität waren das, was als preiswerte Massenware gekauft wurde. Das Problem war, wenn man viele Daten hatte und diese sortieren ließ, werden sie mehr oder weniger sortiert. Lässt du sie wieder sortieren, fällt die Sortierung anders aus. Infolgedessen mussten die Techniker von Google eine Datenstruktur entwickeln, die widerstandsfähig war
Weitere Kostenlose Bücher