Google-Mitarbeiter Nr. 59
Googles Geheimrezept.«
»Geheimrezept?« Ich beugte mich vor, um zu erfahren, was wir im Unterschied zu allen anderen Suchmaschinen besaßen, die unsere Gründer so schnell abtaten.
»PageRank prüft alle diese Seiten im Netz und teilt ihnen einen Wert zu, basierend darauf, wer mit ihnen verlinkt ist. Je glaubwürdiger die verlinkten Seiten sind, desto höher der PageRank. Das ist die erste Hälfte des Rezepts.«
Ich schrieb »PageRank« unter die Ben-Franklin-Brille und zeichnete ein Oval drum herum. Es hatte Ähnlichkeit mit einem Clownmund, also ergänzte ich den Schädel und fügte an den Seiten ein paar Bozo-Haare an.
»Die zweite Hälfte besteht darin, wie wir festlegen, welche Ergebnisse die relevantesten sind für die spezifische Suchanfrage, die bei uns eingeht. Die meisten unserer Wettbewerber bewerten einfach, wie oft der Begriff auf der entsprechenden Seite auftaucht. Wir betrachten jedoch, wie die Seiten den Begriff verwenden. Welche Wörter tauchen in unmittelbarer Nähe auf? Ist der Begriff fett geschrieben oder auf andere Weise hervorgehoben? Wie taucht der Begriff in Links auf, die auf diese Seite verweisen? Die Analyse der Links ist sehr wichtig. Die Wörter in einem Link, die auf eine Seite verweisen, nennt man Anker-Text.«
Eine Kette wuchs aus dem Mund meines Clowns und fiel bis auf das Seitenende herab. Dort tauchte ein Anker auf, umgeben von grinsenden Fischen mit Haifischzähnen.
»Wie genau wir die Suchanfrage zuordnen, bestimmt unsere Suchqualität«, fuhr Craig fort. »Genaugenommen ist das nicht wissenschaftlich, da die Bewertung, welche Suchanfrage am besten wozu passt, ziemlich subjektiv ist. Wenn du nach ›Jaguar‹ suchst, meinst du dann das Auto, das Raubtier oder die Football-Mannschaft? Manchmal ist es schwierig, die Mehrdeutigkeit einer solchen Suchanfrage zu disambiguieren.«
Ich notierte »disambiguieren« und sagte es dreimal leise vor mich hin, damit es in meinen Wortschatz überging. Dann zeichnete ich etwas, das vage an eine gefleckte Raubkatze erinnerte, welche die Fische um den Anker herum jagte. Und da das Ganze unter Wasser spielte, fügte ich auch noch Luftblasen hinzu.
»Nachdem wir die Reihenfolge der Seiten festgelegt haben, die wir zeigen wollen, müssen wir die Ergebnisse an den User übermitteln, der die Suchanfrage gestellt hat. Das ist der Moment, an dem der Gwiss ins Spiel kommt.« Während er das sagte, schrieb Craig »GWS« auf das Whiteboard. Darunter notierte er »Google Web Server«. »Gwiss ist die Software, die tatsächlich mit Usern interagiert, wenn diese eine Suchanfrage schicken und wir ihnen die Resultate liefern. Wenn wir das Erscheinungsbild von Google aktualisieren wollen, müssen wir die Veränderungen im Gwiss implementieren.«
Ich hatte keine Idee, wie ein Gwiss aussehen könnte, also zeichnete ich hinter dem Kopf des Clowns ein Stück Schweizer Käse. Als Craig mit seinen Erläuterungen fertig war, hatte ich ein besseres Verständnis von der Art und Weise, wie Google arbeitete, und ein skurriles Männchen mehr für meine Sammlung, die ich nicht mit meinen neuen Kollegen teilen würde.
Später bestätigte Urs, dass Google andere in der Suchqualität bereits vernichtend geschlagen habe, noch bevor Larry und Sergey 1998 Stanford verließen. Die Linkanalyse sei der Stein der Weisen, um Webmüll in Gold zu verwandeln. Googles Relevanz lockte die ersten Anwender und die Medien an, aber hinter dem betörenden Äußeren schlummerte die Gefahr des Zusammenbruchs der arthritischen Infrastruktur. »Das Ranking schlug AltaVista um Längen«, erzählte mir Urs, »allerdings war es langsam und wir konnten keinen zuverlässigen Index erstellen.«
Die Herausforderung, Googles Crawling-, Indexing- und Serving-Systeme zu verbessern, hatte Urs in die Firma gelockt. Er hatte geschätzt, dass sich dieses Projekt etwa ein Jahr hinziehen würde, und dann wollte er zurück nach Europa. »Ich habe unterschätzt, wie sehr diese Sache ein grundsätzliches Systemproblem war«, vertraute er mir an. »Wir hatten ein Universitätssystem und mussten es von Grund auf komplett umschreiben.« Google leistete zwar gute Arbeit mit den vorhandenen Daten, aber es sammelte viel zu wenig Daten und durchsuchte diese nicht schnell genug.
Geschwindigkeit oder Umfang. Such dir eins von beiden aus. Wenn wir mehr Webseiten crawlten, wurde der Index umfangreicher und der PageRanker konnte aus mehr Daten schöpfen, damit wir relevantere Ergebnisse generieren konnten. Das
Weitere Kostenlose Bücher