Blackbox Suchmaschine I

Von Kai Lehmannam 3.10.05 um 16:21

Google & Co. sind die zentralen Marktplätze im Internet; ohne sie würden sich nur wenige Menschen im Web zurechtfinden. Über 90 Prozent aller Internet-Nutzer greifen deshalb auf Suchmaschinen zurück – nicht immer als kundige Verbraucher, denn sowohl das WWW als auch die Suchmaschinen haben ihre Untiefen.

Stochern im Nebel
Es beginnt beim Netz der Hyperlinks: Die Zahl der weltweit vorhandenen Webseiten ist technisch nicht zu bestimmen (ausführliches dazu im Buch “Web Information Retrieval” von Dirk Lewandowski). Eine Studie der Wissenschaftler Antonio Gulli und Alessio Signorinialso schätzte Ende Januar 2005 die Zahl der indexierbaren Webseiten auf rund 11,5 Milliarden; Informationen in Datenbanken, auf geschlossenen und dynamischen Webseiten sowie die mit Webseiten verknüpften Dokumente sind hier nicht mit eingerechnet. Das so genannte Deep Web wird auf bis zu 500mal größer als das indexierbare Web geschätzt. Bei dieser Zahl wird klar, wie wichtig Suchmaschinen sind, um Informationen zu finden.

Doch deren Angaben bringen nicht etwas Licht ins Dunkel, sondern verwirren noch mehr: Bisher galt Google mit rund rund 8 Milliarden Webseiten als Marktführer. Nach dieser Rechnung dürfte ein erheblicher Teil des WWW in deren Index fehlen. Es ist also davon auszugehen, dass Suchmaschinen bei weitem nicht alles im Netz erfassen.

Das durchsuchbare Web
Als Yahoo! im August 2005 aber einen eigenen Index-Umfang von 19,2 Mrd. Web-Dokumenten verkündete, kam die Diskussion über die Vergleichbarkeit und den Sinn solcher Angaben ins Rollen. Mit leichter Verzögerung und kurz nach seinem 7. Geburtstag zog Google nach: Erstens nahm das Unternehmen die Zahl der indexierten Webseiten von der Startseite und behauptete zweitens, dass die eigene Datenbank mindestens dreimal so viele Dokumente umfassen würde wie die der Konkurrenz. Demnach wären dies also mindestens 60 Mrd. Dokumente (nicht Webseiten).

Für Deutschland errechnete Andreas Pothe in einer Untersuchung für das Regionale Rechenzentrum für Niedersachsen, dass von den geschätzten 320 Millionen deutschen Webseiten (Anfang 2005) nur 60 Prozent beim Marktführer Google zu finden seien. Schlusslicht Fireball kennt gerade einmal jede zweite deutsche Domain – und entsprechend weniger Webseiten.


Dieser Beitrag ist ein aktualisierter Auszug aus “Die Google-Gesellschaft

Eingeordnet unter: Suchmaschinen, Google-Gesellschaft |

5 Kommentare Eigenen Kommentar verfassen.

  • 1. Bloogle » Blackbox &hellip  |  7.10.05 um 9:57

    […] ontrollverluste. Sichtbar ist, wer vorne steht Denn Suchmaschinen sind nicht nur, wie im ersten Teil beschrieben, lückenhaft in dem, was sie uns präsentiere […]

  • 2. Bloogle » Blackbox &hellip  |  12.10.05 um 17:51

    […] (herrlich 90er, oder?): Weder wissen wir allzu viel über Umfang und Struktur des Netzes (Teil I), noch tragen Suchmaschinen zu mehr Transparenz bei (Teil II). […]

  • 3. Bloogle » Blackbox &hellip  |  19.10.05 um 17:16

    […] Dieses Interview ist dem Beitrag Blackbox Suchmaschinen entnommen, der in dem Buch Die Google-Gesellschaft erschienen ist. Das Interview wurde zum Jahreswechsel 2005 geführt. Die ersten Teile (I, II, III) dieser Serie wurden für das Weblog aktualisiert. […]

  • 4. Bloogle » Blackbox &hellip  |  31.10.05 um 16:53

    […] Dieses Interview ist dem Beitrag Blackbox Suchmaschinen entnommen, der in dem Buch Die Google-Gesellschaft erschienen ist. Das Interview wurde zum Jahreswechsel 2005 geführt. Die ersten Teile (I, II, III) dieser Serie wurden für das Weblog aktualisiert. Ein Interview mit Marcel Machill ist hier zu lesen: IV, V. Der zweite Teil des Interviews ist hier in den kommenden Tagen zu lesen. […]

  • 5. Bloogle » Blackbox &hellip  |  2.11.05 um 16:36

    […] Dieses Interview ist dem Beitrag Blackbox Suchmaschinen entnommen, der in dem Buch Die Google-Gesellschaft erschienen ist. Das Interview wurde zum Jahreswechsel 2005 geführt. Die ersten Teile (I, II, III) dieser Serie wurden für das Weblog aktualisiert. Ein Interview mit Marcel Machill ist hier zu lesen: IV, V. Der erste Teil des Interviews ist hier zu lesen. […]

Einen Kommentar hinzufügen

Du musst eingeloggt sein, um zu Kommentare zu schreiben.

Trackback URI  |  RSS Feed für Kommentare zu diesem Beitrag


Kalender

October 2005
M T W T F S S
« Sep   Nov »
 12
3456789
10111213141516
17181920212223
24252627282930
31  

Die letzten Artikel