Archive for October 3rd, 2005

Die Technik hinter der Google-Gesellschaft

Monday, October 3rd, 2005

Im Beitrag vorher habe ich es schon kurz angedeutet: Dirk Lewandowski, Informationswissenschaftler und freier Berater zum Thema Suchmaschinen, stellt sein Buch “Web Information Retrival - Technologien zur Informationssuche im Internet” frei zugänglich ins Netz. Wohl auch in der Hoffnung, dass die Leute dann doch das gedruckte Exemplar bevorzugen (so @-web).

Schon Janko Röttgers hat mit seinem Buch “Mix, Burn & R.I.P. Das Ende der Musikindustrie” und einer Veröfentlichung im Internet gute Erfahrungen gemacht. Dieser aber stellt sein Buch zudem unter Creative Commons-Lizenz ins Netz. Nachahmenswert!

Landowskis Werk ist eine umfassende Betrachtung der technischen Hintergründe der Google-Gesellschaft: Er behandelt die strukturellen Eigenheiten des WWW und der Dokumente ebenso wie die Suchmaschinen und deren Logiken. Ein ideales Werk, um immer wieder mal Details zu den Prinzipien der Suchmaschinen nachzuschlagen, um Quellen zu finden und Statistiken zu zitieren.

Eine ausführliche Besprechung zum Buch gibt es bei @-web.

Blackbox Suchmaschine I

Monday, October 3rd, 2005

Google & Co. sind die zentralen Marktplätze im Internet; ohne sie würden sich nur wenige Menschen im Web zurechtfinden. Über 90 Prozent aller Internet-Nutzer greifen deshalb auf Suchmaschinen zurück – nicht immer als kundige Verbraucher, denn sowohl das WWW als auch die Suchmaschinen haben ihre Untiefen.

Stochern im Nebel
Es beginnt beim Netz der Hyperlinks: Die Zahl der weltweit vorhandenen Webseiten ist technisch nicht zu bestimmen (ausführliches dazu im Buch “Web Information Retrieval” von Dirk Lewandowski). Eine Studie der Wissenschaftler Antonio Gulli und Alessio Signorinialso schätzte Ende Januar 2005 die Zahl der indexierbaren Webseiten auf rund 11,5 Milliarden; Informationen in Datenbanken, auf geschlossenen und dynamischen Webseiten sowie die mit Webseiten verknüpften Dokumente sind hier nicht mit eingerechnet. Das so genannte Deep Web wird auf bis zu 500mal größer als das indexierbare Web geschätzt. Bei dieser Zahl wird klar, wie wichtig Suchmaschinen sind, um Informationen zu finden.

Doch deren Angaben bringen nicht etwas Licht ins Dunkel, sondern verwirren noch mehr: Bisher galt Google mit rund rund 8 Milliarden Webseiten als Marktführer. Nach dieser Rechnung dürfte ein erheblicher Teil des WWW in deren Index fehlen. Es ist also davon auszugehen, dass Suchmaschinen bei weitem nicht alles im Netz erfassen.

Das durchsuchbare Web
Als Yahoo! im August 2005 aber einen eigenen Index-Umfang von 19,2 Mrd. Web-Dokumenten verkündete, kam die Diskussion über die Vergleichbarkeit und den Sinn solcher Angaben ins Rollen. Mit leichter Verzögerung und kurz nach seinem 7. Geburtstag zog Google nach: Erstens nahm das Unternehmen die Zahl der indexierten Webseiten von der Startseite und behauptete zweitens, dass die eigene Datenbank mindestens dreimal so viele Dokumente umfassen würde wie die der Konkurrenz. Demnach wären dies also mindestens 60 Mrd. Dokumente (nicht Webseiten).

Für Deutschland errechnete Andreas Pothe in einer Untersuchung für das Regionale Rechenzentrum für Niedersachsen, dass von den geschätzten 320 Millionen deutschen Webseiten (Anfang 2005) nur 60 Prozent beim Marktführer Google zu finden seien. Schlusslicht Fireball kennt gerade einmal jede zweite deutsche Domain – und entsprechend weniger Webseiten.


Dieser Beitrag ist ein aktualisierter Auszug aus “Die Google-Gesellschaft