next up previous contents
Nächste Seite: Prüfung der Daten: Bestimmung Aufwärts: Der Webcrawl Vorherige Seite: Das erneute Abrufen aller   Inhalt

Umfang der endgültigen Datenmenge

Das Ergebnis ist ein Netzwerk mit $18 \cdot 10^6$ Knoten, dabei sind zuvor ca. $2 \cdot 10^6$ Knoten aufgrund von serverseitigen Fehlermeldungen (Domain nicht mehr existent, Seite nicht mehr existent, Server offline, Zugangsbeschränkungen, etc.) entfallen. Die Anzahl der Links betrug anfangs $260 \cdot 10^{6}$ , allerdings führten davon ca. $145 \cdot
10^{6}$ Links aus dem Crawl heraus. Diese externen Links sind entfernt worden, damit das extrahierte Netzwerk mit den Voraussetzungen der Netzwerkmodelle übereinstimmt. Ebenso sind zuvor doppelte Verbindungen zusammengefaßt worden. Damit besteht das neue und hier untersuchte Netz aus $N = 18008798$ Knoten und $N_L = 114768424$ Links.



Autor:Lutz-Ingo Mielsch