Die erste Prüfung der Daten

Nachdem das Netzwerk in eine gut zu verarbeitende Form gebracht ist, können die ersten Eigenschaften bestimmt werden. Es muß geprüft werden, ob das gefundene Netzwerk ein skalenfreies Netzwerk ist. Dazu müssen die Indegree- und Outdegree-Verteilung bestimmt werden. Die Bestimmung zeigte jedoch, daß die Inlinkverteilung etwa den erwarteteten Exponenten hat, die Outlinkverteilung aber bei Knoten mit 16 Outlinks abbricht. Nachforschungen bei der Freenet AG lieferten die Information, daß die Datenbanken nur maximal die ersten 16 unterscheidbaren Outlinks einer Seite speichern. Damit ist die Bestimmung wesentlicher Eigenschaften des Netzwerks nicht möglich. Die Durchführung eines eigenen Webcrawls birgt einen erheblichen Aufwand in sich und kommt für die Fehlerbehebung nicht in Frage. Dieser Aufwand ist auch nicht nötig. Die Crawler-Programme haben alle Outlinks verfolgt und nur die Speicherung in den Datenbanken ist auf 16 Outlinks begrenzt. In diesem Sinne ist die Menge der Seiten des Webcrawls vollständig und nur die Verweise zwischen den Seiten sind unvollständig.

Tabelle: Aufbau der HTML-Datei einer Webseite: Texte in spitzen Klammern stellen Befehle dar. Hyperlinks werden durch '