next up previous contents
Nächste Seite: Das erneute Abrufen aller Aufwärts: Der Webcrawl Vorherige Seite: Der Webcrawl   Inhalt

Die erste Prüfung der Daten

Nachdem das Netzwerk in eine gut zu verarbeitende Form gebracht ist, können die ersten Eigenschaften bestimmt werden. Es muß geprüft werden, ob das gefundene Netzwerk ein skalenfreies Netzwerk ist. Dazu müssen die Indegree- und Outdegree-Verteilung bestimmt werden. Die Bestimmung zeigte jedoch, daß die Inlinkverteilung etwa den erwarteteten Exponenten hat, die Outlinkverteilung aber bei Knoten mit 16 Outlinks abbricht. Nachforschungen bei der Freenet AG lieferten die Information, daß die Datenbanken nur maximal die ersten 16 unterscheidbaren Outlinks einer Seite speichern. Damit ist die Bestimmung wesentlicher Eigenschaften des Netzwerks nicht möglich. Die Durchführung eines eigenen Webcrawls birgt einen erheblichen Aufwand in sich und kommt für die Fehlerbehebung nicht in Frage. Dieser Aufwand ist auch nicht nötig. Die Crawler-Programme haben alle Outlinks verfolgt und nur die Speicherung in den Datenbanken ist auf 16 Outlinks begrenzt. In diesem Sinne ist die Menge der Seiten des Webcrawls vollständig und nur die Verweise zwischen den Seiten sind unvollständig.


Tabelle: Aufbau der HTML-Datei einer Webseite: Texte in spitzen Klammern stellen Befehle dar. Hyperlinks werden durch ' $<a href=''URL''>$ Beschreibung $</a>$' dargestellt. Hyperlinks sind nur gültig, wenn sie im Hauptteil der Seite zwischen $<body>$ und $</body>$ erscheinen.

$<html>$

$<head>$
$<title>$Titel der Seite$</title>$
$<meta name=$''author'' $content=$''Name des Autors''$>$
...
$</head>$
$<body>$
.
.
$<a href=$''http://www.uni-kiel.de/index.html''$>$ Meine Universität $</a>$
.
.
$</body>$
$</html>$



next up previous contents
Nächste Seite: Das erneute Abrufen aller Aufwärts: Der Webcrawl Vorherige Seite: Der Webcrawl   Inhalt
Autor:Lutz-Ingo Mielsch