Nächste Seite: Gemeinsame In- und Outdegree
Aufwärts: Vermessung des deutschen World-Wide-Web
Vorherige Seite: Umfang der endgültigen Datenmenge
Inhalt
Prüfung der Daten: Bestimmung der Verteilungen und der charakteristischen Parameter
In diesem Abschnitt wird zunächst geprüft, ob das Netz eine
skalenfreie Natur hat, wie sie aus früheren Untersuchungen des WWW bereits
bekannt ist.
Dazu sind die Inlink- und Outlinkverteilungen zu untersuchen, um festzustellen,
ob das Netz die erwartete Statistik aufweist. Das
Programm summiert dazu in einem Array der
Größe
zu jedem Knoten die Anzahl eingehender
Links, um den Indegree zu bestimmen. Schließlich gibt es zu jedem
möglichen Indegree die Anzahl solcher Knoten aus. Entsprechend für den
Outdegree.
Abbildung:
Doppelt-logarithmischer Plot der Inlink-Verteilung des Netzes: Wahrscheinlichkeit
einen Knoten mit
Inlinks zu finden.
 |
Abbildung:
Doppelt-logarithmischer Plot der Outlink-Verteilung des Netzes: Wahrscheinlichkeit
einen Knoten mit
Outlinks zu finden.
 |
Wie bei den vorherigen Untersuchungen (vgl. Tab. 3.5) zeigt die Indegree-Verteilung
(Abb. 3.4) einen
durchgehend klaren Verlauf eines Potenzgesetzes. Ebenso stellt der
anfängliche exponentielle Verlauf der Outdegree-Verteilung (Abb. 3.5) und der
anschliessende Übergang in ein Potenzgesetz den typischen Verlauf aus
anderen Meßungen dar [12,13,14].
Sowohl bei der Inlink- als auch bei der Outlinkverteilung waren einige Meßpunkte bei
etwa 1100 Links auffällig. Genauere Untersuchungen dieser Seiten ergaben,
daß diese alle ihren Ursprung innerhalb der Website
``http://www.singles.de'' haben. Diese Website ist ungewöhnlich aufgebaut.
Es ist auf jeder Seite - dieser Site - eines dort registrierten
Benutzers eine Link-Liste zu allen ca. 1100 anderen Benutzerseiten
vorhanden. Dieser vollkommen miteinander verbundene Cluster führte zu ca.
1100 Seiten mit einem In- und Outdegree von jeweils 1100. Bei den
statistischen Auswertungen sind diese Seiten bereits entfernt worden.
In der Outdegree-Verteilung (Abb. 3.5) fällt bei etwa
eine besondere Häufung auf. Die Ursache scheint eine einzelne
Gruppe von besonderen Webseiten zu sein. Diese Seiten zeichnen sich durch
eine feste Vorgabe von ca. 50 verschiedenen Outlinks zu Werbezwecken aus.
Eine genaue Identifikation aller ursächlichen Seiten in der Menge von ca.
180000 Seiten um
ist jedoch schwierig. Daher sind diese Seiten
nicht entfernt worden. Allerdings finden sich
ähnliche Abweichungen ebenfalls in den Verteilungen anderer Untersuchungen
[13].
Um den Verlauf der Verteilungen klarer darzustellen, sind diese in Abbildung
3.6 und Abbildung 3.7 mittels
Logbinning gemittelt dargestellt und es wurde eine Gerade an den
Verlauf gefittet. Die Indegrees sind offenbar nach einem Potenzgesetz
verteilt und der Exponent
liegt sehr gut im Bereich vorangegangener Crawls
von
. Die Outlinkverteilung hat
ebenfalls die erwartete Form, der Exponent liegt mit
in dem erwarteten Bereich von
bis
(vgl. Tab. 3.5).
Abbildung:
Inlink-Verteilung des Webcrawl, (+) log-gebinnte Daten, (-) fit:
 |
Abbildung:
Outlink-Verteilung des Webcrawl, (+) log-gebinnte Daten, (-) fit:
 |
Damit kann angenommen werden, daß diese Stichprobe des
World-Wide-Web die wesentlichen Eigenschaften des gesamten Netzwerks wiederspiegelt.
In den folgenden Abschnitten werden weitergehende Eigenschaften bestimmt, um einen
genaueren Aufschluß über die Topologie des WWW zu gewinnen.
Nächste Seite: Gemeinsame In- und Outdegree
Aufwärts: Vermessung des deutschen World-Wide-Web
Vorherige Seite: Umfang der endgültigen Datenmenge
Inhalt
Autor:Lutz-Ingo Mielsch