next up previous contents
Nächste Seite: Gemeinsame In- und Outdegree Aufwärts: Vermessung des deutschen World-Wide-Web Vorherige Seite: Umfang der endgültigen Datenmenge   Inhalt


Prüfung der Daten: Bestimmung der Verteilungen und der charakteristischen Parameter

In diesem Abschnitt wird zunächst geprüft, ob das Netz eine skalenfreie Natur hat, wie sie aus früheren Untersuchungen des WWW bereits bekannt ist.

Dazu sind die Inlink- und Outlinkverteilungen zu untersuchen, um festzustellen, ob das Netz die erwartete Statistik aufweist. Das Programm summiert dazu in einem Array der Größe $18 \cdot 10^6$ zu jedem Knoten die Anzahl eingehender Links, um den Indegree zu bestimmen. Schließlich gibt es zu jedem möglichen Indegree die Anzahl solcher Knoten aus. Entsprechend für den Outdegree.

Abbildung: Doppelt-logarithmischer Plot der Inlink-Verteilung des Netzes: Wahrscheinlichkeit $P(i)$ einen Knoten mit $i$ Inlinks zu finden.
\begin{figure}\noindent
\centering\epsfig{file=eps/inlinks_data.eps, width=15cm}
\vskip 0.1in\end{figure}

Abbildung: Doppelt-logarithmischer Plot der Outlink-Verteilung des Netzes: Wahrscheinlichkeit $P(j)$ einen Knoten mit $j$ Outlinks zu finden.
\begin{figure}\noindent
\centering\epsfig{file=eps/outlinks_data.eps, width=15cm} \vskip 0.1in\end{figure}


Tabelle: Charakteristische Exponenten ( $\nu _{in}/\nu _{out}$) für gemessene Degree-Verteilungen $P(k)\sim k^{-\nu }$ am WWW und der mittlere Degree $<k>$ der Netze.
Größe $<k>$ $\nu _{out}$ $\nu _{in}$ Referenz
$3 \cdot 10^{5}$ $4.51$ $2.45$ $2.1$ Albert et al. 1999[12]
$4 \cdot 10^{7}$ $7$ $2.38$ $2.1$ Kumar et al. 1999[13]
$2 \cdot 10^{8}$ $7.5$ $2.72$ $2.1$ Broder et al. 2000[14]
$1,8 \cdot 10^{7}$ $6.4$ $2.45 \pm 0.6$ $2.15 \pm 0.1$ Diese Arbeit


Wie bei den vorherigen Untersuchungen (vgl. Tab. 3.5) zeigt die Indegree-Verteilung (Abb. 3.4) einen durchgehend klaren Verlauf eines Potenzgesetzes. Ebenso stellt der anfängliche exponentielle Verlauf der Outdegree-Verteilung (Abb. 3.5) und der anschliessende Übergang in ein Potenzgesetz den typischen Verlauf aus anderen Meßungen dar [12,13,14].

Sowohl bei der Inlink- als auch bei der Outlinkverteilung waren einige Meßpunkte bei etwa 1100 Links auffällig. Genauere Untersuchungen dieser Seiten ergaben, daß diese alle ihren Ursprung innerhalb der Website ``http://www.singles.de'' haben. Diese Website ist ungewöhnlich aufgebaut. Es ist auf jeder Seite - dieser Site - eines dort registrierten Benutzers eine Link-Liste zu allen ca. 1100 anderen Benutzerseiten vorhanden. Dieser vollkommen miteinander verbundene Cluster führte zu ca. 1100 Seiten mit einem In- und Outdegree von jeweils 1100. Bei den statistischen Auswertungen sind diese Seiten bereits entfernt worden.

In der Outdegree-Verteilung (Abb. 3.5) fällt bei etwa $j=50$ eine besondere Häufung auf. Die Ursache scheint eine einzelne Gruppe von besonderen Webseiten zu sein. Diese Seiten zeichnen sich durch eine feste Vorgabe von ca. 50 verschiedenen Outlinks zu Werbezwecken aus. Eine genaue Identifikation aller ursächlichen Seiten in der Menge von ca. 180000 Seiten um $j=50$ ist jedoch schwierig. Daher sind diese Seiten nicht entfernt worden. Allerdings finden sich ähnliche Abweichungen ebenfalls in den Verteilungen anderer Untersuchungen [13].

Um den Verlauf der Verteilungen klarer darzustellen, sind diese in Abbildung 3.6 und Abbildung 3.7 mittels Logbinning gemittelt dargestellt und es wurde eine Gerade an den Verlauf gefittet. Die Indegrees sind offenbar nach einem Potenzgesetz verteilt und der Exponent $-2.15 \pm 0.1$ liegt sehr gut im Bereich vorangegangener Crawls von $-2.1$. Die Outlinkverteilung hat ebenfalls die erwartete Form, der Exponent liegt mit $-2.45 \pm 0.6$ in dem erwarteten Bereich von $-2.3$ bis $-2.8$ (vgl. Tab. 3.5).

Abbildung: Inlink-Verteilung des Webcrawl, (+) log-gebinnte Daten, (-) fit: $P_{in}\sim k^{-2.15}$
\begin{figure}\noindent
\centering\epsfig{file=eps/inlinks_logbin_fit.eps, width=15cm}
\vskip 0.1in\end{figure}

Abbildung: Outlink-Verteilung des Webcrawl, (+) log-gebinnte Daten, (-) fit: $P_{out}\sim k^{-2.45}$
\begin{figure}\noindent
\centering\epsfig{file=eps/outlinks_logbin_fit.eps, width=15cm} \vskip 0.1in\end{figure}

Damit kann angenommen werden, daß diese Stichprobe des World-Wide-Web die wesentlichen Eigenschaften des gesamten Netzwerks wiederspiegelt. In den folgenden Abschnitten werden weitergehende Eigenschaften bestimmt, um einen genaueren Aufschluß über die Topologie des WWW zu gewinnen.


next up previous contents
Nächste Seite: Gemeinsame In- und Outdegree Aufwärts: Vermessung des deutschen World-Wide-Web Vorherige Seite: Umfang der endgültigen Datenmenge   Inhalt
Autor:Lutz-Ingo Mielsch