next up previous contents
Nächste Seite: Die unkorrelierte Verteilung Aufwärts: Gemeinsame In- und Outdegree Vorherige Seite: Einleitung   Inhalt

Die Verteilung des Webcrawl

Abbildung: Gemeinsame Verteilung $r_{crawl}(i,j)$ des Webcrawls. Die Färbung gibt den Logarithmus der Wahrscheinlichkeit an, einen Knoten mit Indegree $i$ und Outdegree $j$ zu finden. Die Verteilung ist auf $r_{crawl}(1,1)$ normiert.
\begin{figure}\noindent
\centering\epsfig{file=eps/p_io_draw.eps, width=\linewidth} \vskip 0.1in\par
\end{figure}

Ausgehend von dem Netzwerk des Webcrawls wurde die gemeinsame Verteilung $r_{crawl}(i,j)$ des Webcrawls bestimmt. Dazu erzeugte ein Programm zunächst eine Liste aller Knoten mit deren jeweiliger Anzahl Inlinks und Outlinks. Das zweite Programm summiert über diese Liste für gleiche Wertepaare der Inlinks und Outlinks. Als Ergebnis erzeugt es eine Datei mit den gesuchten Informationen zur Verteilung $r(i,j)$ - Inlinks, Outlinks, Knotenanzahl. Um eine vollständige Erfassung der Verteilung zu ermöglichen, werden die Datenpunkte in einem Hash abgelegt, wobei der In- und Outdegree als Schlüssel verwendet wurde. Das erlaubt eine sehr viel effizientere Speicherausnutzung als eine Matrix. Diese vollständige Auswertung ermöglicht zur Prüfung der Konsistenz der gemeinsamen Verteilung $r_{crawl}(i,j)$ die Bestimmung der einzelnen In- und Outdegree Verteilungen durch die Summationen

$\displaystyle P_{in}(i)=\sum_j r_{crawl}(i,j) , P_{out}(j)=\sum_i r_{crawl}(i,j).$ (4.1)

Diese Summen stimmen mit den zuvor in Abschnitt 3.4 bestimmten Verteilungen überein. In den folgenden Abbildungen ist ein Ausschnitt von $50 \times 50$ für die In- und Outdegrees ausgehend vom Ursprung gewählt, da dieser Bereich vollständig mit Daten belegt ist und statistisch die größte Relevanz hat. Bedingt durch das Verfahren eines Webcrawls (vgl. Abschnitt 3.2) werden nur Knoten mit einem Indegree größer Null gefunden. Das später zu betrachtende Modell von Krapivsky et al. macht keine Aussagen über Knoten mit einem Outdegree kleiner Eins. Um in allen Darstellungen übereinzustimmen, wird jeweils ein Urspung von (1,1) benutzt. Die Abbildung 4.1 zeigt die gemeinsame Verteilung der Knoten im Webcrawl mit dem Indegree $i$ an der X-Achse, dem Outdegree $j$ an der Y-Achse, und dem Logarithmus der Wahrscheinlichkeit solcher Knoten in der Färbung.


next up previous contents
Nächste Seite: Die unkorrelierte Verteilung Aufwärts: Gemeinsame In- und Outdegree Vorherige Seite: Einleitung   Inhalt
Autor:Lutz-Ingo Mielsch