Nächste Seite: Grundlage erweiterter Modelle: Korrelationen
Aufwärts: diplom
Vorherige Seite: Die Verteilung mit In-/Outdegree
Inhalt
Schlußbetrachtung und Ausblick
Ausgehend von der Sichtweise, daß die meisten realen Netzwerke in ihrer
Natur durch die Zufallsgraphen von Erdös und Renyi [9]
beschrieben werden, hat
das Denken über komplexe Netzwerke in den letzten Jahren einen
dramatischen Wandel erfahren. Die zunehmende Verbreitung von Computern und
die damit verbundenen Möglichkeiten, große Datenmengen zu speichern und zu
verarbeiten, ermöglichten erstmals die Untersuchung eines breiten
Spektrums komplexer Systeme. Getrieben von der Frage, ob sich komplexe
Netzwerke wirklich zufällig organisieren, sind viele Systeme der Biologie,
Soziologie und der Informatik untersucht worden. Die deutlichen
topologischen Unterschiede der betrachteten Systeme zu Zufallsgraphen
führten zu Definitionen neuer Begriffe zur Unterscheidung und
Charakterisierung der verschiedenen gefundenen Netzwerke.
Eine große Klasse von untersuchten Netzwerken zeichnet sich dadurch aus, daß die
Verteilung von Knoten in Abhängigkeit von der Anzahl ihrer Verbindungen zu
anderen Knoten einem Potenzgesetz gehorcht. Die Netzwerke dieser Klasse werden
als skalenfreie Netzwerke bezeichnet.
Der Fokus dieser Arbeit ist auf das World-Wide-Web als einem
Vertreter der skalenfreien Netzwerke gerichtet. Dieses Netzwerk wird aus Webseiten, als
Knoten, und Hyperlinks zwischen ihnen, als gerichtete Verbindungen, gebildet. Jeder
Knoten kann Ursprung bzw. Ziel von eingehenden Verbindungen (Inlinks) und ausgehenden Verbindungen
(Outlinks) sein. Die jeweilige Anzahl solcher Verbindungen eines Knotens wird
der Indegree bzw. der Outdegree des Knotens genannt.
In dieser Arbeit wurde die Entwicklung der theoretischen Ansätze von den Zufallsgraphen
von Erdös und Renyi [9] bis zu dem Modell von Krapivsky et
al. [8] für das gerichtete, skalenfreie Netzwerk des WWW
studiert. Es zeigte sich, daß die Theorie heute in der Lage ist die
einzelnen skalenfreien Verteilungen der Indegrees und Outdegrees von
Knoten wiederzugeben und theoretische Vorhersagen für eine gemeinsame
Verteilung von In- und Outdegrees eines Knotens macht. Die letztere Verteilung
war bisher jedoch hypothetisch, da ein Vergleich mit realen Daten noch ausstand.
Als empirische Grundlage dieser Arbeit dient eine Stichprobe des WWW (Webcrawl) in Form eines
Abbildes der Suchmaschine ``Speedfind'' der Freenet AG. Eine erste
Prüfung der Daten ergab jedoch, daß die Datenbanken der Suchmaschine nur die ersten
16 Outlinks einer Seite speichern. Um diese Outlinks zu vervollständigen
wurden Agenten-Programme erstellt um die ca.
Seiten erneut
aus dem WWW abzurufen und alle Outlinks der Seiten zu extrahieren. Die
Programme haben ein Datenvolumen von mehr als
übertragen, wobei
ca.
Outlinks gespeichert wurden. Nach Abschluss dieses aufwendigen
Vorganges zur Vervollständigung des Datensatzes wurde geprüft, ob das Netzwerk des Webcrawls die wesentlichen
Eigenschaften hat, wie sie aus früheren Untersuchungen des WWW bekannt
sind. Dazu wurden die Verteilung der Indegrees, die Verteilung der
Outdegrees und die mittlere Konnektivität bestimmt. Die Verteilungen
zeigten beide die erwartete Form eines Potenzgesetzes, wie sie für
skalenfreie Netzwerke typisch ist. Der Exponent der skalenfreien
Indegree-Verteilung
befindet sich sehr gut im
erwarteten Bereich um
. Ebenso liegt der Exponent der skalenfreien
Outdegree-Verteilung
im Bereich vorangegangener
Webcrawls von
bis
. Es kann daher angenommen werden, daß der
Webcrawl die wesentlichen topologischen Eigenschaften des World-Wide-Web
widerspiegelt. Ausgehend von dieser Stichprobe sind die Korrelationen
zwischen dem In- und Outdegree von Knoten und Korrelationen zwischen den
Indegrees benachbarter Knoten untersucht worden.
Unterabschnitte
Nächste Seite: Grundlage erweiterter Modelle: Korrelationen
Aufwärts: diplom
Vorherige Seite: Die Verteilung mit In-/Outdegree
Inhalt
Autor:Lutz-Ingo Mielsch