next up previous contents
Nächste Seite: Umfang der endgültigen Datenmenge Aufwärts: Der Webcrawl Vorherige Seite: Die erste Prüfung der   Inhalt

Das erneute Abrufen aller Seiten

Eine wesentlich einfachere Möglichkeit den Fehler der Outlinkstatistik zu beheben, ist die Ergänzung des Webcrawl der Suchmaschine. Ausgehend von den ursprünglichen Daten (vgl. Tab. 3.3) wurden alle Verweis-URL ``c:'' verworfen, so daß eine Liste von Seiten-URLs entsteht, welche von der Suchmaschine untersucht wurden. Alle diese Seiten sind dann von einem Programm (siehe Anhang A.3) einzeln aus dem WWW geladen worden und alle Hyperlinks extrahiert

Die URL des Hyperlinks bezeichnet das Ziel des Verweises, jedoch identifiziert die URL nicht notwendigerweise eine Webseite, sondern kann auch auf andere Dienste und Medien verweisen. Es werden nur Hyperlinks betrachtet, die zunächst potentiell auf Webseiten verweisen, d.h. deren Dienst vom Typ ``http'' ist. Ein Verweis vom Typ ``http'' verweist nur potentiell auf eine Seite, weil die angegebene Zieldatei (vgl. Tab. 3.1) nicht nur Webseiten (entspricht HTML-Dateien) enthalten darf, sondern eine Vielzahl anderer Dateitypen erlaubt (beispielweise Bilder, Töne, Video, etc.). Die genauere Identifikation des Inhalts ist jedoch nicht nötig, denn es werden nur Verweise gesucht, deren Ziel eine Seite aus der oben genannten Liste ist. Diese Liste besteht jedoch nur aus Webseiten.

Abbildung: Umleitung/Redirect: Ein Betrachter folgt auf Seite A dem Verweis auf Seite B. Durch die auf der Seite B eingerichteten Umleitung gelangt er jedoch auf Seite C. Für den Betrachter sieht es nun so aus, als sei Seite C dieselbe Seite wie B.
\begin{figure}\unitlength 0.5cm
\small
\centering
\par
\begin{picture}(11,10)\...
...0.5}}
\dashline[50]{0.5}[0.5](1.5,1.5)(9,9)
\end{picture}\par\par
\end{figure}

Desweiteren ist noch der Umgang mit Umleitungen (Redirects) zu klären. Eine Webseite kann eine Umleitung enthalten, so daß ein Betrachter auf eine andere Seite weitergeleitet wird. Für den Betrachter scheint eine einzige Seite mit zwei verschiedenen URLs zu existieren (Abb. 3.2). Sollen diese Seiten unterschieden werden oder als eine Seite betrachtet werden ? Die Umleitungen erlauben dem Autor eine Zeitverzögerung, um dem Betrachter noch Informationen inklusive von Verweisen auf dieser Seite anzuzeigen. Daher werden diese Seiten im Webcrawl unterschieden.

Abbildung: Ablauf der Programme zur Aufnahme und Aufarbeitung der Daten

$\textstyle \parbox{\linewidth}{START: $20,5 \cdot 10^6$ URLs von Web-Seiten}$ % latex2html id marker 6894
$\textstyle \parbox{\linewidth}{\ref{prog_recrawl}A...
...n doppelter und ungültiger
Links, Verwerfen von nicht mehr existenten Seiten.}$ $\textstyle \parbox{\linewidth}{
Zuordnung einer eindeutigen
Zahl zu jeder Knot...
...zung der URLs durch diese Zahlen.
Weiteres Aussortieren von ungültigen Links.}$ $\textstyle \parbox{\linewidth}{
Entfernen aller externen Links
und Umformatieren in das Zielformat f\uml ur Netze}$ $\textstyle \parbox{\linewidth}{ENDE: Fertig aufbereitetes Netz mit $18\cdot
10^6$ Seiten und $115\cdot 10^6$ Verbindungen}$

Es müssen noch eine Reihe weiterer Besonderheiten behandelt werden, wie die Vervollständigung relativer URLs (Das sind beispielsweise ``./links/index.html'', ''../hallo.html'', etc. anstatt einer vollständigen Angabe der URL, wie in ) oder die Behandlung besonderer Fehlermeldungen. Das jeweilige Vorgehen entspricht jedoch allgemein üblichen Regeln und wird hier nicht näher beschrieben.

Das erneute Abrufen der Webseiten und die Extraktion der Linkstruktur stellt den zeitintensivsten Teil der Datenaufnahme dar. Darüber hinaus ist bei einer Laufzeit von ca. 4 Wochen zu beachten, daß nach einem Rechnerabsturz, Netzwerkausfall, etc., ein definierter Wiederaufnahmepunkt möglichst nahe vor dem Zeitpunkt des Ausfalls existiert.

Um mit den Voraussetzungen bestehender Modelle konsistent zu sein, müssen alle externen Links entfernt werden, sowie die doppelten Verbindungen zu einer Verbindung zusammengefaßt werden.

Das Ergebnis dieses gesamten Vorganges besteht nun aus einer Liste der URLs der abgerufenen Seiten und deren vollständige Liste unterscheidbarer Outlinks ohne externe Verbindungen und ergibt eine Datenmenge von insgesamt über 15 GigaByte. Diese Daten werden wieder nach dem eingangs beschriebenen Verfahren komprimiert.

Somit entspricht die Ergänzung und Aufbereitung des Webcrawls grob dem Ablauf gemäß Abbildung 3.3.


next up previous contents
Nächste Seite: Umfang der endgültigen Datenmenge Aufwärts: Der Webcrawl Vorherige Seite: Die erste Prüfung der   Inhalt
Autor:Lutz-Ingo Mielsch