Nächste Seite: Umfang der endgültigen Datenmenge
Aufwärts: Der Webcrawl
Vorherige Seite: Die erste Prüfung der
Inhalt
Eine wesentlich einfachere Möglichkeit den Fehler der Outlinkstatistik zu
beheben, ist die Ergänzung des Webcrawl der Suchmaschine. Ausgehend von
den ursprünglichen Daten (vgl. Tab. 3.3) wurden alle Verweis-URL ``c:''
verworfen, so daß eine Liste von Seiten-URLs entsteht, welche von der
Suchmaschine untersucht wurden. Alle diese Seiten sind dann von einem Programm
(siehe Anhang A.3) einzeln aus dem WWW geladen worden und
alle Hyperlinks extrahiert
Die URL des Hyperlinks bezeichnet das Ziel des Verweises, jedoch
identifiziert die URL nicht notwendigerweise eine Webseite, sondern kann auch auf
andere Dienste und Medien verweisen. Es werden nur Hyperlinks betrachtet, die
zunächst potentiell auf Webseiten verweisen, d.h. deren Dienst vom Typ
``http'' ist. Ein Verweis vom Typ ``http'' verweist nur potentiell auf
eine Seite, weil die angegebene Zieldatei (vgl. Tab.
3.1) nicht nur Webseiten (entspricht HTML-Dateien) enthalten darf, sondern
eine Vielzahl anderer Dateitypen erlaubt (beispielweise Bilder, Töne,
Video, etc.). Die genauere Identifikation des Inhalts ist jedoch nicht
nötig, denn es werden nur Verweise gesucht, deren Ziel eine Seite aus
der oben genannten Liste ist. Diese Liste besteht jedoch nur aus Webseiten.
Abbildung:
Umleitung/Redirect: Ein Betrachter folgt auf Seite A dem
Verweis auf Seite B. Durch die auf der Seite B eingerichteten Umleitung gelangt er
jedoch auf Seite C. Für den Betrachter sieht es nun so aus, als sei
Seite C dieselbe Seite wie B.
![\begin{figure}\unitlength 0.5cm
\small
\centering
\par
\begin{picture}(11,10)\...
...0.5}}
\dashline[50]{0.5}[0.5](1.5,1.5)(9,9)
\end{picture}\par\par
\end{figure}](img239.png) |
Desweiteren ist noch der Umgang mit Umleitungen (Redirects) zu klären. Eine
Webseite kann eine Umleitung enthalten, so daß ein Betrachter auf eine
andere Seite weitergeleitet wird. Für den Betrachter scheint eine einzige
Seite mit zwei verschiedenen URLs zu existieren (Abb. 3.2). Sollen diese Seiten
unterschieden werden oder als eine Seite betrachtet werden ? Die
Umleitungen erlauben dem Autor eine Zeitverzögerung, um dem Betrachter noch
Informationen inklusive von Verweisen auf dieser Seite anzuzeigen. Daher werden diese Seiten im
Webcrawl unterschieden.
Abbildung:
Ablauf der Programme zur Aufnahme und Aufarbeitung der Daten
|
Es müssen noch eine Reihe weiterer Besonderheiten behandelt werden, wie
die Vervollständigung relativer URLs (Das sind beispielsweise ``./links/index.html'',
''../hallo.html'', etc. anstatt einer vollständigen Angabe der URL, wie
in ) oder die Behandlung besonderer Fehlermeldungen.
Das jeweilige Vorgehen entspricht jedoch allgemein üblichen Regeln und
wird hier nicht näher beschrieben.
Das erneute Abrufen der Webseiten und die Extraktion der Linkstruktur
stellt den zeitintensivsten Teil der Datenaufnahme dar. Darüber hinaus
ist bei einer Laufzeit von ca. 4 Wochen zu beachten, daß nach einem
Rechnerabsturz, Netzwerkausfall, etc., ein definierter
Wiederaufnahmepunkt möglichst nahe vor dem Zeitpunkt des Ausfalls existiert.
Um mit den Voraussetzungen bestehender Modelle konsistent zu sein, müssen
alle externen Links entfernt werden, sowie die doppelten Verbindungen zu
einer Verbindung zusammengefaßt werden.
Das Ergebnis dieses gesamten Vorganges besteht nun aus einer Liste der URLs der abgerufenen Seiten
und deren vollständige Liste unterscheidbarer Outlinks ohne externe
Verbindungen und ergibt eine Datenmenge von insgesamt über 15 GigaByte.
Diese Daten werden wieder nach dem eingangs beschriebenen Verfahren komprimiert.
Somit entspricht die Ergänzung und Aufbereitung des Webcrawls grob dem Ablauf
gemäß Abbildung 3.3.
Nächste Seite: Umfang der endgültigen Datenmenge
Aufwärts: Der Webcrawl
Vorherige Seite: Die erste Prüfung der
Inhalt
Autor:Lutz-Ingo Mielsch