Der WWW-Agent zur Vervollständigung der Outlinks jeder Seite

Zur Dokumentation und für eventuell folgende Untersuchungen von Webcrawls der Suchmaschine ``Speedfind'' wird das Programm zur Vervollständigung der Outlinks aller Seiten kurz kommentiert.

Das Programm ist in der Sprache PERL [40] (Practical Extraction and Report Language) geschrieben. PERL ist speziell für den Umgang mit textbasierten Daten konzipiert worden, wie es der HTML-Text (vgl. Tab. 3.4) einer Webseite ist. Insbesondere sind die sogenannten ``Regular Expressions'' ein mächtiges Werkzeug. Es soll hier jedoch nicht auf die Sprache selbst eingegangen werden, sondern auf spezielle Probleme des Konzeptes und der Anwendung.

Einleitend wird auf besondere Punkte bei der Anwendung des Programms eingegangen. Bei dem Aufruf des Programms wird der Dateiname eines von ``Speedfind'' gelieferten Datensatzes übergeben (vgl. Tab. 3.3). Dies würde genügen, wenn der Vorgang bei $20\cdot 10^6$ Seiten schätzungsweise mehr als 6 Monate dauern dürfte. Diese langsame Verarbeitung ist hauptsächlich auf diverse Webserver mit langen Anwortzeiten zurückzuführen. Im Extremfall wartet das Programm bis zu 90 Sekunden auf eine Seite (vgl. Zeile 124 im Quelltext). Die Lösung des Problems ist die Zerteilung der Daten in

nicht allzugroße Dateien von beispielweise jeweils 500000 Seiten-URLs. Dann kann dieses Programm, je nach Leistungsfähigkeit des Computers, bis zu

mal parallel gestartet werden. Auf diese Art findet eine Lastverteilung auf verschiedene Instanzen des Programms statt. Bei der Anwendung hat sich dieses Verfahren als sehr effektiv bewiesen.

In den einzelnen Dateien mit Seiten-URLS sollten die Domains der Seiten möglichst nicht sortiert, sondern stark gemischt enthalten sein. Die Anwendung zeigte, daß sonst verschiedene Betreiber von Webservern durch die zeitlich gebündelte, hohe Belastung ihres Servers gestört werden. Ebenso sollte das Starten dieses Programms vorher beim zuständigen Rechenzentrum angekündigt werden. Zum einen gibt es häufig Beschränkungen zum Datenaufkommen in Netzwerken. In diesen Untersuchungen sind ingesamt mehr als 1.5TB Daten in Form von Text aus dem Internet abgerufen worden. Zum anderen ist die Belastung des des örtlichen DNS (Domain Name Service) extrem hoch und kann zum Stillstand des lokalen Internet führen. Dies führte zu einigen Problemen im Rechenzentrum der Universität.

Ein weiterer Faktor ist nicht zu unterschätzen. Das großräumige Abfragen des WWW lenkt die Aufmerksamkeit vieler Betreiber von Webservern und anderen Individuen auf den abfragenden Computer. Daher wird dieser Computer überdurchschnittlich häufig Ziel von sogenannten Angriffen^7.3 über das Internet. Das Ziel socher Angriffe von sogenannten ``Hackern'' ist Zugriff auf den Computer zu erlangen oder den Computer abstürzen zu lassen. Daher sollte der Computer besonders geschützt^7.4werden.

Aus den zuvor genannten Gründen und aufgrund der Möglichkeit allgemeiner Computerausfälle ist das Programm so konzipiert, daß es weitestgehend in der Lage ist nach einem Abbruch fehlerfrei fortzufahren. Wird das Programm nach einem Abbruch neu gestartet, erkennt es selbstständig den Abbruch und setzt die Arbeit an der Unterbrechung fort. Sollte dies nicht mehr möglich sein, endet das Programm mit einem Fehler und muß vom Anfang gestartet werden.