Ein Webcrawl der Webseiten der Christian-Albrechts-Universität

Zu Beginn der Arbeit wurde ein Webcrawl der Webseiten der Christian-Albrechts-Universität erstellt. Dazu wurden die kostenlos verfügbaren Quelltexte eines Suchagenten^7.2benutzt. Es bedurfte einiger Modifikationen der Quelltexte, damit die gesuchte Linkstruktur der Webseiten gespeichert wird. Als Startseite des Webcrawls wurde ``http://www.uni-kiel.de/index.html'' benutzt. Es wurden nur Verweise innerhalb der Domain ``*.uni-kiel.de'' verfolgt. Insgesamt wurden 184858 Knoten und 2411553 Verbindungen gefunden. Die mittlere Konnektivität liegt mit

deutlich höher als in anderen Webcrawls (Tab. 1.1). Aufgrund der häufig schwierig zu identifizierenden Art des Ziels eines Verweises sind in diesem Webcrawl jedoch nicht nur Webseiten (HTML) einbezogen worden. In Abbildung A.2 und A.3 sind die Inlink-Verteiung und die Outlink-Verteilung dargestellt.

**Abbildung:** Doppelt-logarithmischer Plot der Inlink-Verteilung eines Webcrawls der Seiten der Christian-Albrechts-Universität: Wahrscheinlichkeit einen Knoten mit Inlinks zu finden.
$\begin{figure}\noindent \centering\epsfig{file=eps/links_uni_in.eps, width=12cm} \vskip 0.1in\end{figure}$

**Abbildung:** Doppelt-logarithmischer Plot der Outlink-Verteilung eines Webcrawls der Seiten der Christian-Albrechts-Universität: Wahrscheinlichkeit einen Knoten mit Outlinks zu finden.
$\begin{figure}\noindent \centering\epsfig{file=eps/links_uni_out.eps, width=12cm} \vskip 0.1in\end{figure}$