PrevUpNext

de.comm.infosystems.suchmaschinen-FAQ —> Einführung —> Volltextsuchmaschinen

Crawling

Die der Suchmaschine zugrundeliegende Datenbank hält eine Reihe von Adressen von Dateien vor (URLs, Uniform Resource Locators), deren Dokumente gelesen werden sollen. Die Adressen stammen aus folgenden Quellen:

Eine Reihe von Rechnern lädt nun mit diesen Adressen rund um die Uhr Dateien herunter und speichert sie in einer Datenbank. Die Adressliste wird dann jeweils auf den neuesten Stand gebracht. Entweder wird vermerkt, daß die Datei erfolgreich übertragen wurde, oder ein Problem wird notiert, wenn etwa der Server nicht erreichbar ist. Bei einem Redirect, also einer permanenten Umleitung, wird die Adressliste auf den neuesten Stand gebracht. Nach einer gewissen Anzahl von Fehlversuchen entfernt die Suchmaschine eine Adresse aus ihrer Liste.

PrevUpNext

Autor: Marco Schmidt <marcoschmidt@users.sourceforge.net>

Maintainer: Felix Wiemann <Felix.Wiemann@ososo.de>