| Prev | Up | Next |
de.comm.infosystems.suchmaschinen-FAQ —> Einführung —> Volltextsuchmaschinen
Was passiert nun, wenn man auf einer Suchmaschinen-Website ein paar Begriffe eingibt und diese über den entsprechenden Button abschickt? Einer der verschiedenen Rechner im entsprechenden Datenzentrum bekommt die Begriffe und macht sich nun daran, im Index die am besten passenden Dokumente zu finden. Als Beispielanfrage sei Johann Sebastian Bach gegeben.
Wie bereits im vorherigen Abschnitt beschrieben besteht der Index u.a. aus Listen von Paaren (Dokumentennummer, Wortposition). Für jedes Wort, das mindestens einmal in den untersuchten Dokumenten vorgekommen ist, existiert eine solche Liste. Je häufiger ein bestimmtes Wort vorkommt, desto länger ist auch die entsprechende Liste.
Es wird nun bei der Abarbeitung der Anfrage nach Dokumentennummern gesucht, die in den Listen jedes einzelnen Suchbegriffs, der in der Anfrage vorkommt, auftreten. Die Menge aller Dokumente wird also im Beispielfall eingeschränkt auf diejenigen, deren Identifikationsnummer sowohl in der Liste für "Johann" als auch in der Liste für "Sebastian" als auch in der für "Bach" vorkommt.
Je nach Seltenheit der Begriffe hat man somit bereits fast alle (oder sogar alle) Dokumente ausgeschlossen. Genauso gut können die Begriffe aber auch so allgemein gebräuchlich sein, daß noch nicht viel weggefallen ist.
Wurde bei der Anfrage die exakte Phrase "Johann Sebastian Bach" verlangt, also die drei Wörter in dieser Reihenfolge, entfernt man weitere potentielle Ergebniskandidaten. Nämlich solche, in denen zwar alle Begriffe vorkommen, aber nicht in dieser Reihenfolge (z.B. ein Dokument, das aus dem Satz "Johann und Sebastian gingen am Bach entlang." besteht). Um Phrasen finden zu können, ist man auf die Wortpositionen in den Indexlisten angewiesen. Existiert z.B. in der Liste für "Johann" ein Paar (Dokument 1446, Position 12), so muß es in der Liste für "Sebastian" ein Paar (Dokument 1446, Position 13) und in der für "Bach" ein Paar (Dokument 1446, Position 14) geben, damit die Positionen 12 bis 14 in Dokument 1446 einen Treffer darstellen.
Sind alle passenden Dokumente ermittelt, werden sie gemäß ihrer Relevanz sortiert, damit der Benutzer die besten Treffer zuerst sieht. Kommen die Begriffe besonders häufig in einem Dokument vor, sind sie im Titel oder in Überschriften des Dokuments vorhanden, wird mit ihnen in anderen Dokumenten auf dieses Dokument verwiesen, sind sie besonders fett oder groß geschrieben oder treten sie auch in der Adresse der Seite auf (im Domainnamen, im Verzeichnis oder Dateinamen), so kommt das ihrem Rang innerhalb der Ergebnisliste zugute.
Ein weiterer Faktor ist die allgemeine Wertigkeit, die einer bestimmten Seite von der Suchmaschine zugemessen wird. Bei Google ist dies der sogenannte PageRank, eine Zahl zwischen 0 und 10, die die allgemeine Popularität der Seite angeben soll. Allerdings darf ein solcher Wert nicht allein ausschlaggebend werden, sonst würden bei jeder Anfrage immer dieselben Topseiten angezeigt, solange sie nur die Begriffe enthalten.
| Prev | Up | Next |
| Autor: Marco Schmidt <marcoschmidt@users.sourceforge.net> |
Maintainer: Felix Wiemann <Felix.Wiemann@ososo.de>