Die Suchmaschine ist kein Mensch. Damit die Dokumente für die Suchmaschine jedoch verständlich werden und eine geeignete Informationsausarbeitung stattfinden kann, sind folgende Schritte notwendig:
1. Normalisierung
Bei der Datennormalisierung geht es darum, alle notwendigen und relevanten Informationen zu speichern. Alle unnötigen Informationen zu der Programmierung und Formatierung werden hierbei entfernt. Dadurch kann das Dokument von der Suchmaschine in den weiteren Schritten besser verstanden und analysiert werden.
2. Tokenizing
Für die Suchmaschine besteht das eingehende Dokument aus willkürlichen Zeichen. Damit sie Schlüsselwörter erkennen kann, ist es wichtig, dass sie einzelne Wörter herauslesen kann. Dafür werden Wortseparatoren wie beispielsweise Leerzeichen oder Sonderzeichen wie # oder + benutzt. Diese helfen der Suchmaschine, Wortgrenzen zu identifizieren.
3. Lower-Case-Convert
Einzelne Wörter werden hier automatisch in Kleinschreibung umgestellt, denn dies erweist sich als eindeutig einfacher für die Weiterverarbeitung, Analyse und Vergleiche.
4. Language Detection
Als nächster Schritt folgt die Spracherkennung. Wenn Sie etwas auf Deutsch suchen, erwarten Sie natürlich auch deutschsprachige Ergebnisse. Dafür setzt die Suchmaschine unterschiedliche Systeme ein, um die richtige Sprache erkennen zu können. Die Identifikation der Sprache findet hierbei durch den Abgleich mit Wörterbüchern und anderen Dokumenten statt.
5. Grundformreduzierung durch Word-Stemming
Word-Stemming führt jedes Wort auf die Grundform zurück. So können verwandte Wörter zusammengeführt werden. Demnach wird eine Wortgrundform gespeichert und alle anderen Formen liegen darunter. Dies erweist sich als besonders effizient für die Suchmaschine, da der Umfang der Dokumente verkleinert wird.
6. Stoppwort- Analyse
In diesem Schritt findet die Stoppwort-Analyse statt. Stoppwörter sind Wörter wie mit, du, aber, beim oder wir. Um die Bedeutung des Textes zu verstehen, sind diese Wörter nicht relevant. Durch den Vergleich mit einer Stoppwort-Liste werden diese Wörter von der Suchmaschine entfernt.
7. Keyword- Extrahierung und Analyse
Nachdem die Suchmaschine mit einer Art Filter die für sie relevanten Begriffe erkannt hat, ist es nun wichtig, folgende Aspekte zu überprüfen: Zum einen wird die Rechtschreibung überprüft, zum anderen werden Synonyme und Homonyme identifiziert. Ferner ist für das passende Ergebnis auch eine Keyword-Identifikation wichtig. Damit ein Begriff als Keyword zählt, sind folgende drei Kriterien zu erfüllen:
- Sichtwortvalidität: Die Begriffe müssen als relevante Stichwörter dienen. Dementsprechend müssen Konjunktionen und Negationen ausgeschlossen werden.
- Gewichtungsvalidität: Hier stellt man sich die Frage, inwiefern der Schlüsselbegriff wichtig für den Inhalt des Textes ist.
- Cluster-Validität: Die Keywords sollten so ausgerichtet sein, dass sie sich mit anderen Dokumenten verknüpfen können.
8. Wort ID
Im letzten Schritt bekommen die Begriffe eine eindeutige WordID. So wird beispielsweise aus “WLAN für mein Unternehmen” einfach mal #6678. Somit spart sich das System Platz und Größe, da die WordID kürzer ist.