Suchfunktion für HTML

zB., ja. Natürlich ohne die HTML-Tags usw.
Welche Sprache würde denn in Frage kommen (um da passende Sachen vorschlagen zu können)?
 
Für den Suchindex zu erstellen hätte ich jetzt an Python (3.4) gedacht. Wenn eine andere Sprache besser geeignet wäre, bin ich natürlich auch offen dafür.

Meine Idee für einen Suchindex wäre folgende:
- Texte bzw. dessen Wörter, welche zwischen (entsprechenden) HTML-Tags stehen scannen
- dann irgendwie eine Tabelle machen mit den Wörtern, welche vorkommen und zu jedem Wort die Seite und wie häufig auf dieser Seite
- bei der Suche, die Treffer auf ganze Wörter favorisieren zusammen mit der Häufigkeit und einfach entsprechende Seite verlinken
 
Für diejenigen, welche es interessiert noch meine Lösung, so wie ich es nun implementiert habe.
Zum erstellen des Suchindexes und für das Ranking der Suche habe ich hier eine gute Erklärung gefunden: http://www.ardendertat.com/2012/01/11/implementing-search-engines/
Meine Lösung besteht nun darin, mit einem Python Script der ganze Ordner nach HTML-Datein zu durchsuchen. Danach werden alle Dateien durchsucht und die vorkommenden Begriffe, nach entsprechender Verarbeitung (nur Alphanumerisch, keine HTML-Tags, alles zu Kleinbuchstaben), in einem Suchindex gespeichert, mit der Seite, auf welcher sie vorkommen und die Anzahl Vorkommnisse.
Die Score wird auch direkt berechnet und mit abgelegt. Der ganze Suchindex wird als Javascript array in einem File abgespeichert.

Bei der Suche wird dieser Array geladen und nach dem Suchbegriff (oder den Suchbegriffen) durchsucht. Dabei mache ich zuerst eine "Fullmatch" Suche und anschliessend noch eine Teilsuche (sofern das Suchwort eine gewisse Länge hat).
Die Suchergebnisse werden schlussendlich noch nach dem Score sotiert und ausgegeben.
Das Ganze funktioniert soweit sehr flott und zufriedenstellend.

Gruss DexXxtrin
 

Neue Beiträge

Zurück