verwandte Texte/Themen ermitteln

Sturmrider

Erfahrenes Mitglied
Hallo zusammen :)

Ich möchte mich auf folgendes (altes) Thema http://www.tutorials.de/php/247342-headlines-durchsuchen-bester-schnellster-weg.html beziehen.
Mich beschäftigt die Frage, wie man Texte in einer Datenbank besser miteinander verknüpfen kann, so dass man zu bestimmten Texten eine kurze Auswahl von verwandten Themen ermitteln kann. Sicher man kann Keywords miteinander abgleichen, aber diese Methode ist doch sehr ineffizient und setzt voraus, dass man immer alle passenden Keywords findet, was nicht der Fall sein wird.

Mein Frage an dieser Stelle, diese Seite verfügt ja ebenfalls über eine solche Funktion. Wie arbeitet diese? Habt ihr Anregungen oder Ideen, wie man die Verknüpfungen unter Texten besser finden kann?

Einen Ansatz habe ich sogar schon: Besagte "intelligente" Algorithmen, von denen Gumbo im 5Jahre alten Thread spricht gibt es heute. >Semantische Datenbanken<
Leider habe ich jedoch noch keine zur kostenlosen Verwendung gefunden :( kann mir da jemand weiter helfen? Ich habe mir schon Thesaurus angeschaut. Damit könnte man an dieser Stelle hübsche Sachen machen.

Also falls jemand Ideen oder Anregungen hat, wäre ich ihm dankbar, wenn er sie hier kurz posten könnte :)

doch lieber einen neuen Thread aufmachen, da schlechte Überschrift
 
Also ich weiß ja nicht, was genau du vor hast, aber wenn du z.B. ein System wie Lucene (http://lucene.apache.org/java/docs/index.html) verwendest, sollte das doch sehr einfach zu machen sein. Dort gibt es eine Liste von Stopwörtern (je nach verwendetem Analyser), damit Dinge wie "und, aber, oder" etc. ignoriert werden. Und dann brauchst du nur noch die Überschrift des aktuellen Beitrags als Suchbegriff einzuwerfen und es kommen alle Themen sortiert nach Trefferzahl.

Im von dir verlinkten Thread wird auch die MySQL Volltextsuche erwähnt (welche auch mit Stopwörtern arbeiten kann). Ich habe mich persönlich gegen diese und für Lucene.NET entschieden, da es einem wesentlich mehr Möglichkeiten bieten seine Texte zu durchsuchen.
 
Zurück