Metadata (Keywords) generieren

cojack20

Mitglied
Hallo,

kennt jemand von euch einen Ansatz oder schon fertiges Projekt mit dem ich aus einem gegebenen Textstück (heuristisch) "relevante" herausfiltere? Also die Keywords, mit denen dieses Textstück möglicherweise gesucht werden könnte?

cu und danke
 

Thomas Darimont

Erfahrenes Mitglied
Hallo,

eine (praktische) Möglichkeit wäre:
Lass den Text von einem (schon umfangreich) trainierten Textklassifikator klassifizieren.
Anschließend schaust du dir einfach an, welche Wörter den höchsten Beitrag (boost) zur Klassifizierung
geleistet haben. Schon hast du deine "Tags".

Wie der berechnete "Beitrag" zustande kommt hängt natürlich von der verwendeten Klassifizierungsverfahren ab.
Weiterhin ist das nur ein Hinweis darauf, was man als Stichwörter in dem Text verwenden könnte.
Natürlich ist das keine Garantie, dass die Dokumente mit diesen Wörtern dann so auch über Suchmaschinen gefunden
werden können.

Eine andere Möglichkeit wäre es "genügend" Dokumente in Lucene zu indizieren und die dortigen Mechanismen für den
obigen Zweck zu verwenden. Beispielsweise könnte man dann für die Wörter eines Dokuments ein Ranking nach
TF (Termfrequenz) * IDF (Inverse Dokument Frequenz) (normiert -> siehe:
http://hudson.zones.apache.org/huds...doc//org/apache/lucene/search/Similarity.html
) aufstellen und daran deren "Relevanz" für ein Dokument über alle Dokumente erkennen.

Ansonsten schau mal hier:
http://tagthe.net/fordevelopers

Gruß Tom