Ansätze für Ähnlichkeitsssuche?

Flo<H>

Erfahrenes Mitglied
Hallo!
Ich mache mir gerade Gedanken darüber, wie man eine "Ähnlichkeitssuche" (gibts das Wort überhaupt? :)) umsetzen könnte, aber irgendwie fällt mir im Moment noch nicht wirklich was dazu ein.

Was ich möchte:
Angenommen ich habe viele Musikdateien, die alle in einem Ordner sind. Jetzt möchte ich alle Dateien die von InterpretA sind filtern. Solange der InterpetA in jedem Dateinamen richtig geschrieben ist, ist dies auch kein Problem, bei Buchstabendrehern, anderen Schreibweisen, unterschiedlichen Schreibweisen, unterschiedliche Leerstellen, fehlender Buchstabe, Buchstabe zuviel usw. würde ich diese Datei nicht mitfiltern.

Google hat ja ein vergleichbares System in der Suche miteingebaut ("Meinten Sie: ...").

Eine Lösung dabei wäre natürlich von dem Suchbegriff eine Liste anderer Suchbegriffe abzuleiten und nach diesen ebenfalls zu suchen, aber irgendwie hoffe, dass es noch etwas einfacheres gibt.

Mal ein paar Beispiele für unterschiedliche Schreibweisen:
Interpret-a
Interpreta
Interp'eta
Interpr`eta
Inetrpreta
inerpreta
der interpreta
...

und davon natürlich auch Kombinationen untereinander...

Bin dann mal gespannt auf eure Antworten :)
mfg flo
 
Hi,

mit welcher Sprache willst Du das ganze umsetzen?

PHP bietet z.B. einige Methoden zum "unscharfen" Vergleich von Zeichketten (soundex, levenshtein, similar-text). Ich könnte mir vorstellen, dass auch andere Sprachen wie z.B. Java Bibliotheken mit Standardmethoden dieser Art mitliefern.

Gruß
.
 
Hallo!
Umsetzen will ich das Ganze mit Java. Aber die PHP-Funktionen haben mir schon weitergeholfen. Soundex scheint ja direkt ein Algorithmus für soetwas zu sein...
Genau solche Algorithmen hab ich gesucht :)
mfg flo
 

Neue Beiträge

Zurück