Häufigkeit von Wörtern aus Titeln in mysql Datenbank ermitteln

Ja danke für die Vorschläge. Richtig mit array_filter in Verbindung mit strlen gehts. Ist mir auch erst nicht eingefallen ;).

Jetzt muss ich mir "nur" noch etwas für das Wortpaar-Problem ausdenken.
 
Die einzig sauber funktionierende Möglichkeit ist, den Eintrag Titel mit den Einträgen in der ofdb oder imdb zu vergleichen. Das solltest Du am Besten beim Ausfüllen machen. Vielleicht macht es Sinn, den Titel dann in zwei Einträge zu teilen - Titel_1 (Harry Potter) und Titel_2 (DVD Box). Andere Stochastische Varianten oder "Blacklists" (DVD,Box,Extended,Special,Bluray,etc..) führen immer wieder zu Fehlinterpretationen.

mfg chmee
 
hm mit imdb stimmt das kann man machen. Ich bin aber eher der Typ, der ausprobiert und rumbastelt. Denke das kann man mit einer zweiten Überprüfung von jeweils Wortpaaren bewerkstelligen, die man dann jeweils wieder extra abspeichert.

Schaue gerade welche Funktion sich dafür am besten eignet. Wenn ihr bereits eine Idee habt, ich freue mich über jeden Ansatz.
 
Wie hast Du Dir diese Überprüfung vorgestellt? Allein der Eintrag "Harry Potter DVD Box" führt zu 3+2+1 =6 Variationen von Zweiwort-Paaren (wenn a+b=b+a). Performant ist das nicht wirklich. Weiterhin, gegen was willst Du prüfen? Wenn Du basteln willst, dann wäre diese Blacklist interessant (lösche alle Wörter aus jener Liste (Extended,DVD,Bluray,Box etc..), am Ende bleibt der Name übrig - ein Film wie "The Box" ist dann aber wieder raus.

Jedenfalls viel Spaß, denn es macht auch Spaß, sich eigene Wege auszudenken..

mfg chmee
 
Das mit der Blacklist funktioniert ja wie oben beschrieben ähnlich der Sperrliste von mysql. Das funktioniert ganz gut.

Ich denke ich werde das mit einer Art Crawler mal ausprobieren, der dann Tabelle mit den Titenl durchgeht und dann mit Bezugstabellen arbeitet. Dann ist das mit der Performance auch nicht "ganz" so gravierend. Da gibt es schon nette Sachen zu. Mal schauen was ich so finde.

Aber danke euch für die hilfreichen Denkanstöße.
 

Neue Beiträge

Zurück