Suchmaschine für lokale HTML-Seiten

alinapapa

Mitglied
Hallo.

Ich suche eine Suchmaschine, die ein lokales Archiv aus HTML-Seiten indexiert.

Blinkx, Copernic, Filehand oder Google Desktop sind viel zu umfangreich. Ich suche was "ganz einfaches".

Hintergrund: Ich habe eine lokales Archiv, das aus einigen tausend html-Dokumenten besteht. Dieses möchte ich auf DVD bannen. Idealerweise würde ich auf der Startseite dieses Archivs die Suchmaschine einbetten, so dass man direkt im Browser nach dem gewünschten Content suchen kann. Ähnlich wie bei google sollte dann eine Auflistung der Treffer erscheinen mit den entsprechenden Links zu den html-Seiten.

So etwas müsste es doch geben, doch ich finde nichts.

Hat jemand vielleicht einen Tipp parat?

Danke schon mal,

viele Grüße,

Alinapapa
 

alinapapa

Mitglied
Probleme bei der Installation

Hallo.

Leider krieg ich es nicht gebacken, das Teil zu installieren.

Ich erläutere kurz, was ich gemacht habe. Hoffentlich könnt Ihr mir auf die Sprünge helfen.

Das housespider-4.7-src.zip enthält 3 Ordner (doc, jars, src). Wo muss ich die Ordner hinverteilen?

Mein zu spiderndes Webarchiv sieht von der Struktur etwa so aus:

..Webarchiv
......L index.htm
......L Ordner "data"
..........L Ordner "html"
................L Diverse Unterordner mit HTML Seiten)
..........L Ordner "images"
................L Diverse Unterordner mit Bildern
..........L Ordner "Vids"
................L Diverse Unterordner mit Videos

Unter http://housespider.sourceforge.net/doc/ver47/ steht, das HouseSpider.jar und button jars "must be copied to the same host as your web site". Ich habe die 3 Ordner aus dem zip nun in die selbe Ebene wie index.htm und dem Ordner "Data" gelegt. Das funktioniert nicht.
Dann habe ich die Dateiein aus den Ordnern genommen und direkt in die selbe Ebene gelegt, wie das index.htm. Geht auch nicht.

Wo müssen die Files hin?

Und: Auf der gleichen Seite ist ein Sample-HTML-Code. Wenn ich diesen in die index.htm einfüge und die Seite öffne, sehe ich zwar, dass da ein Java-Applet laufen soll, aber es kommt die Fehlermeldung "Applet HouseSpider not inited." (Fehler beim Laden des JavaApplets).

Ich mache sicher das ein oder andere total falsch.
Es wäre toll, wenn Ihr mir sagen könnt, was ich falsch gemacht habe - UND auch, was ich richtig gemacht habe, denn ich habe k.A., wo das Problem liegt.

1000 Dank im Voraus.

Alinapapa

(WinXP 32bit, Java 1.6.0)
 
Zuletzt bearbeitet:

kuddeldaddeldu

Erfahrenes Mitglied
Wo müssen die Files hin?

Das ist Dir überlassen. Du musst beim Einbinden in Deine index.html halt evtl. die Pfade setzen.

Und: Auf der gleichen Seite ist ein Sample-HTML-Code. Wenn ich diesen in die index.htm einfüge und die Seite öffne, sehe ich zwar, dass da ein Java-Applet laufen soll, aber es kommt die Fehlermeldung "Applet HouseSpider not inited." (Fehler beim Laden des JavaApplets).

Das ist ein Sample-HTML-Code. Wenn die jars in einem anderen Ordner als die index.html liegen, musst Du im archive-Attribut die Pfade noch setzen. Oder Du legst die jars halt "neben" die Index-Datei.

Dann schaust Du Dir mal die Applet Parameter in der Installationsanleitung an und änderst oder löschst die URLs. Du möchtest (und darfst) nicht http://housespider.sourceforge.net spidern... ;)

LG
 

alinapapa

Mitglied
Hi kuddeldaddeldu.

1000 Dank für die Antwort zu später Stund´.

Der Tipp mit den Applet Parameters war schon mal Gold wert! :)

Der Status Quo jetzt: Er spidert die index.html, und das war´s. Tiefer geht´s nicht...

Kann man dem Applet vielleicht sagen: Indexiere alle HTML´s im Ordner soundso und gut ist? Schätze, das Problem ist, dass die Links in den HTML´s ohne Anführungszeichen gesetzt sind. Mein HTML-Archiv war früher ein Web-Tagebuch von Parsimony. Und die Parsimony-Scripte haben anscheinend Links ohne Anführungszeichen gecoded, und unter "Link Handling" ist zu lesen, dass Links ohne Quotes ignoriert werden :eek:

Deshalb wär´s das einfachste, wenn man dem App sagen könnte: Such Dir alle HTMLs aus dem Ordner xyz und indexier´ die. Nach Links braucht er gar nicht suchen. Er muss nur einen Ordner mit 1000 HTML´s durchforsten...

Hoffe, Du kannst mir helfen :)

Viele Grüße,

Alinapapa

P.S. Ich hab mir schon überlegt, den Quellcode aus allen HTML´s hintereinander in eine riesige txt-Datei zu schmeissen - getrennt mit dem jeweiligen Link zur HTML-Datei. Und dann einfach per "Strg.F" zu suchen. Aber das kanns ja nicht sein... - bei mehr als tausend Seiten auch zu aufwändig....
 
Zuletzt bearbeitet:

alinapapa

Mitglied
Habe zwischenzeitlich weiter gesucht.

searchmakerpro bzw. Search Engine Composer tun genau, was ich will:

Ich gebe einen Ordner an, und das Programm durchforstet diesen Ordner samt Unterordner nach HTML´s und indexed diese und generiert anschließend automatisch ein Suchformular. YEAH!

Der Haken: Die beiden Progs kosten 59, bzw. 99 US-$. Da sie darüberhinaus noch viel mehr können, als ich benötige, habe ich die Hoffnung, dass es sowas auch for free gibt

HouseSpider war ja schon fast ein Volltreffer, bis auf das Problem mit den Quotes in den Links. Bzw. weiß ich nicht, wie man HouseSpider sagen kann, es soll gar nicht nach Links schauen, sondern stur einen Ordner HTMLs indexen. Bei den beiden o.g. Programmen klappte das auf Anhieb.

Vielleicht hat doch noch jemand einen Tipp für mich.

Vielen Dank schon mal,

LG, Alinapapa
 

kuddeldaddeldu

Erfahrenes Mitglied
HouseSpider war ja schon fast ein Volltreffer, bis auf das Problem mit den Quotes in den Links. Bzw. weiß ich nicht, wie man HouseSpider sagen kann, es soll gar nicht nach Links schauen, sondern stur einen Ordner HTMLs indexen.

Gar nicht, soweit ich das überblicke (es ist halt ein spider). Bzw. müsstest Du die Software modifizieren, falls Du Java kannst. Sources sind ja dabei.
Du könntest aber auch einfach mit einem Editor, der Suchen/Ersetzen mit regulären Ausdrücken über mehrere Dateien unterstützt, das Problem mit den fehlenden Quotes beseitigen... ;)

LG
 

alinapapa

Mitglied
Gar nicht, soweit ich das überblicke (es ist halt ein spider). Bzw. müsstest Du die Software modifizieren, falls Du Java kannst. Sources sind ja dabei.
Du könntest aber auch einfach mit einem Editor, der Suchen/Ersetzen mit regulären Ausdrücken über mehrere Dateien unterstützt, das Problem mit den fehlenden Quotes beseitigen... ;)

LG

Die Idee hatte ich auch schon, und wahrscheinlich ist das auch kein Riesending. Allerdings übersteigt das meine Kenntnisse. Es müsste ja ein Programm sein, das die Files durchsucht nach
HTML:
<a href=
, überprüft, ob Quotes gesetzt sind, falls nein, ein Anführungszeichen setzt, das Ende sucht
HTML:
>
und dort nochmal eines setzt. Keine Ahnung, wie man sowas macht...:confused:

Du kannst mir da wohl nicht helfen?

LG, Alinapapa
 

alinapapa

Mitglied
Geschafft

Krass - ich hab´s geschafft

Nach weiterer Suche habe ich ein Tool gefunden, das kostenlos ist und für mich passt. Für die Nachwelt:

AFSearch, bzw. navsrh.

D/L und Info: http://www.faico.net/
oder http://www.afsearch.com/

Die kostenlose Version ist dahingehend limitiert, dass nur die ersten 8 Treffer angezeigt werden. Mit dieser Einschränkung kann ich leben, notfalls kann man die Suche ja vertiefen bei zu vielen Treffern. Ansonsten gibt es afaik keine Limitation, nur dezente Werbung in der Treffer-Seite.

Das Registrieren kostet 29 US-$ (März 2009), damit entfällt Werbung, und es werden alle Treffer angezeigt.

Die weiter oben genannten (teureren) Tools fand ich von der Bedienung etwas einfacher, aber mit etwas Rumprobieren hat mit AFSearch dann alles wunderbar geklappt.

Vielen Dank nochmal @ kuddeldaddeldu

LG, Alinapapa

Nachtrag: Nehmt AFSearch! Ist wesentlich (!) leistungsfähiger, als NAVSearch. Auf den ersten Blick gleichen sich die beiden Tools, aber schnell stellt man fest, dass AFSearch viel mehr kann. Dieses Programm kann ich wirklich wärmstens empfehlen.
btw. Bei NavSearch werden, wie oben beschrieben, nur die ersten 8 Treffer angezeigt. Bei AFSearch hingegen werden alle Treffer angezeigt, ab Treffer 9 dann ohne Verlinkung, was aber für eine kostenlose Version verschmerzbar ist. - Oder: Für 29 US-$ erhält man eine unlimitierte und sehr komfortable Suchmaschine. /Werbung off. :)
 
Zuletzt bearbeitet: