Hallo,
viel Grüße erstmal, ich bin ja neu hier
Und zwar habe ich folgendes Problem. Ich möchte Webseiten parsen, die in einer Datenbank gespeichert sind. Nun gibt es aber ein Problem beim Parsen.
Das war mein erster Versuch, den ich auch in diesem Forum gefunden habe:
Funktioniert auch ziemlich gut, der Haken ist aber, das "parser.parse(br, callback, true);" nicht nur Daten aus der Datenbank ließt, sondern auch welche aus dem Internet. Ich nehme mal an, die Webseite wird noch einmal generiert, wenn zb .css Links vorkommen und nachgeladen werden. Das ist aber für meine Zwecke nicht wünschenswert. Kann man das Nachladen irgendwie deaktivieren?
Habt ihr eine Idee zur Lösung des Problems?
Grüßli
viel Grüße erstmal, ich bin ja neu hier

Und zwar habe ich folgendes Problem. Ich möchte Webseiten parsen, die in einer Datenbank gespeichert sind. Nun gibt es aber ein Problem beim Parsen.
Das war mein erster Versuch, den ich auch in diesem Forum gefunden habe:
Code:
BufferedReader br = new BufferedReader(new InputStreamReader(is));
HTMLEditorKit htmlKit = new HTMLEditorKit();
HTMLDocument htmlDoc = (HTMLDocument) htmlKit.createDefaultDocument();
HTMLEditorKit.Parser parser = new ParserDelegator();
HTMLEditorKit.ParserCallback callback = htmlDoc.getReader(0);
parser.parse(br, callback, true);
Funktioniert auch ziemlich gut, der Haken ist aber, das "parser.parse(br, callback, true);" nicht nur Daten aus der Datenbank ließt, sondern auch welche aus dem Internet. Ich nehme mal an, die Webseite wird noch einmal generiert, wenn zb .css Links vorkommen und nachgeladen werden. Das ist aber für meine Zwecke nicht wünschenswert. Kann man das Nachladen irgendwie deaktivieren?
Habt ihr eine Idee zur Lösung des Problems?
Grüßli