Reinen Text aus HTML/JSP extrahieren

Vatar · 29. August 2005

Ich kämpfe immer noch mit meinem JSP-Parser (einige mögen sich erinnern)

Alle wichtigen Tags/Attribute die ich extrahieren möchte tun jetzt aber ich habe noch ein (hoffentlich) letztes Problem. Es kann (sehr sehr selten) vorkommen dass in der JSP auch normaler HTML-Content steht, also ohne umschließendes Tag. Von diesen Stellen benötige ich dann wieder die Start- und Endeposition sowie den eigentlichen Text.

Ein Regex wäre natürlich sehr schön, aber ich vermute der wird dann sehr kompliziert.
Könnte ich das mit irgendwelchen String-(besser StringBuffer-)Methoden erreichen? Ich dachte daran die öffnenden und schließenden Tags zu zählen oder so etwas in die Richtung.

Thx

schnuffie · 2. September 2005

Der Ansatz ist schon richtig.

Du könntest "<" als Flag verwenden, den nachfolgenden String bis zum ">", "/" oder " " als Schlüssel verwenden. Findest Du danach die Kombination "/>" oder "</"+Schlüssel ist alles OK, sonst kannst Du Dir den String bis zum != "<"+Schlüssel geben lassen.

Also, alles in den StringBuffer packen und per Schleife durchlaufen.

Reinen Text aus HTML/JSP extrahieren

Vatar

Erfahrenes Mitglied

schnuffie

Erfahrenes Mitglied

Neue Beiträge