1Danke
ERLEDIGT
NEIN
NEIN
ANTWORTEN
4
4
ZUGRIFFE
9488
9488
EMPFEHLEN
-
Guten Abend!
Ich habe folgende Frage... Ich will eine "zugestreamte" Website auslesen und gewisse Tags herausfiltern (mittels regex, wenn möglich). Folgender Thread beschreibt das Ganze schon ganz gut:
http://www.tutorials.de/forum/java/1...auswerten.html
Folgender Code:
Code :1 2 3 4 5 6 7 8
String line; Matcher matcher while ((line = br.readLine()) != null) { matcher = PATTERN_TEXT.matcher(line); if (matcher.matches()) System.out.println("Filtertext: " + line); }
funktioniert ganz gut, ABER leider nur, wenn der zu findende Tag-Bereich in einer Zeile steht. Wenn ich zB ein
<tr>
ich bin eine zeile
<tr>
auslesen möchte, würde das nicht klappen. Wie würdet ihr das machen, wenn eben solche Bereiche auch ausgelesen werden sollen können?
Vielen Dank im Vorhinein
Gruß, Wolfclaw
-
Warum auch selber das mit RegEx machen wenns im JDK schon Lösungen dafür gibt?
Code java:1 2 3 4 5 6 7 8 9 10 11
URL url = new URL("http://www.tutorials.de"); URLConnection connection = url.openConnection( ); InputStream is = connection.getInputStream( ); InputStreamReader isr = new InputStreamReader(is); BufferedReader br = new BufferedReader(isr); HTMLEditorKit htmlKit = new HTMLEditorKit( ); HTMLDocument htmlDoc = (HTMLDocument) htmlKit.createDefaultDocument( ); HTMLEditorKit.Parser parser = new ParserDelegator( ); HTMLEditorKit.ParserCallback callback = htmlDoc.getReader(0); parser.parse(br, callback, true);
So kann man ein HTMLDocument laden und auf dem HTMLDocument kommt man an dessen Elemente und Attribute etc ran, ähnlich wie bei XML Dokumenten.
-
01.04.07 13:26 #3
- Registriert seit
- Jun 2002
- Ort
- Saarbrücken (Saarland)
- Beiträge
- 9.886
- Blog-Einträge
- 29
Hallo,
schau mal hier:
http://www.tutorials.de/forum/java/2...trahieren.html
Gruß TomJava rocks!
How to become a good Java Programmer?
Does IT in Java and .Net
The only valid measurement of code quality: WTFs / minute
Blog
Xing
Twitter
-
Vielen Dank Tom und zeja, das ist genau das, was ich suche!
-
16.12.09 23:46 #5web_007 Tutorials.de Gastzugang
Hallo,
ich habe auf der Basis vom obigen Quelltext versucht HTML Tags aus einer Testdatei zu lesen. Leider bekomme ich immer eine NullPointerException wenn ich nach tag div und attribut id suche.
mein quelltext:
BufferedReader br = new BufferedReader(new FileReader("test.php"));
HTMLEditorKit editorKit = new HTMLEditorKit();
HTMLDocument htmlDoc = new HTMLDocument();
htmlDoc.putProperty("IgnoreCharsetDirective", Boolean.TRUE);
editorKit.read(br, htmlDoc, 0);
HTMLDocument.Iterator iter = htmlDoc.getIterator(HTML.Tag.DIV);
iter.isValid();
while (iter.isValid()) {
System.out.println(iter.getAttributes().getAttribute(HTML.Attribute.ID));
iter.next();
}
das testdoc test.php:
<div id="test">17</div>
<a href="seite.php">Link</a>
was läuft da falsch
Ähnliche Themen
-
Tags und Taginhalt aus gestreamten HTML-Code auslesen
Von web_007 im Forum JavaAntworten: 3Letzter Beitrag: 18.12.09, 13:46 -
Taginhalt auslesen
Von wachteldonk im Forum PHPAntworten: 7Letzter Beitrag: 15.11.07, 20:50 -
Eigene Attribute in HTML Tags auslesen?
Von MasterEvil im Forum Javascript & AjaxAntworten: 4Letzter Beitrag: 11.11.05, 21:06 -
PHP-Code + HTML Code aus Datenbank auslesen
Von Danielku15 im Forum PHPAntworten: 11Letzter Beitrag: 02.09.05, 16:03 -
xml-html tags mit XmlTextReader auslesen
Von hauns2000 im Forum .NET ArchivAntworten: 2Letzter Beitrag: 31.05.05, 13:12





Zitieren


Login





