tutorials.de Buch-Aktion 05/2012
Like Tree1Danke
  • 1 Beitrag von zeja
ERLEDIGT
NEIN
ANTWORTEN
4
ZUGRIFFE
9488
EMPFEHLEN
  • An Twitter übertragen
  • An Facebook übertragen
AUF DIESES THEMA
ANTWORTEN
  1. #1
    wolfclaw wolfclaw ist offline Mitglied
    Registriert seit
    Mar 2007
    Beiträge
    18
    Guten Abend!

    Ich habe folgende Frage... Ich will eine "zugestreamte" Website auslesen und gewisse Tags herausfiltern (mittels regex, wenn möglich). Folgender Thread beschreibt das Ganze schon ganz gut:

    http://www.tutorials.de/forum/java/1...auswerten.html

    Folgender Code:
    Code :
    1
    2
    3
    4
    5
    6
    7
    8
    
    String line;
    Matcher matcher
     
    while ((line = br.readLine()) != null) {
            matcher = PATTERN_TEXT.matcher(line);
            if (matcher.matches())
                System.out.println("Filtertext: " + line);
    }

    funktioniert ganz gut, ABER leider nur, wenn der zu findende Tag-Bereich in einer Zeile steht. Wenn ich zB ein

    <tr>
    ich bin eine zeile
    <tr>

    auslesen möchte, würde das nicht klappen. Wie würdet ihr das machen, wenn eben solche Bereiche auch ausgelesen werden sollen können?

    Vielen Dank im Vorhinein

    Gruß, Wolfclaw
     

  2. #2
    Avatar von zeja
    zeja zeja ist offline Mitglied Diamant
    tutorials.de Premium-User
    Registriert seit
    Sep 2006
    Beiträge
    2.962
    Warum auch selber das mit RegEx machen wenns im JDK schon Lösungen dafür gibt?

    Code java:
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    
            URL url = new URL("http://www.tutorials.de");
            URLConnection connection = url.openConnection( );
            InputStream is = connection.getInputStream( );
            InputStreamReader isr = new InputStreamReader(is);
            BufferedReader br = new BufferedReader(isr);
     
            HTMLEditorKit htmlKit = new HTMLEditorKit( );
            HTMLDocument htmlDoc = (HTMLDocument) htmlKit.createDefaultDocument( );
            HTMLEditorKit.Parser parser = new ParserDelegator( );
            HTMLEditorKit.ParserCallback callback = htmlDoc.getReader(0);
            parser.parse(br, callback, true);

    So kann man ein HTMLDocument laden und auf dem HTMLDocument kommt man an dessen Elemente und Attribute etc ran, ähnlich wie bei XML Dokumenten.
    wolfclaw bedankt sich. 

  3. #3
    Registriert seit
    Jun 2002
    Ort
    Saarbrücken (Saarland)
    Beiträge
    9.886
    Blog-Einträge
    29
     
    Java rocks!
    How to become a good Java Programmer?
    Does IT in Java and .Net
    The only valid measurement of code quality: WTFs / minute
    Blog
    Xing
    Twitter

  4. #4
    wolfclaw wolfclaw ist offline Mitglied
    Registriert seit
    Mar 2007
    Beiträge
    18
    Vielen Dank Tom und zeja, das ist genau das, was ich suche!
     

  5. #5
    web_007 Tutorials.de Gastzugang
    Hallo,

    ich habe auf der Basis vom obigen Quelltext versucht HTML Tags aus einer Testdatei zu lesen. Leider bekomme ich immer eine NullPointerException wenn ich nach tag div und attribut id suche.

    mein quelltext:
    BufferedReader br = new BufferedReader(new FileReader("test.php"));

    HTMLEditorKit editorKit = new HTMLEditorKit();
    HTMLDocument htmlDoc = new HTMLDocument();
    htmlDoc.putProperty("IgnoreCharsetDirective", Boolean.TRUE);
    editorKit.read(br, htmlDoc, 0);

    HTMLDocument.Iterator iter = htmlDoc.getIterator(HTML.Tag.DIV);
    iter.isValid();
    while (iter.isValid()) {
    System.out.println(iter.getAttributes().getAttribute(HTML.Attribute.ID));
    iter.next();
    }


    das testdoc test.php:
    <div id="test">17</div>
    <a href="seite.php">Link</a>

    was läuft da falsch
     

Ähnliche Themen

  1. Antworten: 3
    Letzter Beitrag: 18.12.09, 13:46
  2. Taginhalt auslesen
    Von wachteldonk im Forum PHP
    Antworten: 7
    Letzter Beitrag: 15.11.07, 20:50
  3. Eigene Attribute in HTML Tags auslesen?
    Von MasterEvil im Forum Javascript & Ajax
    Antworten: 4
    Letzter Beitrag: 11.11.05, 21:06
  4. PHP-Code + HTML Code aus Datenbank auslesen
    Von Danielku15 im Forum PHP
    Antworten: 11
    Letzter Beitrag: 02.09.05, 16:03
  5. xml-html tags mit XmlTextReader auslesen
    Von hauns2000 im Forum .NET Archiv
    Antworten: 2
    Letzter Beitrag: 31.05.05, 13:12