tutorials.de Buch-Aktion 05/2012
ERLEDIGT
NEIN
ANTWORTEN
3
ZUGRIFFE
620
EMPFEHLEN
  • An Twitter übertragen
  • An Facebook übertragen
AUF DIESES THEMA
ANTWORTEN
  1. #1
    Avatar von torax13
    torax13 torax13 ist offline Mitglied Gold
    Registriert seit
    Jul 2007
    Beiträge
    155
    Hallo,
    ich will demnächst HTML Parsen und daraus bestimmte Werte auslesen (größtenteils ins Tabellen).

    Nun gibts ja entpsrechende Bibliotheken wie Sand am Meer. Könnt Ihr was empfehlen? Eine gewisse Fehlertoleranz gegenüber invalid HTML wäre eventl ganz gut (hab noch nicht so genau die zu parsenden Seiten angeschaut). Wichtig wär für mich, das ich auf die Elemente der Seite DOM artig (so wie im Firefox DOM Inspector) zugreifen kann.

    Kennt ihr da was?

    Vielen Dank im Vorraus.

    Torax
     
    Falls ich entgegen meiner Gewohnheiten mal einen hilfreichen Beitrag schreibe, freu ich mich über eine positive Bewertung.

  2. #2
    Avatar von Chefkoch333
    Chefkoch333 Chefkoch333 ist offline Mitglied Gold
    Registriert seit
    Apr 2007
    Beiträge
    112
    Hi Torax,
    ich habe mal etwas ähnliches gemacht. Allerdings habe ich da nicht allzuviel gefunden. Wichtig ist ja gerade das der Parser dreckiges xml (nämlich html) lesen muss.
    Schau dir mal das tagsoup Projekt an, damit habe ich damals meinen html site scraper zum auslesen von Informationen auf Webseiten umgesetzt.

    VG,
    chefkoch
     

  3. #3
    Registriert seit
    Jun 2002
    Ort
    Saarbrücken (Saarland)
    Beiträge
    9.886
    Blog-Einträge
    29
    Hallo,

    schau mal hier:
    http://www.java-source.net/open-source/html-parsers
    Ich hab mal JTidy benutzt und war damit weitesgehend zufrieden.

    Gruß Tom
     
    Java rocks!
    How to become a good Java Programmer?
    Does IT in Java and .Net
    The only valid measurement of code quality: WTFs / minute
    Blog
    Xing
    Twitter

  4. #4
    Avatar von torax13
    torax13 torax13 ist offline Mitglied Gold
    Registriert seit
    Jul 2007
    Beiträge
    155
    Vielen Dank Euch beiden. Ich hatte/hab zwischenzeitlich bereits angefangen, die Seite mit den Opensource Parsern (aus Thomas Link) hatte ich bereits gefunden und mich erstmal für den Parser aus dem Lobo Projekt (Cobra) antschieden. Mittlerweile hab ich den DOM Tree und muss mich jetzt etwas mit DOM beschäftigen (nutzte bisher immer JDom für XML). Cobra scheint soweit auch ganz gut zu sein. Ich kann am Ende ja mal meine Erfahrungen Posten.

    Gruß Torax
     
    Falls ich entgegen meiner Gewohnheiten mal einen hilfreichen Beitrag schreibe, freu ich mich über eine positive Bewertung.

Ähnliche Themen

  1. Java HTML Parser
    Von Dinesh im Forum Java
    Antworten: 2
    Letzter Beitrag: 12.07.10, 07:33
  2. HTML-Parser benötigt !
    Von AvS im Forum Java
    Antworten: 3
    Letzter Beitrag: 02.06.09, 10:20
  3. html parser
    Von bblog im Forum Java Grundlagen
    Antworten: 2
    Letzter Beitrag: 24.12.08, 11:40
  4. HTML-Parser Empfehlung ?!
    Von angelikamorgan im Forum Java
    Antworten: 2
    Letzter Beitrag: 03.08.08, 23:27
  5. html Parser
    Von Katzenbauer im Forum C/C++
    Antworten: 2
    Letzter Beitrag: 22.03.06, 20:33