Hallo zusammen,
Ich habe ein Problem mit Umlauten bzw. Sonderzeichen während des SAX Parsings.
Die Umlaute/Sonderzeichen werden vom Parser nicht korrekt erkannt.
Hier meine XML Datei
wen man das File mit dem Notepad oder einem anderen Editoren öffnet sieht man das die Sonderzeichen als Unicode stehen . ö 228 ü .
Beim Parsen mit dem SAXParser
sollten alle Zeichen von ContentHandler erkannt werden.
Ausgabe:
Wie kann man das verhindern das die Zeichen einzeln ausgegeben werden?
Schliesslich will ich jeweils den Inhalt des Ganzen Tags und keine Bruchstücke.
Habe mich hier im Forum auch schon umgeschaut jemand hatte ein ähnliches Problem:http://www.tutorials.de/forum/java/268764-sax-parsing-umlaute-sonderzeichen.html
Dies half mir leider nicht weiter. Ich habe nun einen Weg gefunden die Umlaute korrekt einzulesen bzw. das XML-File mit UTF-8 gleich abzuspeichern, jedoch ersetze ich <,>,/ ,\ innerhalb der Tags durch Unicode... damit das XML-Well Formed bleibt und auch geparst werden kann und dort ist dieses Problem noch immer vorhanden, so das es jeden Unicode einzeln ausgibt.
Gruß Marco
Ich habe ein Problem mit Umlauten bzw. Sonderzeichen während des SAX Parsings.
Die Umlaute/Sonderzeichen werden vom Parser nicht korrekt erkannt.
Hier meine XML Datei
Code:
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE PRAS SYSTEM ".\example.dtd">
<Test>
<Head>
<Name>tutorials.de</Name>
<ErstellungsDatum>2008-02-02</ErstellungsDatum>
<Ansprechperson>öäü Müller</Ansprechperson>
</Head>
<Test>
Beim Parsen mit dem SAXParser
Code:
XMLReader parser = XMLReaderFactory.createXMLReader();
Code:
public void characters(char[] ch, int start, int length) throws SAXException {
String str = new String(ch, start, length);
System.out.println("Zeichenkette: " + str);
}
Code:
Zeichenkette: tutorials.de
Zeichenkette: 2008-02-02
Zeichenkette: ö
Zeichenkette: ä
Zeichenkette: ü
Zeichenkette: M
Zeichenkette: ü
Zeichenkette: ller
Schliesslich will ich jeweils den Inhalt des Ganzen Tags und keine Bruchstücke.
Habe mich hier im Forum auch schon umgeschaut jemand hatte ein ähnliches Problem:http://www.tutorials.de/forum/java/268764-sax-parsing-umlaute-sonderzeichen.html
Dies half mir leider nicht weiter. Ich habe nun einen Weg gefunden die Umlaute korrekt einzulesen bzw. das XML-File mit UTF-8 gleich abzuspeichern, jedoch ersetze ich <,>,/ ,\ innerhalb der Tags durch Unicode... damit das XML-Well Formed bleibt und auch geparst werden kann und dort ist dieses Problem noch immer vorhanden, so das es jeden Unicode einzeln ausgibt.
Gruß Marco
Zuletzt bearbeitet: