SAX Parser und UTF-8

cengizhdde

Mitglied
Hallo zusammen,

versuche mit dem SAX-Parser (jdom.jar (v1.0)) Daten aus XML-Dateien herauszulesen. Bevor ich die Probleme beschreibe, hier erstmal die system-technischen Informationen:

Betriebssystem: Windows XP Prof.
JSDK/JRE: v.1.4.2
IDE: Eclipse/MyEclipse v3.1

Da ich u. U. Dateien von einer Grösse => 490 MB lese, schaue ich nicht in jede XML-Datei um evtl. Fehler zu prüfen.

Nun zu den Schwierigkeiten. Beim Lesen von XML-Datein stosse ich (je nach Datei) auf die folgenden Fehlermeldungen:

1)
SAXParseException:, Zeile 1, Spalte -1
org.xml.sax.SAXParseException: Unzulässiges XML-Zeichen (oder  oder oder &#xC, ...)

2) Wenn eine XML-Datei als UTF-8 heruntergeladen wurde (mit oder ohne XML-Schema), kommt beim Lesen die folgende Meldung:

SAXParseException:, Zeile 1, Spalte -1
org.xml.sax.SAXParseException: Dokumentwurzelelement fehlt

Desweiteren habe ich bemerkt, das jedesmal, wenn in einem Satz das "&"-Zeichen vorkommt, automatisch ein Zeilenumbruch vorgenommen wird. Manchmal wird dann das "&"-Zeichen
in der nächten Zeile angezeigt, manchmal allerdings weggelassen.

Beispiel-Satz: "Kuchen & Käse"

Ausgabe:

Kuchen
&
Käse


Im allgemeinen haben die Dateien folgenden Aufbau:

Beispiel-XML-Datei:

<?xml version="1.0" encoding="utf-8" ?>
<root>
<!-- product data
-->
<xs:schema xmlns:xs="http://www.w3.org/2001/XMLSchema" elementFormDefault="qualified" attributeFormDefault="unqualified">
.... {Schema-Definition}
</xs:schema>
<product>
<child1>Text</child1>
<child2>
Text
</child2>
{weitere Child-Elemente}
</product>
</root>

An den Dateien konnte ich nicht aussergewöhnliches erkennen.

Danke für Ideen und für die Hilfe.

Gruss
Cengiz
 
Versuch doch mal, deine XML Files lokal zu speichern und im IE zu öffnen. Wenn er es nicht öffnet, sind nicht gültige Zeichen (z.B. Umlaute enthalten). Diese müssen draussen bleiben. Wenns das nicht ist, weiss ich auch nicht.
Gruss.
 

Neue Beiträge

Zurück