Problem mit Streamformat

FeliXXL

Mitglied
Habe ein Problem mit diesem Stream.
Ich will für ihn das "Einleseformat" ISO-8859-1 verwenden, da er Umlaute falsch einliest,
wenn ich das nicht tue. (Ich hoffe doch mal das liegt daran)
Jedenfalls macht er aus einem "ä" ein "ä", aus "ö" ein "ö" und aus "ü" ein "ü"...

Java:
InputStream is = null;
String Quelltext = null;
try
{
    URL url = new URL( "url" );
    is = url. openStream();
    Quelltext = ( new Scanner(is). useDelimiter("//html//"). next() );
}
catch ( Exception e)
{
    e. printStackTrace();
}
finally 
{
    if ( is != null )
    try { is. close(); } 
    catch ( IOException e ) { }
}

Das ist mein verkürzter Quellcode, bei dem in der ersten Zeile der Inputstream initialisiert wird. Ich hoffe auf Hilfe...
 
Zuletzt bearbeitet:
Habe ich nun mit übergeben, hat aber immer noch den gleichen Fehler...

Java:
InputStream is = null;
String charset = null;
String Quelltext = null;
try
{
    URL url = new URL( "url" );
    is = url. openStream();
    charset = "ISO-8859-1";
    Quelltext = ( new Scanner(is, charset). useDelimiter("//html//"). next() );
}
catch ( Exception e )
{
    e. printStackTrace();
}
finally 
{
    if ( is != null )
    try { is. close(); } 
    catch ( IOException e ) { }
}

Vielleicht lag es ja auch nicht daran. Kommt das vielleicht jemandem bekannt vor?
Wenn ich mir den Quelltext der Internetseite lade und ihn mir direkt ausgeben lasse besteht das Problem schon. Kann also nur beim laden geschehen sein. ÄÖÜ sind meines wissens nach im standart ascii nicht enthalten. Die Ausgabe, die ich stattdessen bekomme sind aber auch keine ascii-zeichen (ä) ...
 
Zuletzt bearbeitet:
Ist die Seite vielleicht Unicode-codiert? Dann bringt es dir auch nix, die Seite mit dem ISO-8859-1 Charset einzulesen, musst dann schon zu einem Unicode-Charset wechseln, z.B. UTF-8. Was normalerweise gibts im Quellcode Meta-Daten und wenn da ein meta-Tag für den content-type vorhanden ist, dann musst du das dort angegebene Charset verwenden.
 
... <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> ...
Verdammt. Damit probier ichs mal!
 
Zurück