andiprue
Grünschnabel
Hallo,
momentan habe folgendes Problem.
Ich habe auch einen ähnlichen Thread gefunden, leider funktionieren die dortigen Lösungen in meinem Fall nicht.
Ich lese HTML Dateien ein und extrahiere dort den Titel.
Dieser wird in eine CSV geschrieben.
Bsp.
"0"|"/wasser/00_479gs.htm"|"Entscheidung 2000/479/EG Europäisches Schadstoffemissionsregister"|"Wasser"|"Bund"|"19.09.2007"|"Gesamt"
"1"|"/wasser/00_60gs.htm"|"RL 2000/60/EG Wasser-Rahmen-Richtlinie"|"Wasser"|"Bund"|"19.09.2007"|"Gesamt"
"2"|"/wasser/03_1882gs.htm"|"Verordnung (EG) Nr. 1882/2003 des Europäischen Parlaments und des Rates zur Anpassung der Bestimmungen über die Ausschüsse zur Unterstützung der Kommission bei der Ausübung von deren Durchführungsbefugnissen, die in Rechtsakten vorgesehen sind, für die"|"Wasser"|"Bund"|"19.09.2007"|"Gesamt"
"3"|"/wasser/04_648gs.htm"|"Verordnung (EG) Nr. 648/2004 ?ber Detergenzien"|"Wasser"|"Bund"|"19.09.2007"|"Gesamt"
Leider wird die Konvertierung nicht ganz übernommen.
Geöffnet werden die Dateien in ASCII, dann mittels der Encodingklasse nach utf-8 konvertiert. Egal wie ich die Datei öffne/schreibe/konvertiere es kommen immer Fragezeichen bei ÄÖÜ raus.
Wie macht man es denn richtig ?
Danke
momentan habe folgendes Problem.
Ich habe auch einen ähnlichen Thread gefunden, leider funktionieren die dortigen Lösungen in meinem Fall nicht.
Ich lese HTML Dateien ein und extrahiere dort den Titel.
Dieser wird in eine CSV geschrieben.
Bsp.
"0"|"/wasser/00_479gs.htm"|"Entscheidung 2000/479/EG Europäisches Schadstoffemissionsregister"|"Wasser"|"Bund"|"19.09.2007"|"Gesamt"
"1"|"/wasser/00_60gs.htm"|"RL 2000/60/EG Wasser-Rahmen-Richtlinie"|"Wasser"|"Bund"|"19.09.2007"|"Gesamt"
"2"|"/wasser/03_1882gs.htm"|"Verordnung (EG) Nr. 1882/2003 des Europäischen Parlaments und des Rates zur Anpassung der Bestimmungen über die Ausschüsse zur Unterstützung der Kommission bei der Ausübung von deren Durchführungsbefugnissen, die in Rechtsakten vorgesehen sind, für die"|"Wasser"|"Bund"|"19.09.2007"|"Gesamt"
"3"|"/wasser/04_648gs.htm"|"Verordnung (EG) Nr. 648/2004 ?ber Detergenzien"|"Wasser"|"Bund"|"19.09.2007"|"Gesamt"
Leider wird die Konvertierung nicht ganz übernommen.
Geöffnet werden die Dateien in ASCII, dann mittels der Encodingklasse nach utf-8 konvertiert. Egal wie ich die Datei öffne/schreibe/konvertiere es kommen immer Fragezeichen bei ÄÖÜ raus.
Code:
titel = rgxTitle.Match(line).ToString();
byte[] ASCIItitle = Encoding.ASCII.GetBytes(titel);
byte[] bytes = Encoding.Convert(Encoding.GetEncoding(0),Encoding.UTF8,ASCIItitle);
UTF8Encoding enc = new UTF8Encoding();
titel = enc.GetString(bytes);
Wie macht man es denn richtig ?
Danke
