Nicht darstellbare Zeichen entfernen (UTF-8)

Ich versuch mal eine andere Herangehensweise an das Problem. Was sind das für Zeichen die nicht darstellbar sind? Du redest von eingescannten Dokumenten. Wie kommst du da an den Text?
Ist der Zeichensatz des Textes, denn du versuchst einzulesen ein anderer, den du vlt explizit angeben musst?
Wenn es sich nicht gerade um chinesische Zeichen handelt sollte man davon ausgehen, dass UTF-8 diese beschreiben kann. Strings in Java kann alles, da es auf UTF-16 basiert.
 
@Bratkartoffel:
Komischer Weiße sind die nicht darstellbaren Zeichen auch nur am Anfang und am Ende gewesen.

@Anime-Otaku:
Die Dokumente werden nach dem Scannvorgang durch ein Texterkennungsprogramm gejagd. Das dieses nicht zu 100% richtig liegen kann ist mir bewusst, da die Dokumente teilweiße eine sehr schlechte Qualität haben.
Meines Erachtens nach, sind die Dokumente entweder auf Deutsch oder Englisch.
 
Falls Du den Zeichensatz des Gescannten kennst, kannst Du die Umwandelfunktionen von String verwenden:
new String("test".getBytes(), "UTF-8")
new String("test".getBytes("UTF-8"))
 
Zurück