Candid Dauth: Zeichenkodierung einer Datei auslesen

Beitrag lesen

Heißa, Ashura,

Doch die einzige Alternative wäre, im Trial-And-Error-Verfahren beim Editieren die Zeichenkodierung manuell zu ändern, bis alle Sonderzeichen „normal“ aussehen.

Immerhin kannst du ja immer in paar Zeichensätze ausschließen, wenn zum Beispiel die Bitlänge des Strings nicht durch 8 teilbar ist, weißt du, dass es sich nicht um ein 8-bit-Charset handeln kann.

Oder du kannst überprüfen, ob es sich um UTF-8 handeln kann. UTF-8 kann zum Beispiel keine Zeichen der Binärcodes 11111000–11111111 enthalten. Dann kannst du noch schauen, ob ein 110xxxxx wirklich von einem 10xxxxxx gefolgt wird, oder ob ein 10xxxxxx vorkommt, dessen Vorgänger eben einer ist, der in UTF-8 nicht erlaubt wäre.

Es gibt also schon einige Merkmale, anhand derer man bestimmte Zeichensätze ausschließen kann. Die genaue Bestimmung zum Beispiel unterhalb der ISO-8859-Zeichensätze ist aber in der Tat sehr schwierig bis unmöglich.

Gautera!
Grüße aus Biberach Riss,
Candid Dauth

--
Ein Fußball-Fan? Noch auf der Suche eine Schlafmöglichkeit im Großraum Stuttgart für die WM 2006? Wie wäre es mit Herrenberg, einer gemütlichen Kleinstadt am Rande des Schönbuchs? – Von der Lage her ideal, auch für andere Vorhaben im Urlaub. Ferienwohnungen-Herrenberg.com.
http://cdauth.de/