Tom: Zeichenkodierung einer Datei auslesen

Beitrag lesen

Hello,

Dann kannst du noch schauen, ob ein 110xxxxx wirklich von einem 10xxxxxx gefolgt wird, oder ob ein 10xxxxxx vorkommt, dessen Vorgänger eben einer ist, der in UTF-8 nicht erlaubt wäre.

Dies scheint mir eine sehr verlässliche Methode zu sein, nicht UTF-8-kodierte Zeichen von Utf-8-kodierten Zeichen zu unterscheiden.

Ich denke da gerade an meine Bemühungen, ASC-Dateien (Text-Dateien) von z.B. EXE-Dateien zu unterscheiden.
Eine echte Textdatei darf keine #0 enthalten.
Genauso könnte man also bei den  UTF-8-Dateien vorgehen. Bestimmte Zeichen oder Zeichenfolgen sind hier einfach 'verboten' und damit als "Anti-Signatur" geeignet.

Harzliche Grüße vom Berg
esst mehr http://www.harte-harzer.de

Tom

--
Fortschritt entsteht nur durch die Auseinandersetzung der Kreativen
Nur selber lernen macht schlau