Unicode UTF-8 öffnen

Caesar · 20.09.07

Hallo,

die Dateien auf unserem Webserver sind alle mit dem Charset UTF-8 codiert. Irgendwie bekomme ich es nicht hin, diese Dateien korrekt zu öffnen und wieder im richtigen Format zu speichern.

Smultron meldet z.B. "Fehler beim Öffnen des Dokuments mit Kodierung "Unicode (UTF-8)". Soll es trotzdem geöffnet werden?" Öffne ich es trotzdem, gehen die Umlaute flöten.

Habt Ihr eine Idee, mit welchem Programm ich damit keine Probleme habe?

Viele Grüße & Merci

Manuel

crossinger · 20.09.07

Z.B. Textwrangler? Ist kostenlos und kommt mit verschiedenen Codierungen klar. Wäre zumindest einen Versuch wert, der nix kostet.

*J*

sAiKo · 20.09.07

Smultron kann garantiert auch UTF8. Hast du in den Einstellungen von Smultron vielleicht so was eingestellt wie: Benutze immer ASCII oder so?

Gruß

Christian

Caesar · 20.09.07

sAiKo schrieb:
Smultron kann garantiert auch UTF8. Hast du in den Einstellungen von Smultron vielleicht so was eingestellt wie: Benutze immer ASCII oder so?

Nein, habe ich nicht. Die Einstellung steht auf "Automatisch erkennen". Aber selbst wenn ich die Einstellung auf "Benutze immer UTF-8" ändere, kommt die Fehlermeldung beim Öffnen der Datei.

Manuel

Skeeve · 20.09.07

jEdit kann auch UTF-8 und noch viele andere Kodierungen.

Nachtrag: Schau Dir doch mal einen Hexdump an, ob Du tatsächlich UTF-8 vorliegen hast.

Caesar · 20.09.07

Skeeve schrieb:
Nachtrag: Schau Dir doch mal einen Hexdump an, ob Du tatsächlich UTF-8 vorliegen hast.

Habe ich gerade gemacht. Woher weiß ich denn, ob UTF-8 vorliegt?

Manuel

Skeeve · 20.09.07

Naja... Speicher mal eine korrekte UTF-8 Datei ab (also eine, mit einem der o.g. Editoren erzeugte) und vergleiche die Bytefolgen der Zeichen.

Caesar · 20.09.07

Sorry, so genau kenne ich mich da nicht aus. Vielleicht kannst Du ja mal kucken...

(1) Datei die ich mit Smultron korrekt im UTF-8 Format gespeichert habe:
0000000 6554 7473 7520 646e 5420 7365 2174
000000e

(2) Datei vom Server (die ersten und letzten drei Zeilen)
0000000 213c 4f44 5443 5059 2045 7468 6c6d 5020
0000010 4255 494c 2043 2d22 2f2f 3357 2f43 442f
0000020 4454 5820 5448 4c4d 3120 302e 5320 7274
...
0002340 6f62 7964 0d3e 3c0a 682f 6d74 3e6c 0a0d
0002350 0a0d 0a0d 0a0d 0a0d
0002358

Manuel

Skeeve · 20.09.07

Alles Klar! Es ist ein Big vs. Little Endian Problem. Dem kannst Du allenfalls entgehen, indem Du eine BOM an den Anfang der Datei schreiben läßt.

Man sieht es hierdran: 21 3c 4f 44 ist "!<OD" statt "<!DO" (vom DOCTYPE).

Suche

Suche

Unicode UTF-8 öffnen

Caesar

Weigelts Zinszahler (Rotfranch)

crossinger

Doppelter Melonenapfel

sAiKo

Cripps Pink

Caesar

Weigelts Zinszahler (Rotfranch)

Skeeve

Pomme d'or

Caesar

Weigelts Zinszahler (Rotfranch)

Skeeve

Pomme d'or

Caesar

Weigelts Zinszahler (Rotfranch)

Skeeve

Pomme d'or

Wir schützen Ihre Privatsphäre

Informationen auf einem Gerät speichern und/oder abrufen

Personalisierte Anzeigen und Inhalte, Anzeigen- und Inhaltsmessungen, Erkenntnisse über Zielgruppen und Produktentwicklungen (Optionale Cookies)

Datenübermittlung an Partner in anderen Staaten (Drittanbieter-Cookies)