Unicode fails

**generic**

Moin,

ich habe gerade schön gelacht. In einen TV-Beitrag haben die Umlaute mal richtig versaut.
Das möchte ich euch nicht vorenthalten:

https://www.youtube.com/watch?v=JjiaLf3jGxw&t=1405s

Ich würde mal tippen, dass die Schnittsoftware kein Unicode kann.

Wenn ihr auch Unicode fails kennt, dann schreibt die hier ruhig mal rein.

**Bernhard Geyer**

Oder einfach jemand hat irgendwo zu viel UTF8-Codierung eingebaut.
Ist mir auch schon vorgekommen das an durch eine Systemänderung auf einmal an einer Stelle statt String ein UTF8-Codierter String gekommen ist.
Kommt auch vor obwohl überall mit Unicodestrings gearbeitet wurde.

**Helmi**

vielleicht heißt der ja so

**Gausi**

So eine falsche Kodierung wie im Video oben hatte ich mal bei einer Bestellung im xkcd-Shop. Bei der Stadt war das "ü" kaputt, und in Namen das "ß". Ist aber trotzdem ohne Verzögerung angekommen.

Ansonsten: Im Rahmen meiner ID3-Tag-Library bin ich mal auf ein mp3-File gestoßen, bei dem die Informationen "seltsam" angezeigt wurden. Mit Hilfe von HxD habe ich dann erkannt, dass folgende Kodierung verwendet wurde:

UTF-16 (ok, kein Problem)
Nullterminiert (ist ja durchaus sinnvoll)
mit Byte-Order-Mark (kann man machen ...)
das alles aber zeichenweise

Kein Witz - 6 Byte pro Zeichen. Für jedes 2-Byte Zeichen zusätzliche 2 Byte BOM und 2 Byte Terminator. Ich habe dann beschlossen, für diesen Murks keine Erkennungs-Heuristik einzubauen. Bei sowas wird dann einfach Murks angezeigt.

**himitsu**

Ich hatte nichtmal gesehn wo der Fehler sein sollte?
Hab mir aber auch nicht jede Sekunde des Films genau angeguckt.

@Gausi: Na komm schon, das zu implememntieren wäre doich witzig geworden.
Noch besser wäre es aber, wenn jedes Zeichen auch noch anders kodiert worden wäre.
Ob die beim NSA auch so faul sind? Dann hätten wir jetzt eine neue "Verschlüsselung" gefunden.

Ein Deutscher Eurofighter-Pilot.
Und im Vorspann kommt Deutschland auch nur einmal vor ... außer den Braunkohledingern hat Deutschland doch nichts Großartiges zu bieten
und wenn wir die bald alle abgeschaltet haben, dann existieren wir in solchen Dokumentationen garnicht mehr.

[edit]
Grad nochmal geguckt und da war es ja ... aber nach ner halben Sekunde durch die Werbung verdeckt. (sollte ich hier auch mal den YT-Werbeblocker installieren)

Ich denk mal das Programm kann Unicode, aber irgendwo wurde UTF-8 als ANSI/ASCII behandelt, z.B. ohne BOM gespeichert und dann beim Einlesen mit falscher Kodierung.

Wir haben jetzt einen Linux-"Guru" in der Firma
und weil sein Programm nicht mit UTF-8-Dateien mit BOM klar kommt und abstürzt,
wurden alle Dateien als UTF-8 ohne BOM neu abgespeichert,
aber nun kommt Delphi nicht mit UTF-8 ohne BOM klar
und speichert das wieder mit BOM ab und wenn das dann im GitHub landet,
dann verreckt dessen CI, wenn es die SQL-Scripte testen will.

**Der schöne Günther**

Zitat von himitsu:

Wir haben jetzt einen Linux-"Guru" in der Firma
und weil sein Programm nicht mit UTF-8-Dateien mit BOM klar kommt und abstürzt,
wurden alle Dateien als UTF-8 ohne BOM neu abgespeichert,
aber nun kommt Delphi nicht mit UTF-8 ohne BOM klar
und speichert das wieder mit BOM ab und wenn das dann im GitHub landet,
dann verreckt dessen CI, wenn es die SQL-Scripte testen will.

Da stelle ich mir immer vor, wenn so Leute in 1970 dachten "In 50 Jahren haben wir fliegende Autos und Weltfrieden und so" und dann scheitert Computersoftware immer noch an Text-Encoding.

**himitsu**

Nja, Problem ist ja, dass im Linux viele Programme ohne BOM davon ausgehen, dass es UTF-8 ist (bzw. die haben eine Encoding-Erkennung drin), während im Windows viele Programme standardmäßig von ANSI ausgehn.
Mit BOM wüsste jeder was es ist.

Bin ich der Einzige, der meint, dass man etwas so bauen sollte, dass Programme mit den frischinstallierten Standardeinstellungen etwas hinbekommen sollten?
k.A. was so schwer dran ist das BOM einfach zu ignorieren (oder besser noch zu behandeln), in dem Programm was er geschrieben hat, so dass auch Fremdprogramme (die ich nicht selbst programmiert habe) damit umgehen können?
Sorry, wenn ich zum Bearbeiten von SQL-Dateien (was selten passiert) gleich die schon offene Delphi-IDE benutzte, wenn ich parallel im DelphiCode rumfummle und keine "Lust" hab noch ein weiteres Programm zu installieren und zu nutzen. (ja, Codefolding, Codevervollständigung und so gibt es da nicht, aber brauch ich auch nicht)

Vor 20 Jahren wollte Intel in 10 Jahren (also vor 10) den P4 so weit haben, dass der mit 30 GHz läuft. (falls ich das vor Kurzem richtig gelesen hatte)
Datei aber bis zu 5 KW verbrät, also 20 A zieht (aus der Stecktose und somit am Starkstromstecker) und durch den Chip selbst 2500 A "rauchen" müssten (bei 2 V).
(wenn jetzt ein Chip grade mal so die 3 GHz schafft, ist das "schnell")

**TiGü**

Zitat von Der schöne Günther:

Da stelle ich mir immer vor, wenn so Leute in 1970 dachten "In 50 Jahren haben wir fliegende Autos und Weltfrieden und so" und dann scheitert Computersoftware immer noch an Text-Encoding.

Passend dazu:

https://xkcd.com/1953/

Und die zum eigentlichen Thema:

https://xkcd.com/1137/

https://xkcd.com/1209/

**himitsu**

Falls jemand den Text nicht lesen kann.
202E schaltet von left-to-right um

Das ist hier auf irgendeinem Shortcut ... k.A. auf Welchem, ich erwisch ihn nur machmal und muß dann neu starten, weil ich den Shortcut mir nicht merken kann.
Genauso wie in der Delphi-IDE der Editormode mit dem grauenhaft permanenten Verhalten der Selektierung.

**Redeemer**

Es gibt genügend Programme, die an UTF-16 scheitern, weil sie nur UCS-2 unterstützen. Von denen, die UTF-16 unterstützen, aber zum Speichern/Datentransfer meinen, sie würden UTF-8 benutzen, nutzen manche in Wirklichkeit CESU-8.

Delphi unterstützt seit der Einführung in Delphi 2009 UTF-16 komplett. UTF8Decode funktioniert bei mir hingegen in D2009 teils nicht mit z.B. großen Umlauten, weshalb ich eine eigene Decoderfunktion verwende. In neueren Delphis funktioniert mein Code nicht mit, dafür aber ohne diese eigene Decoderfunktion.

Unsere Telefonanlage in der Firma (Starface) ist sehr interessant: Die Mobile App ist unicode-fähig. Der Windows-Client kann nur UCS-2. Fügt man ein Zeichen außerhalb der BMP ein, kommt es trotzdem auf dem Handy richtig an, obwohl der Windows-Client es als zwei Klötzchen darstellt.

Zitat von Gausi:

Im Rahmen meiner ID3-Tag-Library bin ich mal auf ein mp3-File gestoßen, bei dem die Informationen "seltsam" angezeigt wurden. Mit Hilfe von HxD habe ich dann erkannt, dass folgende Kodierung verwendet wurde:

UTF-16 (ok, kein Problem)
Nullterminiert (ist ja durchaus sinnvoll)
mit Byte-Order-Mark (kann man machen ...)
das alles aber zeichenweise

Kein Witz - 6 Byte pro Zeichen. Für jedes 2-Byte Zeichen zusätzliche 2 Byte BOM und 2 Byte Terminator. Ich habe dann beschlossen, für diesen Murks keine Erkennungs-Heuristik einzubauen. Bei sowas wird dann einfach Murks angezeigt.

Bist du dir sicher, dass du UTF-16 meinst und nicht UCS-2?

Unicode fails

Unicode fails

AW: Unicode fails

AW: Unicode fails

AW: Unicode fails

AW: Unicode fails

AW: Unicode fails

AW: Unicode fails

AW: Unicode fails

AW: Unicode fails

AW: Unicode fails

Forumregeln

generic Registriert seit: 24. Mär 2004 Ort: bei Hannover 2.416 Beiträge Delphi XE5 Professional	#1 Unicode fails 29. Nov 2020, 15:17 Moin, ich habe gerade schön gelacht. In einen TV-Beitrag haben die Umlaute mal richtig versaut. Das möchte ich euch nicht vorenthalten: https://www.youtube.com/watch?v=JjiaLf3jGxw&t=1405s Ich würde mal tippen, dass die Schnittsoftware kein Unicode kann. Wenn ihr auch Unicode fails kennt, dann schreibt die hier ruhig mal rein.
	Zitat

Bernhard Geyer Registriert seit: 13. Aug 2002 17.222 Beiträge Delphi 10.4 Sydney	#2 AW: Unicode fails 30. Nov 2020, 07:13 Oder einfach jemand hat irgendwo zu viel UTF8-Codierung eingebaut. Ist mir auch schon vorgekommen das an durch eine Systemänderung auf einmal an einer Stelle statt String ein UTF8-Codierter String gekommen ist. Kommt auch vor obwohl überall mit Unicodestrings gearbeitet wurde. Windows Vista - Eine neue Erfahrung in Fehlern.
	Zitat

Helmi Registriert seit: 29. Dez 2003 Ort: Erding, Republik Bayern 3.344 Beiträge Delphi XE2 Professional	#3 AW: Unicode fails 30. Nov 2020, 09:51 vielleicht heißt der ja so mfg Helmi >> Theorie ist Wissen, dass nicht funktioniert - Praxis ist, wenn alles funktioniert und keiner weiss warum! <<
	Zitat

TiGü Registriert seit: 6. Apr 2011 Ort: Berlin 3.073 Beiträge Delphi 10.4 Sydney	#8 AW: Unicode fails 1. Dez 2020, 10:00 Zitat von Der schöne Günther: Da stelle ich mir immer vor, wenn so Leute in 1970 dachten "In 50 Jahren haben wir fliegende Autos und Weltfrieden und so" und dann scheitert Computersoftware immer noch an Text-Encoding. Passend dazu: https://xkcd.com/1953/ Und die zum eigentlichen Thema: https://xkcd.com/1137/ https://xkcd.com/1209/
	Zitat