Versteht hier jemand Unicode?

**Luckie**

Also, ich habe innerhalb des 16-Bit Bereichs, dem BMP, wo die Zeichen mit 16-Bit kodiert sind einen Bereich, der reserviert ist. Innerhalb dieses Bereiches werden die Zeichen mit zwei mal 16-Bit kodiert. Wobei bei diesen beiden 16-Bit die oberen sechs Bits zur Kennzeichnung dienen, dass es sich um Zeichen in diesen Reservierten Bereich handelt.

Stimmt die Erklärung des Prinzips soweit? Wie die die Kodierung im Einzelnen zu Stande kommt, ist erst mal nicht so wichtig. Ich will nur wissen, ob ich das Prinzip verstanden habe.

**BUG**

Zitat von Luckie:

Also, ich habe innerhalb des 16-Bit Bereichs, dem BMP, wo die Zeichen mit 16-Bit kodiert sind einen Bereich, der reserviert ist. Innerhalb dieses Bereiches werden die Zeichen mit zwei mal 16-Bit kodiert. Wobei bei diesen beiden 16-Bit die oberen sechs Bits zur Kennzeichnung dienen, dass es sich um Zeichen in diesen Reservierten Bereich handelt.

Mit je zwei "Zeichen" aus diesem Bereich werden die Zeichen kodiert, die sonst nicht in die 16 Bit passen würden (also nicht in der BMP liegen). Ich nehme an, das meinst du?

Zitat von Luckie:

Stimmt die Erklärung des Prinzips soweit?

Sieht fast so aus

**Luckie**

Zitat von BUG:

Mit je zwei "Zeichen" aus diesem Bereich werden die Zeichen kodiert, die sonst nicht in die 16 Bit passen würden (also nicht in der BMP liegen). Ich nehme an, das meinst du?

Nein, aber jetzt verstehe ich auch das Beispiel mit abc und axyc. b liegt nicht in der BMP, deswegen wird es mit x und y als Ersatz kodiert. Und x und y liegen in diesem reservierten Bereich - oder?

**BUG**

Ja.

x wäre dann das High-Surrogate und y das Low-Surrogate.

**Luckie**

Ich habe es jetzt so formuliert:

Zitat:

UTF-16 ist von den drei Unicode Kodierungen die komplizierteste. Bei UTF-16 kann man zwei Bereiche unterscheiden. Der erste Bereich ist der 16-Bit Bereich, in dem die Zeichen direkt kodiert sind. Dieser beinhaltet die am häufigsten genutzen Zeichen. Innerhalb dieses Bereiches gibt es einen zweiten, reservierten Bereich. In diesem reservierten Bereich werden einzelne Zeichen mit mit zwei mal 16-Bit, also zwei Ersatzzeichen definiert. Nehmen wir die Zeichenfolge abc, wobei bei b nicht im direkt kodierten 16-Bit Bereich liegt. Diese Zeichenfolge wird nun mit axyc kodiert, wobei xy zwei Zeichen innerhalb dieses reservierten Bereiches sind.

So, ich habe meinen Unicode Artikel fertiggestellt:

UTF für die Westentasche. Wenn ihr keine Korrekturen mehr habt, dann veröffentliche ich ihn auch hier als Einführungstutorial.

**Assarbad**

Zitat von Luckie:

So, ich habe meinen Unicode Artikel fertiggestellt:

UTF für die Westentasche. Wenn ihr keine Korrekturen mehr habt, dann veröffentliche ich ihn auch hier als Einführungstutorial.

"Wikipeia"? Ganz unten in deinem Artikel

Hyroglyphen schreibt man mit "ie": Hieroglyphen.

"auf acht Bit erweiter" -> "auf acht Bit erweitert"

Der zweite Absatz klingt als sei ASCII erweitert worden, was aber nicht stimmt. ASCII waren und sind exakt 7bit.

Außerdem wäre es lesbarer wenn die Zahlen mit Ziffern geschrieben würden, zumindest bei Computerthemen.

"128 bis 256" -> "128 bis 255"

"Dies Kodierung wurde" -> "Diese Kodierung wurde"

Statt Byte würde ich die Bezeichnung Oktett benutzen, oder eine Definition für Byte geben. Denn ein Byte ist nicht immer 8bit. Und für diese Diskussion ist es relevant.

"Fangt das Byte" -> "Fängt das Byte"

"immer mit einer null" -> "immer mit einer Null"

"einzelne Zeichen mit mit zwei mal" -> "einzelne Zeichen mit zwei mal"

Bei dem zitierten Text solltest du den Permalink (zur aktuellen Version) angeben.

Habe sicher noch was übersehen.

Zitat:

Ursprünglich wurden Zeichen im sogenannten ASCII (American Standard Code for Information Interchange) Format kodiert.

Greift zu kurz, da hier genau das passiert, was schon immer passierte: Konzentration auf den Bedarf des westlichen Kulturkreises unter Ausschluß des nahen oder fernen Ostens, Afrikas usw. Wie westlich orientiert es ist, sieht man an der Tatsache, daß in der "westlichen Codepage" ein einziges Zeichen für Türkisch fehlte, während Isländisch - eine Sprache von damals vielleicht 250.000 Sprechern - voll vertreten ist/war.

Übrigens kann ich nicht zustimmen, daß UTF-16 die komplizierteste Kodierung ist. Worauf stützt du diese Aussage?

Eine sorgfältigere Begriffswahl wäre angesagt:
* "code unit" (1 Oktett, 2 Oktette, 4 Oktette)
* "code point"
* "glyph"
* "grapheme"
* "character"

Alles diese Begriffe stehen bei der Diskussion von Unicode in einer Beziehung, aber wenn man sie korrekt einsetzt und jeder im Bilde ist, kann man Verwirrung leichter vermeiden als wenn man bspw. "character" (Zeichen) für mehrere dieser Begriffe verwendet.

Frohes Fest.

**Luckie**

Danke fürs Lesen, werde ich die Tage überarbeiten.

Versteht hier jemand Unicode?

AW: Versteht hier jemand Unicode?

AW: Versteht hier jemand Unicode?

AW: Versteht hier jemand Unicode?

AW: Versteht hier jemand Unicode?

AW: Versteht hier jemand Unicode?

AW: Versteht hier jemand Unicode?

AW: Versteht hier jemand Unicode?

Forumregeln

BUG Registriert seit: 4. Dez 2003 Ort: Cottbus 2.094 Beiträge	#24 AW: Versteht hier jemand Unicode? 24. Dez 2010, 01:35 Ja. x wäre dann das High-Surrogate und y das Low-Surrogate. Intellekt ist das Verstehen von Wissen. Verstehen ist der wahre Pfad zu Einsicht. Einsicht ist der Schlüssel zu allem.
	Zitat

Luckie Registriert seit: 29. Mai 2002 37.621 Beiträge Delphi 2006 Professional	#27 AW: Versteht hier jemand Unicode? 25. Dez 2010, 00:31 Danke fürs Lesen, werde ich die Tage überarbeiten. Michael Ein Teil meines Codes würde euch verunsichern.
	Zitat