UTF-16 verfügt über sogenannte surrogate pairs, mit denen man mehr darstellen kann als 65k:
Zitat von
http://de.wikipedia.org/wiki/UTF-16:
Unicode-Zeichen außerhalb der BMP (d.h. U+10000 bis U+10FFFF), werden durch zwei 16-Bit-Wörter (engl. code units) dargestellt, die wie folgt gebildet werden [...]
edit:
Zitat von
Dezipaitor:
Mich würde es auch interessieren, ob Linux nativ schon UTF-8 darstellen kann.
Ich habe hier eine en-UTF8-locale, also wahrscheinlich ja.
Vermutung wohl bestätigt:
Zitat von
http://www.cl.cam.ac.uk/~mgk25/unicode.html:
UTF-8 is the way in which
Unicode is used under Unix, Linux, and similar systems.