Du könntest die Überprüfung noch etwas verfeinern, in dem du auf eine gültige
UTF-8 Kodierung prüfst:
- Ist das höchste Bit 0, ist es ein ASCII-Zeichen (entspricht deinem Test)
- Sind die höchsten drei Bit eine 110, dann kommt als nächstes ein Folgebyte
- Sind die höchsten vier Bit eine 1110, dann kommen als nächstes zwei Folgebyte
- Sind die höchsten fünf Bit eine 11110, dann kommen als nächstes drei Folgebyte
- Ein Folgebyte hat als höchste zwei Bit eine 10