Für
Unicode gibt es die Datei
UnicodeData.txt, in der die benötigten Informationen enthalten sind. Das ist mehr oder weniger eine
CSV-Datei mit Semikolon als Feldtrenner. Im ersten Feld steht die Nummer des
Unicode-Zeichens, im zweiten sein offizieller Name und im sechsten eine Liste der
Unicode-Zeichen, in die es zerlegt werden kann. Das erste dieser Zeichen sollte dabei immer ein "normaler" Buchstabe sein. [edit]Ich habe gerade gesehen, dass am Anfang dieses Felds noch eine Angabe in spitzen Klammern stehen kann. Diese kannst Du ignorieren.[/edit]
Es gilt aber, ein paar Fallstricke zu beachten. Zum einen ist nicht jedes Zeichen in einen Basisbuchstaben und ein oder mehrere Diakritika zerlegbar (z.B. das skandinavische Ø oder das polnische Ł), zum anderen haben natürlich nicht-lateinische, akzentuierte Buchstaben einen nicht-lateinischen Basisbuchstaben (z.B. kyrillisch oder griechisch).
jkr