Vielleicht denken wir komplizierter als es ist:
Angeblich steht in jeder Zeile nur eine dieser Sequenzen. Das Finden hat sich also erledigt (zeilenweise auslesen).
Dann zum Umwandeln:
Jede dieser Sequenzen wird in eine Zahl umgewandelt und als UTF-Character betrachtet.
Diese werden nun nacheinander in einen UTF-16-String geschrieben.
Dieser String kann nun (im Ganzen) mit den üblichen Mitteln konvertiert werden (zB. in UTF-8).
EDIT: @UTF-16:
Mhm, da habe ich wohl die Stellen nicht richtig gezählt
Aber Himitsu hat mit den Surrogates angefangen *schuld-wegschieb*