Hmm, offenbar scheint das noch nie jemand in ähnlicher Form gebraucht zu haben?!
Noch ein paar Gedanken dazu:
- Zuerst würde ich das ganze jeweils in Absätze splitten (Zeilenumbruch)
- Und dann die einzelnen Paragraphen in Tokens aufteilen, mittels RegEx [^\s]+