Zunächst solltest du dich mal mit den Grundlagen der Linguistik / Computerlinguistik beschäftigen, so dass du weißt, was zum Beispiel ein Hidden-Markov-Model ist, und wie es funktioniert. Dann musst du lernen die Sprachen bis in die Einzelheiten zu verstehen (Phonetik, Phonologie, Syntax, Semantik, Grammatik, ...).
Hier zwei Bücher zu dem Thema, die ich zu dem Thema im Regal stehen habe:
Computerlinguistik und Sprachtechnologie
-SPEKTRUM AKADEMISCHER VERLAG- 2001
39,95 EUR
http://www.buchkatalog.de/kod-bin/is...t&bereich3=2-2
Hausser, R: Grundlagen der Computerlinguistik
-SPRINGER, BERLIN- 2000
44,95 EUR
http://www.buchkatalog.de/kod-bin/is...t&bereich3=3-3
Das erste ist recht gut verständlich, das zweite weit schwieriger zu lesen. Beide haben aber eins gemeinsam: Sie sind - wie die meiste Fachlitheratur - TEUER. Wenn du dich aber ernsthaft damit beschäftigen willst, wirst du nicht um solche Bücher rumkommen. Das Internet ist zwar auch eine gute Informationsquelle, reicht aber sicher nicht aus.