Ich habe letztens die HTMLTidy-
DLL in ein Programm eingebunden. Diese parst
HTML zu einem Baum den man dann traversieren kann.
Zwar ist die Zielrichtung von HTMLTidy (SourceForge Projekt) die Korrektur fehlerhaften HTMLs, aber man kann auch aus dem Baum den Text ausserhalb der Tags ziehen.
Der Vorteil eines solchermassen geparsten
HTML-Dokuments ist das man sich auf Teile beschraenken kann wie "innerhalb von Tabellen" usw.