Ich habe
HTML-Texte mit ein bischen
XML-Extras (Mobipocket Files fuer meinen Palm).
XML-Code:
<
HTML><HEAD><metadata>
<
dc-metadata
xmlns:
dc="http://purl.org/metadata/dublin_core"
xmlns:oebpackage="http://openebook.org/namespaces/oeb-
package/1.0/">
<
dc:Identifier id="uid">1khead</
dc:Identifier>
<
dc:Title>THE THOUSAND-HEADED MAN</
dc:Title>
<
dc:Author>A Doc Savage Adventure by Kenneth Robeson</
dc:Author>
<
dc:Creator>David Moynihan</
dc:Creator>
<
dc:Date>10/6/2001</
dc:Date>
<
dc:Copyrights>None</
dc:Copyrights>
<
dc:Publisher>Blackmask Online</
dc:Publisher>
<
dc:Subject></
dc:Subject>
</
dc-metadata>
</metadata>
<GUIDE>
<REFERENCE TYPE="toc" TITLE="Table Of Contents" HREF="1kheadcon.htm" filepos="0000000783">
</GUIDE>
<METADATA HREF="xyz_metadata.htm" filepos="0000379119"><hr></HEAD><BODY>
<DIV align=center>[img]BMP[/img] </DIV><hr><!"1KHEAD!>
</P>
THE THOUSAND-HEADED MAN</H4>
<A HREF="1khead.htm
#1_0_2" filepos="0000005174">Chapter 1. CELEBRITY
Der Rest ist einfaches
HTML.
Ich will das Zeug parsen und die Extras entfernen und einfuegen koennen. Ich bin recht sicher das weder das
XML noch das
HTML valide sind.
Entsprechend moechte ich zumindest das
HTML von den groebsten Fehlern befreien koennen. Namentlich verschraenkte oder ungepaarte Tags.
Was ich also brauche ist ein freier (vorzugsweise
MPL aber nicht
GPL) Parser dafuer.
Ich bitte um Empfehlungen.
Wenn ich das hinkriege, dann kann ich eBooks fuer Mobipocket generieren.