![]() |
HTML parsen
Ich habe HTML-Texte mit ein bischen XML-Extras (Mobipocket Files fuer meinen Palm).
XML-Code:
Der Rest ist einfaches HTML.
<HTML><HEAD><metadata>
<dc-metadata xmlns:dc="http://purl.org/metadata/dublin_core" xmlns:oebpackage="http://openebook.org/namespaces/oeb-package/1.0/"> <dc:Identifier id="uid">1khead</dc:Identifier> <dc:Title>THE THOUSAND-HEADED MAN</dc:Title> <dc:Author>A Doc Savage Adventure by Kenneth Robeson</dc:Author> <dc:Creator>David Moynihan</dc:Creator> <dc:Date>10/6/2001</dc:Date> <dc:Copyrights>None</dc:Copyrights> <dc:Publisher>Blackmask Online</dc:Publisher> <dc:Subject></dc:Subject> </dc-metadata> </metadata> <GUIDE> <REFERENCE TYPE="toc" TITLE="Table Of Contents" HREF="1kheadcon.htm" filepos="0000000783"> </GUIDE> <METADATA HREF="xyz_metadata.htm" filepos="0000379119"><hr></HEAD><BODY> <DIV align=center>[img]BMP[/img] </DIV><hr><!"1KHEAD!> </P> THE THOUSAND-HEADED MAN</H4> <A HREF="1khead.htm#1_0_2" filepos="0000005174">Chapter 1. CELEBRITY Ich will das Zeug parsen und die Extras entfernen und einfuegen koennen. Ich bin recht sicher das weder das XML noch das HTML valide sind. Entsprechend moechte ich zumindest das HTML von den groebsten Fehlern befreien koennen. Namentlich verschraenkte oder ungepaarte Tags. Was ich also brauche ist ein freier (vorzugsweise MPL aber nicht GPL) Parser dafuer. Ich bitte um Empfehlungen. Wenn ich das hinkriege, dann kann ich eBooks fuer Mobipocket generieren. |
Re: HTML parsen
Probier den mal:
![]() Ist aber denke ich nicht OpenSource. Aber hier kommt es ja aufs Resultat an. |
Re: HTML parsen
|
Re: HTML parsen
DIHtmlParser ist nicht Open Source und nicht kostenlos. Ausserdem habe ich ihn ausprobiert und bin nicht sicher ob er die XML Tags packt.
GoldParser sieht vielversprechend aus und ist nicht nur Open Source sondern auch noch Freeware. |
Re: HTML parsen
Vielleicht könntest du mal
![]() Ich weiß aber nicht, was der mit deinem XML anstellt. |
Re: HTML parsen
Schade, GOLD geht auf Programmiersprachen und hat kein HTML dabei.
|
Re: HTML parsen
Was willste denn alles entfernen? Vielleicht kann ich dir ein kurzes Perlscript schreiben, würde doch auch reichen, oder?
|
Re: HTML parsen
Ich wuerde es gerne flexibel halten.
Ich moechte die Tags und Attribute (namentlich das filepos-Attribut) strippen koennen und auch sonst einige Teile. Es geht darum die Besonderheiten fuer Mobipocket extrahieren zu koennen und auch (wieder) einzupflanzen. Ich denke ich mache es selbst und schreibe mir einen einfachen Parser. |
Re: HTML parsen
Zitat:
|
Alle Zeitangaben in WEZ +1. Es ist jetzt 23:49 Uhr. |
Powered by vBulletin® Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024-2025 by Thomas Breitkreuz