HTML parsen

Ich habe HTML-Texte mit ein bischen XML-Extras (Mobipocket Files fuer meinen Palm).

XML-Code:

			<HTML><HEAD><metadata>

<dc-metadata xmlns:dc="http://purl.org/metadata/dublin_core" xmlns:oebpackage="http://openebook.org/namespaces/oeb-package/1.0/">

<dc:Identifier id="uid">1khead</dc:Identifier>

<dc:Title>THE THOUSAND-HEADED MAN</dc:Title>

<dc:Author>A Doc Savage Adventure by Kenneth Robeson</dc:Author>

<dc:Creator>David Moynihan</dc:Creator>

<dc:Date>10/6/2001</dc:Date>

<dc:Copyrights>None</dc:Copyrights>

<dc:Publisher>Blackmask Online</dc:Publisher>

<dc:Subject></dc:Subject>

</dc-metadata>

</metadata>

<GUIDE>

<REFERENCE TYPE="toc" TITLE="Table Of Contents" HREF="1kheadcon.htm"  filepos="0000000783">

</GUIDE>

<METADATA HREF="xyz_metadata.htm"  filepos="0000379119"><hr></HEAD><BODY>

<DIV align=center>[img]BMP[/img] </DIV><hr><!"1KHEAD!>

</P>

THE THOUSAND-HEADED MAN</H4>

<A HREF="1khead.htm#1_0_2"  filepos="0000005174">Chapter 1. CELEBRITY

Der Rest ist einfaches HTML.
Ich will das Zeug parsen und die Extras entfernen und einfuegen koennen. Ich bin recht sicher das weder das XML noch das HTML valide sind.
Entsprechend moechte ich zumindest das HTML von den groebsten Fehlern befreien koennen. Namentlich verschraenkte oder ungepaarte Tags.

Was ich also brauche ist ein freier (vorzugsweise MPL aber nicht GPL) Parser dafuer.
Ich bitte um Empfehlungen.

Wenn ich das hinkriege, dann kann ich eBooks fuer Mobipocket generieren.

Probier den mal:

http://www.devincook.com/goldparser/

Ist aber denke ich nicht OpenSource. Aber hier kommt es ja aufs Resultat an.

**marabu**

Und nicht

DIHtmlParser vergessen...

Grüße vom marabu

DIHtmlParser ist nicht Open Source und nicht kostenlos. Ausserdem habe ich ihn ausprobiert und bin nicht sicher ob er die XML Tags packt.
GoldParser sieht vielversprechend aus und ist nicht nur Open Source sondern auch noch Freeware.

**Chewie**

Vielleicht könntest du mal

HTMLTidy drüberlaufen lassen?
Ich weiß aber nicht, was der mit deinem XML anstellt.

Schade, GOLD geht auf Programmiersprachen und hat kein HTML dabei.

Was willste denn alles entfernen? Vielleicht kann ich dir ein kurzes Perlscript schreiben, würde doch auch reichen, oder?

Ich wuerde es gerne flexibel halten.
Ich moechte die Tags und Attribute (namentlich das filepos-Attribut) strippen koennen und auch sonst einige Teile.
Es geht darum die Besonderheiten fuer Mobipocket extrahieren zu koennen und auch (wieder) einzupflanzen.
Ich denke ich mache es selbst und schreibe mir einen einfachen Parser.

Zitat von Robert Marquardt:

Ich denke ich mache es selbst und schreibe mir einen einfachen Parser.

Also ich persönlich kann dir nur zu PCRE raten ... war da nicht auch etwas in der JCL enthalten?

HTML parsen

HTML parsen

Re: HTML parsen

Re: HTML parsen

Re: HTML parsen

Re: HTML parsen

Re: HTML parsen

Re: HTML parsen

Re: HTML parsen

Re: HTML parsen

Forumregeln

Olli (Gast) n/a Beiträge	#2 Re: HTML parsen 28. Jul 2005, 14:47 Probier den mal: http://www.devincook.com/goldparser/ Ist aber denke ich nicht OpenSource. Aber hier kommt es ja aufs Resultat an.
	Zitat

marabu Registriert seit: 6. Apr 2005 10.109 Beiträge	#3 Re: HTML parsen 28. Jul 2005, 15:03 Und nicht DIHtmlParser vergessen... Grüße vom marabu
	Zitat

Robert Marquardt (Gast) n/a Beiträge	#4 Re: HTML parsen 28. Jul 2005, 16:27 DIHtmlParser ist nicht Open Source und nicht kostenlos. Ausserdem habe ich ihn ausprobiert und bin nicht sicher ob er die XML Tags packt. GoldParser sieht vielversprechend aus und ist nicht nur Open Source sondern auch noch Freeware.
	Zitat

Chewie Registriert seit: 10. Jun 2002 Ort: Deidesheim 2.886 Beiträge Turbo Delphi für Win32	#5 Re: HTML parsen 28. Jul 2005, 17:16 Vielleicht könntest du mal HTMLTidy drüberlaufen lassen? Ich weiß aber nicht, was der mit deinem XML anstellt. Martin Leim Egal wie dumm man selbst ist, es gibt immer andere, die noch dümmer sind
	Zitat

Robert Marquardt (Gast) n/a Beiträge	#6 Re: HTML parsen 29. Jul 2005, 07:38 Schade, GOLD geht auf Programmiersprachen und hat kein HTML dabei.
	Zitat

Olli (Gast) n/a Beiträge	#7 Re: HTML parsen 29. Jul 2005, 10:08 Was willste denn alles entfernen? Vielleicht kann ich dir ein kurzes Perlscript schreiben, würde doch auch reichen, oder?
	Zitat

Robert Marquardt (Gast) n/a Beiträge	#8 Re: HTML parsen 29. Jul 2005, 11:49 Ich wuerde es gerne flexibel halten. Ich moechte die Tags und Attribute (namentlich das filepos-Attribut) strippen koennen und auch sonst einige Teile. Es geht darum die Besonderheiten fuer Mobipocket extrahieren zu koennen und auch (wieder) einzupflanzen. Ich denke ich mache es selbst und schreibe mir einen einfachen Parser.
	Zitat

Olli (Gast) n/a Beiträge	#9 Re: HTML parsen 29. Jul 2005, 11:57 Zitat von Robert Marquardt: Ich denke ich mache es selbst und schreibe mir einen einfachen Parser. Also ich persönlich kann dir nur zu PCRE raten ... war da nicht auch etwas in der JCL enthalten?
	Zitat