Einzelnen Beitrag anzeigen

marky522

Registriert seit: 30. Okt 2006
29 Beiträge
 
Delphi XE2 Professional
 
#4

AW: Text aus Word.DOC extrahieren (MS-Word 97-2003-Binär-Format:)

  Alt 6. Jan 2014, 10:17
Hallo,

meines Wissens nach werden beim doc-Format verschiedene Dateien (Datenströme) in einer Datei im Microsodt Compound File Format gespeichert - das ist zumindes bei xls-Dateien so.

Zunächst müssen die einzelnen Dateien (Datenströme) aus der Gesamtdatei extrahiert werden. Dazu habe ich ein Programm geschrieben, welches das kann.
Dann müssen die einzelnen Datenströme analysiert werden.

Infos zum Compound File Format erhält man im Internet, einfach mal nach dem Dokument "OpenOffice.org's Documentation of the
Microsoft Compound Document
File Format" suchen.


Ich hänge das Programm mal unten an.

MfG

Markus

PS: Das Programm war ursprünglich für was anderes gedacht, also bitte nicht an den Eingabemöglichkeiten stören, sondern einfach nur den Knopf "Datei öffnen" betätigen, dann wird die Datei zerlegt und es werden im Quellverzeichnis die einzelnen Datenströme mit .bin gespeichert.
Angehängte Dateien
Dateityp: zip Project1.zip (840,8 KB, 14x aufgerufen)
  Mit Zitat antworten Zitat