![]() |
Re: Dateityp ermitteln
Liste der Anhänge anzeigen (Anzahl: 1)
Zitat:
In das von mir vorgestellte Verfahren kannst du es doch auch integrieren: Erstelle eine Zeichenmenge, welche die Zeichen enthält, bei denen die visuelle Darstellung im Memo, RichEdit oder was auch immer abgebrochen wird. Wenn diese Zeichen eine gewisse Häufigkeit haben, kannst du davon ausgehen, das es eine Datei mit Binärdaten ist. Zitat:
Zitat:
Im Anhang habe ich mein Verfahren einmal implementiert.
Gruß, Panthrax. |
Re: Dateityp ermitteln
wow! viele lösungsansätze! danke danke danke!
ich persönlich werde mich da jetzt ein bischen hineinvertiefen, wie gesagt, das ist mir alles ein bischen fremd, aber ihr habt mich ja gut geleitet :), bzw. ja schon fertige lösungsansätze geliefert. danke! greetz sexy_betty |
Re: Dateityp ermitteln
Frage:
betrachtest du WinWord DOC Dateien als Text Dateien ? Die meisten Anwender würden sagen JA, auch zu PDF oder Write Dateien. Ein Analyseprogram das aber mit ASCII Überprüfung arbeitet würde sie als Binärdateien identifizieren (da hilft auch kein Linux, denn das kann es nämlich auch nicht automatisch). Oder eine EMail, oder HTML Dateien mit Steuerzeichen, oder im gegenteiligen eines als Text formatierte binäre Nachricht zb. in MIME Base64 codiert. Dh. selbst mit den verrücktestet Codierungen die zb. nur ASCII Zeichen benutzen und sogar regelmäßige Satzzeichen verwenden wie Leerzeichen um Wörter zu simulieren, ist es möglich das sie denoch keinen Text enthalten sondern defakto umcodierte binäre Daten. Ich selber hatte spaßenshalber ein kleineres Projekt umgesetzt das als Vorstufe eines selbstlerndenen SPAM Filter bei der G..gle Suche helfen sollte. Der Ansatz dabei war eine viel höher-mathematische Auswertung zu machen, also von der Komplexität weitaus höher als einfache Zeichenüberprüfungsverfahren. Dabei wurde die Datei erstmal per FFT = Fouriertransformation in ein kontinulieriches 2D Spektrum umgewandelt und diese vektorisierten Daten in ein vorher trainiertes Neuronales Netz eingespeist. Das NN war zweistufug aufgebaut. Erstmal ein Netz das allgmein nach Binär oder Text klassifizierte und dann verschiedene Netze die spezielle Formate identifizieren sollten. Es hat gut funktioniert aber bei weitem nicht so gut das es wirklich sehenswert aus Sicht des Aufwandes zum Nutzens war. Aber die Essenz ist folgende: wenn eine anerkannte Filtertechnologie (FFT) + annerkannte selbstlernende Verfahren (NNs) nicht in der Lage sind zufriedenstellende Muster zu erkennen so wird das auch niemals ein simpler Zeichenvergleich sinnvoll bewerkstelligern können. Das ist keine Arroganz oder sonstwas sondern einfache Logik. Das Problem ist eben das die Definition was wir als Text verstehen ein Prozess ist der eine Wissensdatenbank benötigt. Reine Syntax im Text reicht eben noch nicht aus um eine Text zu identifizieren. Erst wenn wir bekannt Wörter wiedererkennen (Sprache also) könnte es Text sein. Mein Ansatz mit FFT + NNs musste demzufolge unzufriedenstellend sein da die Wissensdatenbank die ein NN als Muster erlernen könnte viel zu gewaltig ist, bzw. die NNs viel zu groß wurden. Was also geht ist das man bei bekannten Dateiformaten mit bekannten festen Headern nach diesen Identifiers sucht. Zb. bei ausführbaren Modulen also nach "MZ" bzw. genauergsagt nach einem gültigen PE Header. Das haben auch meine NNs gelernt. Aber wenn es darum geht zb. Dateien ohne Header zu unterscheiden wird es enorm schwierig. Zb. einen Unterschied zwischen Verschlüsselten Dateien und ZIP Dateien ist fast unmöglich. Meine NNs haben dann auch wie erwartet reagiert, bei Dateien die fast zufälig erscheinende Daten enthielten konnten sie keine aussagekräftige Entscheidung fällen. Das trifft auch auf Text formartierte Dateien zu, eben zb. auf HTLMs im Vergleich zu C Code oder XML. Aber gerade das war meine "Zielgruppe". Gruß Hagen |
Alle Zeitangaben in WEZ +1. Es ist jetzt 21:57 Uhr. |
Powered by vBulletin® Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024-2025 by Thomas Breitkreuz