Zitat von
Assarbad:
Zitat von
Florian Bernd:
Das schon aber mir ging es eher darum, zu erkennen, ob eine datei ver oder entschlüsselt vorliegt.
Das wollte ich prüfen, indem ich die verschlüsselte datei in einen stream schreibe und noch einen "kennungs-string" hinzuschreibe.
Du kannst versuchen anhand der
Entropie zu ermitteln, ob die Datei verschlüsselt ist oder nicht. Oder anders ausgedrückt: wenn du eine verschlüsselte Datei packen willst, wird das Ergebnis schlechter sein, als bei einer unverschlüsselten Datei, das liegt an der Entropie.
So kann man also mit einiger Genauigkeit herausfinden, ob die Datei verschlüsselt ist oder nicht. Verschlüsseln und Packen ähneln sich dahingehend nämlich.
Hi Assarbad,
das setzt aber voraus das man weis wie die Entropy der unverschlüsselten Datei aussieht. Liegt die Datei nur verschlüsselt vor, und man weis nicht was da verschlüsselt wurde, so kann man auch nicht über die Entropy erkennen ob die Datei verschlüesselt wurde. Man kann nämlich auch Zufallsdaten verschlüsselt speichern, und im allgemeinen wird die Entropy der Verschüsselten Daten kleiner oder gleich groß der Entropy der unverschlüsselten Daten sein.
Eine gepackte Datei wiederum wird vergleichbar viel Entropie wie eine verschlüsselte Datei erzeugen, denoch sind die gepackten Daten nicht zwangsläufig verschlüsselt.
Ich kenne zZ. kein offizielles Verfahren das das könnte ohne eventuelle Header der Dateien zu analysieren. Also rein auf Basis der binären Daten erkennen kann ob diese verschlüsselt oder unverschlüsselt sind.
Denkt man mal logisch darüber nach so widerspricht das ja auch dem Prinzip der Verschlüsselung. Die beste Verschlüselung ist diejenige der man es nicht ansieht.
Vor einiger Zeit habe ich ähnliches versucht umzusetzen. Da es keine offiziellen Forschungen oder Ergebnisse auf diesem Gebiet gibt beschloß ich einen anderen Weg zu gehen.
Dazu programmierte ich ein Neuronales Netzwerk, katalogisierte alle Dateien auf meiner Festplatte nach deren Typen, d.h. ordente alle Dateien nach deren Inhalten in bestimmte Kategorieren ein.
Nun wurde das Neuronale Netzwerk an Hand dieses Kataloges und der Dateien trainiert. Eine Schwierigkeit dabei war der Fakt das Dateien nunmal unterschiedlich groß sind, das deren Entropie ungleichmäßig in den Daten verteilt ist usw. usw. Um nun alle Dateien untereinander "vergleichbar" zu machen nutzte ich eine Fourier Transformation der Daten der Datei. D.h. über die FFT wurde ein Spektrum der Daten in den Dateien erzeugt. Dieses Spektrum ist unabhänig von der Dateigroße und liefert aber für beliebige Dateien einen gleichgroßen Output. Damit war ein wichtiger Punkt für die Anwendung des Neuronalen Netzwerkes gegeben, der Input pro Datei ist immer gleichgroß und berücksichtigt trotzdem die komplette Datei.
Nungut, das NN hat seine Aufgabe ziemlich gut gelernt. Es kann zwischen den Formaten unterscheiden so lange Formate in den Dateien vorhanden sind !! Das heist, als Härtetest wurde einige Dateien mit bekannten Formaten so manipuliert das deren Header-Informationen entfernt wurden. Die resultierenden Dateien enthielten also nur die reinen Datenanteile. Und schwups konnte das NN nicht mehr zwischen den verschlüsselten, komprimierten oder Zufallsdaten unterscheiden.
Dieses Resultat ist auch das was ich theoretisch erwartet hatte. Bei eine sicheren Verschlüsselung MUSS deren Entropie so angelegt sein das KEINE Rückschlüsse auf deren Inhalt möglich sind. Die wird mathematisch auch von Zufallsdaten oder eben stark komprimierten Daten erreicht. Somit kann man die reinen Daten einer Verschlüsselung, einer Komprimierung oder eines Zufallsstromes NICHT voneinander unterscheiden.
Mein Experiment mit dem Neuronalen Netzwerk funktinierte anfänglich nur deshalb weil in allen Dateien auch immer Header enthalten sind, sprich Informationen WAS die Datei WIE enthält. Das NN hat sich auf die Erkennung dieser Unterschiede spezialisiert. Dazu wurde dem NN neben dem FFT-Spektrum auch die erstene 256 Bytes der Datei als Transingsparameter übergeben.
Entfernte man diese 256 Bytes so war das NN niemlas in der Lage zwischen bestimmten Dateitypen zu unterscheiden. Eben zwischen komprimierten, verschlüsselten und Zufallsdaten.
Oder aber bei Textuellen Verschlüsselungen wie PEM oder MIME64. Diese Dateien erkannte das abgespeckte NN als normale Textdateien obwohl sie eben verschlüsselte Dateien waren deren binärer Inhalt nach Text transformiert wurde. Erst die erweiteret Version des NN's das die ersten 256 Bytes der Datei einbezog konnte die Uterschiede rausfiltern.
Gruß Hagen