Hallo,
ich habe folgendes problem:
ich verwende momentan noch den
MD5 algorythmus zum überprüfen von dateien auf gleichheit. nun habe ich festgestellt (und gelesen), dass ab einer gewissen dateigröße (bei meinen beispiel dateien ab 1 gb) der hash-wert gleich ist, obwohl sich die dateigröße um mehrere mb unterscheidet.
damit ist dann natürlich nicht mehr verlässlich zu sagen, dass dateien gleich bzw. ungleich sind. ich könnte zwar noch prüfen ob die dateigröße gleich ist um dieses problem zu umgehen, doch halte ich diese lösung nicht für ideal.
nun habe ich statt md5 mal
Tiger verwendet. dieser zeigt mir zwar auch bei dateien dieser größe unterschiedliche hash-werte für (unterschiedliche) dateien an, die bestimmung des hash-wertes dauert allerdings wesentlich länger (bei einem beispiel versuch ca. doppelt so lange).
in meinem beispielversuch habe ich die tiger 192 implementierung der
hashlib verwendet.
zu meinen fragen:
1.) kennt jemand von euch einen anderen, sprich schnelleren hash-algorytmus kennt, der auch dateien (am besten) größer 4 gb einwandfrei identifizieren kann?
am besten wäre eine einzige
unit, da ich nicht ein riesen
package einbinden möchte.
2.) ist eine geschwindigkeitssteuerung technisch überhaupt umöglich?
3.) bis zu welcher dateigröße genau, identifiziert md5 und tiger eine datei eindeutig?
vielen dank für die mühe!