Einzelnen Beitrag anzeigen

Benutzerbild von dahead
dahead

Registriert seit: 16. Mai 2005
620 Beiträge
 
#1

Eindeutiger Vergleich für große Dateien gesucht

  Alt 2. Aug 2005, 14:57
Hallo,

ich habe folgendes problem:

ich verwende momentan noch den MD5 algorythmus zum überprüfen von dateien auf gleichheit. nun habe ich festgestellt (und gelesen), dass ab einer gewissen dateigröße (bei meinen beispiel dateien ab 1 gb) der hash-wert gleich ist, obwohl sich die dateigröße um mehrere mb unterscheidet.

damit ist dann natürlich nicht mehr verlässlich zu sagen, dass dateien gleich bzw. ungleich sind. ich könnte zwar noch prüfen ob die dateigröße gleich ist um dieses problem zu umgehen, doch halte ich diese lösung nicht für ideal.

nun habe ich statt md5 mal Tiger verwendet. dieser zeigt mir zwar auch bei dateien dieser größe unterschiedliche hash-werte für (unterschiedliche) dateien an, die bestimmung des hash-wertes dauert allerdings wesentlich länger (bei einem beispiel versuch ca. doppelt so lange).

in meinem beispielversuch habe ich die tiger 192 implementierung der hashlib verwendet.

zu meinen fragen:

1.) kennt jemand von euch einen anderen, sprich schnelleren hash-algorytmus kennt, der auch dateien (am besten) größer 4 gb einwandfrei identifizieren kann?
am besten wäre eine einzige unit, da ich nicht ein riesen package einbinden möchte.

2.) ist eine geschwindigkeitssteuerung technisch überhaupt umöglich?

3.) bis zu welcher dateigröße genau, identifiziert md5 und tiger eine datei eindeutig?

vielen dank für die mühe!
  Mit Zitat antworten Zitat