Hm, folgendes Problem: Ich möchte die Ähnlichkeit von Dateien herausfinden, um sie als Dubletten zu kennzeichnen. Hab bis jetzt mit SHA-1 gearbeitet, aber der erwischt nur wirklich gleiche Dateien
. Ich möchte so was ähnliches wie
DoublePics machen, nur ohne Beschränkung auf Filetype.
Beispiel, damits deutlicher wird:
Wenn in einem MP3 die Tags nicht drin sind, aber die Audio-Information genau die gleiche ist, soll 99% Übereinstimmung als Ergebnis rauskommen.
Mein Ansatz: Die am häufigsten vorkommenden n-byte-Gruppen suchen, speichern, und dann mit denen anderer Dateien vergleichen. Wäre aber vermutlich extreeem langsam...
Irgendwelche Ideen da draußen?