![]() |
Fuzzy Hash?
Hm, folgendes Problem: Ich möchte die Ähnlichkeit von Dateien herausfinden, um sie als Dubletten zu kennzeichnen. Hab bis jetzt mit SHA-1 gearbeitet, aber der erwischt nur wirklich gleiche Dateien :roll: . Ich möchte so was ähnliches wie
![]() Beispiel, damits deutlicher wird: Wenn in einem MP3 die Tags nicht drin sind, aber die Audio-Information genau die gleiche ist, soll 99% Übereinstimmung als Ergebnis rauskommen. Mein Ansatz: Die am häufigsten vorkommenden n-byte-Gruppen suchen, speichern, und dann mit denen anderer Dateien vergleichen. Wäre aber vermutlich extreeem langsam... Irgendwelche Ideen da draußen? |
Re: Fuzzy Hash?
Zitat:
Das Problem an Audio-Daten ist, dass Unterschiede in der Sample-Rate etc. eine total andere Dateistruktur verursachen. Speziell bei Audio-Daten bietet sich die Analyse einer Fourier-Transformation an. Such mal hier nach ![]() |
Re: Fuzzy Hash?
Ich glaub, ich hab mich beim Beschreiben meines Problems zu sehr auf MP3s festgeschossen. :gruebel: :oops:
Ich möchte damit genausogut ZIP/TXT/GIFs vergleichen können. Aber mittlerweile hat sich das erledigt, denke ich. Ich hab nämlich noch ein bisschen bei Google rumgeschnüffelt und glaub, dass ich für jedes Format (also MP3/WAV->FFT, JPG auch :-D ) ein eigenes Plugin basteln muss. Ideen aber trotzdem immer noch willkommen! :thumb: |
Re: Fuzzy Hash?
Mehr als Bitweise vergleichen und ähnlichkeit berechnen wird dir nicht übrig beliebn. Da würde ich dir aber empfehlen mit Assembler zu arbeiten, oder sehr optimiert mit der Windows API. Da kommt es nämlich auf jede Millisekunde an.
|
Re: Fuzzy Hash?
Hallo,
du könntest blockweise Hash's bilden und die vergleichen. Zum hashen würde ich tiger nehmen, der ist recht flott, geht natürlich auch jeder andere Algo. |
Re: Fuzzy Hash?
Lohnt sich glaube ich nicht. Da muss er schon sehr kleine Blöcke nehmen, und dann geht die komplette Performacne flöten
|
Re: Fuzzy Hash?
Zitat:
|
Alle Zeitangaben in WEZ +1. Es ist jetzt 03:59 Uhr. |
Powered by vBulletin® Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024-2025 by Thomas Breitkreuz