Einzelnen Beitrag anzeigen

Dejan Vu
(Gast)

n/a Beiträge
 
#8

AW: PDF-Doks auf doppelte Seiten vergleichen

  Alt 13. Jun 2015, 11:34
Blöd ist, wenn die eine Seite um einen Pixel versetzt gerendert wird und einige Graustufen doch anders sind.

D.h. sind die Seiten auch nach dem Rendern identisch, also 1:1 pixelgenau? Ansonsten würde ich die Bitmaps auf Ähnlichkeit hin vergleichen. Alternativ wäre aber es aber auch möglich, die PDF in reinen Text zu überführen und dann mit Diff-Tools 'große Gemeinsamkeiten' herauszufinden. Z.B. über Wortlisten je Seite. Dann kann man einen Ähnlichkeitsindex der Seiten erstellen.

Ähnlichkeitsindex (Seite1,Seite2) = Anzahl identischer Wörter (Seite1, Seite2) / Max (AnzahlWörter(Seite1)AnzahlWörter(Seite2))

Alles > 0.8 ist suspekt.
  Mit Zitat antworten Zitat