... dass manche Seiten in verschiedenen PDF-Dokumenten zugleich / parallel (!) vorhanden sind
Da ich die Daten zu Forschungszwecken benötige, muss ich doppelte Seiten ausschließen.
... fehlerträchtiger Duplikat-Suche auf Basis von TXT-Äquivalenten ...
Hier wäre zu definieren wann eine Seite gleich ist und als Duplikat gekennzeichnet werden muss und wann sie nur ähnlich ist.
Oder wäre sogar eine genauere Unterscheidung nötig wie sie z.B. bei
http://de.vroniplag.wikia.com/wiki/Home gemacht wurde?
Müssen auch Bilder untersucht werden oder reicht der Text?
Windows Vista - Eine neue Erfahrung in Fehlern.