Wenn nicht beide Quellen für die jeweiligen Daten eine
API bieten, die eine Art OnChange-Event liefern, bleibt dir ja eigentlich nur noch regelmäßiges Erstellen einer Liste beider Datenbestände. Zu jedem Datensatz müsste dann noch mit gespeichert werden, ob der Satz in dem einen, dem andere oder in beiden Beständen vorkommt, und für jeden der beiden Bestände je noch einen Timestamp der letzten Änderung, die du festgestellt hast.
Dann musst du im Grunde "nur" noch daher gehen, und in beiden Beständen die jeweils fehlenden und/oder älteren Daten mit denen des jeweils anderen ergänzen/überschreiben, so dass deine Vergleichsliste nachher sagen würde: "Alle Sätze sind in beiden Beständen mit selbem Timestamp vorhanden". Optimierbar wäre das fast nur noch über eine Funktion von Windows, die dir ein Ereignis gibt, wann eine Datei geändert wurde. Ob es die gibt und wie die heisst weiss ich nicht, aber du musst auch dann für einen Abgleich sicherlich alle Daten anfassen. Und vor allem deine Vergleichsliste am besten auch persistent vorhalten.
Idealzustand wäre natürlich den Bedarf für einen der Bestände zu eliminieren, aber wie realistisch das in der Praxis ist musst du selbst einschätzen. Zumindest nach aktuellen Informationsstand hier
"When one person suffers from a delusion, it is called insanity. When a million people suffer from a delusion, it is called religion." (Richard Dawkins)