Harte Fakten wären wohl Adressgleichheit und (Tele)Phone Nummer (mit Ungenauigkeit)
Dann Ansprechpartner, ggF. auch Firmenname (sofern aktualisiert nach Zusammenführung, aber wer weiß das schon).
Für den ungenauen Vergleich bieten sich phonetische Algos und sowas wie levenshtein Distnanz an. Ich würde die Vergleiche je Informations Gruppe laufen lassen und Ratings bilden. Dann testen und Schwellwerte für eine "Dublette" definieren.
Ein anderer Ansatz wäre die Nutzung von "normalisierten" Vergleichsfeldern.
Jede Adresse bekommt ein Suchfeld, dass nach einem festen Algorithmus die ersten N Zeichen verschiedener Kennfelder aufnimmt und dabei phonetische -, Steuer-Zeichen und klassische Abkürzungen vereinheitlicht und alles auf Kleinschreibungstellt, u.U. einfach durch weglassen (GmbH, z.Hd., Fr., Frl., Mr. ....)
Hilfreich ist für sowas natürlich eine
DB, die solche Algos / Collations schon implementiert hat, sodass nicht alles im Client durchgenudelt werden muss.