Project Description

Unscharfe Dublettensuche – Datenbereinigung nach Fusion

Dublettenermittlung und Adressdatenoptimierung

Als die Wincare Krankenversicherung mit der Sanitas Versicherung fusionierte sollten gleichzeitig die Systeme auf ein einheitliches neues System umgestellt werden. Die Kundenbestände konnte man nicht einfach in einer neuen Datenbank zusammenschütten, denn es gab viele Kunden, die bei beiden Versicherungen Verträge hatten. Bei Beständen in der Grössenordnung von mehreren 100’000 kann man das auch nicht mehr manuell bereinigen.

Doppelte Datensätze zum Beispiel in Kundenbeständen die zusammengelegt werden können mit Datenbank-Werkzeugen gefunden werden. Doch ähnliche Datensätze sind schwieriger zu finden obwohl sie die gleichen Probleme und Kosten verursachen.

Ähnliche Datensätze sind kein seltenes Fänomen und in der Schweiz häufiger als z.B. in Deutschland. Viele Menschen verwenden auch in der Geschäftskorrespondenz gerne einen Kurznamen, wie sie genannt werden und nicht wie es im Pass steht. Im System werden die Personen so erfasst wie gewünscht. Da gibt ein einen Köbi und einen Jakob einen Adi und einen Dolfi usw.

Bei der unscharfen Dublettensuche werden ähnliche Datensätze

mit Hilfe von Fuzzy Logic gesucht. Das Problem: Andreas Meier, Andi Meier und A. Meier können aber müssen nicht dieselbe Person sein.

Selbst mit den als Datenbank-Addons verfügbaren regulären Ausdrücken kommt man nicht immer weiter. Nach gesundem Menschenverstand kann man davon ausgehen dass es sich bei den folgenden Datensätzen um Dubletten handelt:

  • Andreas Meier, Bahnhofstrasse 34, 12345 Sonswostadt geboren am 23.4.1999
  • Andi Meier, Bahnhofstrasse 34, 12345 Sonswostadt geboren am 23. April 1999

Ein regulärer Ausdruck kann das schnell ermitteln. Etwa so:

An.* Meier, Bahnhofstrasse 34, 12345 Sonswostadt geboren am 23.4.1999

Doch auch hier liegt manchmal die Tücke im Detail. Kennen Sie die beiden Zwillingsbrüder und Fussballer Hamid und Halil Altintop?

Diese wären bei der besagten Bereinigung mit dem regulären Ausdruck Ha.* Altintop … fälschlicherweise als die gleiche Person angesehen worden (zumindest als sie noch gemeinsam wohnten). Und flugs haben die Eltern ein Kind weniger ;-)

Mit Techniken aus der Fuzzy Logic können wirschaflich und wenig rechenintensiv verunreinigte Datenbestände verbessert werden. Für die Konsolidierung mehrerer Datenbestände, bei Migrationen, Fusionen oder zugekauften Daten ist die unscharfe Dublettensuche ein erfolgskritischer Prozess. Je nach aktueller Zielsetzung kann man die Dublettenentfernung schärfer oder weniger scharf kalibrieren. So ist zum Beispiel bei einer Mailingaktion das Entfernen doppelter Einträge sehr wichtig. Doppelte Anschreiben kosten zu viel und vor allem ärgern sie den Empfänger. Falls aber ein kleiner Anteil Datensätze rausfliegt, ist das nicht so tragisch. Bei Mailings sind die Streuverluste ohnehin hoch und einkalkuliert.

Einsatzgebiete: Datenqualitäts- und Marketingoptimierung, Fusionen, Vertrieb