Viele Unternehmen kämpfen mit Dubletten in ihren Datenbanken für Kunden und Interessenten.
Im Unternehmensalltag sind Dubletten aktuell zwar unangenehm, aber nicht systemkritisch. Sie verhindern eine 360 Grad-Sicht auf den Kunden, erzeugen vermeidbare doppelte Produktionskosten und sorgen auch für Stirnrunzeln bis Verärgerung beim Empfänger.
Mit der Gültigkeit der Datenschutz-Grundverordnung kommen jedoch noch weitere Elemente hinzu. Wenn beispielsweise bei einer Anfrage auf Auskunft nicht alle Daten geliefert werden können, weil sich manches in Dubletten findet, die man bei der Auskunft nicht berücksichtigt hat, so birgt das Gefahrenpotential.
Noch kritischer wird es, wenn eine Person die Löschung beantragt oder von einer ihrer Widerspruchsrechte Gebrauch macht. In vielen Fällen wird das dann eben nicht für alle Dublettendatensätze durchgeführt. Das führt dazu, dass einzelne Datensätze die Löschung „überleben“ und weiterhin verwendet werden. Die betroffene Person, die vorher die Löschung verlangt hat, kann sich daraufhin völlig legitim bei der Aufsichtsbehörde beschweren und damit eine Folge von unangenehmen Fragen auslösen.
Die Erkennung und Vermeidung von Dubletten muss daher in der Stammdaten-Strategie eines Unternehmens eine hohe Priorität haben. Die Dublettenerkennungsmechanismen der meisten Systeme sind jedoch nur auf eine genaue Übereinstimmung der Daten ausgerichtet. Wenn bei einem Datensatz als Adresse die „Schillerstr. 12“ und beim anderen die „Friedrich-Schiller-Straße 12“ eingetragen ist, so wird das von den meisten Systemen nicht als Dublette erkannt. Wenn jedoch vorher eine Standardisierung von Schreibweisen (in diesem Fall über eine Adressprüfung und -korrektur; beispielsweise über die Funktionen von data.mill GmbH) stattgefunden hat, so ist die Wahrscheinlichkeit viel größer, Dubletten zu entdecken.
Noch schwieriger wird es bei der Erkennung von Dubletten in B2B-Datenbanken, denn es gibt ein gefühltes Dutzend von möglichen Schreibweisen für Firmennamen, wenn man sich die Mühe der Recherche des „offiziellen“ Namens nicht macht („XY Handels GmbH“, „XY Handelsgesellschaft m.b.H.“, „XY G.m.b.H.“, …). Auch hier hilft eine Standardisierung der Schreibweise. Darüber hinaus kann jedes Unternehmen weltweit durch eine ID identifiziert werden, die auch nach einer Umbenennung, Sitzverlegung oder Fusion mit einer anderen Firma erhalten bleibt. Die am weitesten verbreitete ID ist die D-U-N-S-Nummer von Bisnode, die sich ebenfalls über geeignete Systeme automatisiert abfragen und mit weiteren Informationen (z. B. Unternehmensgröße, Branche, …) anreichern lässt. So erhalten Unternehmen mit unterschiedlichen Firmennamen in der Datenbank die gleiche D-U-N-S-Nummer und werden auch von starr agierenden Systemen als Dublette erkannt.
Die Erkennung einer Dublette ist leider nur die halbe Miete. In einem nächsten Schritt muss nämlich auch entschieden werden, welcher der Datensätze „überleben“ soll (Master Record). Das bedeutet, dass die Daten der anderen Datensätze mit dem Master Record fusioniert werden müssen. Je nach Komplexität einer Firmenorganisation kann das einen ziemlich aufwändigen Prozess nach sich ziehen.
Um sich vor den negativen Auswirkungen von Dubletten zu schützen sind also sowohl Mechanismen für die Dublettenerkennung als auch Prozesse für das Zusammenfügen der gefundenen Dubletten notwendig. Eine Detailanalyse der Datenstruktur durch das betreuende Systemhaus bzw. das CRM-Team ist dafür eine wichtige Voraussetzung. Die Dublettenerkennung arbeitet viel besser, wenn zusätzlich noch Maßnahmen zur Standardisierung von Schreibweisen, somit zur Erhöhung der Datenqualität implementiert wurden.
Mehr Informationen zum Thema DSGVO finden Sie hier.
Arbeitet seit mehr als 25 Jahren im IT-Bereich, davon die meiste Zeit im Bereich von Datenverarbeitungslösungen für Rechtsberufe, Direkt-Marketing und CRM und beschäftigt sich seit vielen Jahren mit allen Aspekten des Datenschutzes. Er ist Co-Founder der data.mill GmbH aus Salzburg, die unter anderem Kunden wie die BMW Group, RICOH, Physiotherm oder Atomic berät und betreut.