Dubletten erkennen: 7 Methoden fuer saubere Adressdaten

Jede Adressdatenbank hat Dubletten. Das ist keine Vermutung, sondern eine Erfahrung, die sich in Unternehmen jeder Groesse bestaetigt. Studien des Deutschen Dialogmarketing Verbands gehen davon aus, dass durchschnittlich 8 bis 15 Prozent aller Adressdatensaetze in Unternehmen Duplikate enthalten. Bei Datenbanken, die aus mehreren Quellen zusammengefuehrt wurden, liegt der Anteil oft noch hoeher.
Das Problem ist nicht die Existenz von Dubletten – die lassen sich kaum verhindern, wenn Daten ueber Jahre aus verschiedenen Kanaelen einfliessen. Das Problem ist, wenn sie unerkannt bleiben. Jede unentdeckte Dublette bedeutet doppelte Post, verfaelschte Auswertungen und im schlimmsten Fall einen veraerrten Kunden, der denselben Brief zweimal erhaelt.
Dieser Artikel stellt sieben Methoden vor, mit denen Sie Dubletten in Ihren Adressdaten zuverlaessig erkennen – von einfachen Bordmitteln bis hin zu professionellen Verfahren.
1. Exakte Uebereinstimmung – der einfachste Ansatz
Die naheliegendste Methode: Zwei Datensaetze werden Zeichen fuer Zeichen verglichen. Stimmen alle Felder ueberein, handelt es sich um eine Dublette.
Eintrag A: Max Müller | Hauptstraße 12 | 70001 Stuttgart
Eintrag B: Max Müller | Hauptstraße 12 | 70001 Stuttgart
→ Exakte Übereinstimmung: Dublette erkannt
Vorteil: Schnell, einfach zu implementieren, keine Fehlalarme.
Nachteil: Erkennt nur identische Eintraege. Schon ein zusaetzliches Leerzeichen oder eine andere Schreibweise genuegt, damit die Dublette durchrutscht. In der Praxis findet diese Methode nur etwa 10 bis 20 Prozent aller tatsaechlichen Duplikate.
Fuer einen ersten Schnellcheck taugt der exakte Vergleich, als alleinige Methode ist er unzureichend.
2. Schluesselfeld-Vergleich
Statt alle Felder zu vergleichen, konzentriert sich diese Methode auf ausgewaehlte Schluesselfelder. Typische Kombinationen:
| Schluesselkombination | Erkennungsrate | Fehlalarm-Risiko |
|---|---|---|
| Nachname + PLZ | Mittel | Hoch (haeufige Namen) |
| Nachname + Strasse + Hausnummer | Hoch | Niedrig |
| Nachname + Vorname + PLZ | Hoch | Niedrig |
| Nachname + Geburtsdatum | Sehr hoch | Sehr niedrig |
Der Schluesselfeld-Vergleich ist ein pragmatischer Mittelweg. Er laesst sich in Excel mit Hilfsspalten umsetzen, indem Sie die Schluesselfelder per Formel verketten und dann auf Duplikate pruefen. Eine Schritt-fuer-Schritt-Anleitung dazu finden Sie in unserem Artikel Excel Duplikate bei Adressen entfernen.
=WENN(ZÄHLENWENN(F:F;F2)>1;"Mögliche Dublette";"")
mit F2 = Nachname & PLZ (verkettet)
Einschraenkung: Schreibvarianten wie "Müller" und "Mueller" werden nicht erkannt. Ausserdem muessen Sie im Vorfeld entscheiden, welche Felder relevant sind – und diese Entscheidung beeinflusst das Ergebnis erheblich.
3. Phonetische Vergleichsverfahren
Phonetische Algorithmen loesen ein haeufiges Problem: Namen klingen gleich, werden aber unterschiedlich geschrieben. Die bekanntesten Verfahren:
Soundex: Der Klassiker aus den USA. Wandelt Namen in einen Code um, der aehnlich klingende Namen gleichsetzt. "Meyer", "Meier" und "Maier" erhalten denselben Code.
Koelner Phonetik: Die deutsche Variante von Soundex. Beruecksichtigt deutsche Lautregeln und ist fuer deutschsprachige Namen deutlich treffsicherer. "Müller" und "Mueller" werden korrekt als identisch erkannt.
Metaphone / Double Metaphone: Weiterentwicklungen von Soundex mit besserer Genauigkeit, besonders bei internationalen Namen.
Koelner Phonetik Beispiel:
"Müller" → Code: 657
"Mueller" → Code: 657
"Miller" → Code: 657
"Mühler" → Code: 657
→ Alle vier werden als potenzielle Dubletten erkannt
Phonetische Verfahren eignen sich hervorragend als Ergaenzung zum Schluesselfeld-Vergleich. Sie erhoehen die Erkennungsrate bei Namensvarianten erheblich, produzieren aber bei sehr kurzen oder ungewoehnlichen Namen gelegentlich Fehlalarme.
4. Fuzzy Matching – die unscharfe Suche
Fuzzy Matching berechnet den Aehnlichkeitsgrad zwischen zwei Zeichenketten. Statt "gleich oder nicht gleich" liefert es einen Prozentwert: Wie aehnlich sind sich zwei Eintraege?
Die gaengigsten Algorithmen:
Levenshtein-Distanz: Zaehlt die minimale Anzahl von Aenderungen (Einfuegen, Loeschen, Ersetzen), um einen String in einen anderen umzuwandeln. "Müller" zu "Mueller" braucht zwei Aenderungen (ue statt ue) – also hohe Aehnlichkeit.
Jaro-Winkler-Aehnlichkeit: Bewertet zusaetzlich, ob die Anfangsbuchstaben uebereinstimmen. Besonders effektiv bei Personennamen, weil Tippfehler seltener am Wortanfang auftreten.
N-Gram-Vergleich: Zerlegt Zeichenketten in Teilstuecke fester Laenge und vergleicht deren Ueberschneidung.
Levenshtein-Beispiel:
"Hauptstraße 12" → "Hauptstr. 12"
Distanz: 4 (asse → .)
Ähnlichkeit: ~73%
Jaro-Winkler-Beispiel:
"Schmidt" → "Schmitt"
Ähnlichkeit: ~96%
→ Hohe Wahrscheinlichkeit einer Dublette
Fuzzy Matching ist der Kern jeder professionellen Dublettenprüfung. Es erkennt Tippfehler, Schreibvarianten und Abkuerzungen, die exakte Vergleiche und phonetische Verfahren uebersehen. Mehr zu den einzelnen Algorithmen erfahren Sie in der Fachliteratur zum Thema Record Linkage.
5. Regelbasierte Normalisierung
Bevor ueberhaupt verglichen wird, bringt die Normalisierung alle Daten in ein einheitliches Format. Das beseitigt Pseudodubletten, die nur durch unterschiedliche Schreibweisen entstehen:
Typische Normalisierungsregeln:
| Vorher | Nachher | Regel |
|---|---|---|
| Str., Strasse, Straße | Straße | Abkuerzung aufloesen |
| ue, oe, ae | ue, oe, ae | Umlaut-Normalisierung |
| Dr., Prof., Dipl.-Ing. | (entfernt) | Titel separieren |
| MUELLER, Max | Mueller, Max | Gross-/Kleinschreibung |
| 0170-1234567 | 01701234567 | Sonderzeichen entfernen |
| " Max Müller " | "Max Müller" | Leerzeichen bereinigen |
Normalisierung allein findet keine Dubletten. Aber sie ist die Voraussetzung dafuer, dass alle anderen Methoden zuverlaessig arbeiten. Ohne Normalisierung produziert selbst das beste Fuzzy Matching Fehler, weil es Formatunterschiede faelschlich als inhaltliche Unterschiede bewertet.
Ein konkretes Beispiel: Ohne Normalisierung ergibt der Vergleich von "Dr. Max Müller, Hauptstr. 12" und "Max Mueller, Hauptstraße 12" eine Aehnlichkeit von vielleicht 60 Prozent. Nach Normalisierung – Titel entfernt, Umlaut angeglichen, Strasse ausgeschrieben – steigt die Aehnlichkeit auf ueber 95 Prozent.
6. Gewichteter Feldvergleich
Nicht jedes Feld ist gleich wichtig fuer die Dublettenerkennung. Ein gewichteter Vergleich beruecksichtigt, welche Felder besonders aussagekraeftig sind:
Beispiel-Gewichtung:
Nachname: 30%
Vorname: 15%
Straße: 20%
Hausnummer: 15%
PLZ: 15%
Ort: 5%
─────────────────
Gesamt: 100%
Warum diese Verteilung? Der Nachname traegt am meisten zur Identifikation bei. Die Strasse und Hausnummer zusammen bilden ein starkes Signal. Der Ort ist bei korrekter PLZ redundant und erhaelt daher wenig Gewicht.
Der gewichtete Vergleich verhindert typische Fehlentscheidungen:
Ohne Gewichtung: "Max Müller, Hauptstr. 12, Stuttgart" und "Max Müller, Lindenstr. 8, Stuttgart" – gleicher Name, gleicher Ort, also 60% Aehnlichkeit. Aber es sind zwei verschiedene Personen.
Mit Gewichtung: Der Unterschied in Strasse (20%) und Hausnummer (15%) wiegt schwer. Gesamtaehnlichkeit sinkt auf 50% – unter der Schwelle, also keine Dublette. Richtig erkannt.
7. Maschinelles Lernen und KI-gestuetzte Erkennung
Die neueste Generation der Dublettenerkennung setzt auf trainierte Modelle, die aus Beispieldaten lernen. Ein solches System wird mit bestaettigten Dubletten und Nicht-Dubletten trainiert und erkennt anschliessend Muster, die regelbasierte Systeme uebersehen.
Vorteile gegenueber regelbasierten Methoden:
- Erkennt komplexe Zusammenhaenge (z.B. "Firma XY GmbH" und "XY Company Ltd." als identisch)
- Passt sich an die spezifischen Eigenheiten eines Datensatzes an
- Verbessert sich mit wachsender Datenmenge
- Beruecksichtigt Kontext: Wenn Vorname und Geburtsdatum identisch sind, genuegt eine aehnliche Adresse
Einschraenkungen:
- Benoetigt Trainingsdaten (mindestens einige hundert bestaettigte Faelle)
- Nicht immer transparent – die Entscheidungslogik ist schwerer nachzuvollziehen
- Bei kleinen Datenmengen oft nicht wirtschaftlich
Fuer Unternehmen mit grossen, regelmaessig aktualisierten Adressbestaenden ist KI-gestuetzte Dublettenerkennung die leistungsfaehigste Option. Fuer kleinere Listen reichen die Methoden 1 bis 6 in Kombination aus. Wie Sie die erkannten Dubletten anschliessend systematisch beseitigen, beschreibt unser Artikel zu den 7 haeufigsten Fehlern beim Adressdaten bereinigen.
Welche Methode fuer welchen Einsatzzweck?
Die sieben Methoden schliessen sich nicht gegenseitig aus. Im Gegenteil: Die besten Ergebnisse entstehen durch Kombination.
| Szenario | Empfohlene Methoden | Erwartete Erkennungsrate |
|---|---|---|
| Schnellcheck einer kleinen Liste | Exakt + Schluesselfeld | 30-40% |
| Jaehrliche CRM-Bereinigung | Normalisierung + Fuzzy Matching + Gewichtung | 70-85% |
| Zusammenfuehrung mehrerer Quellen | Alle Methoden kombiniert | 85-95% |
| Laufende Dublettenprüfung im CRM | Normalisierung + Fuzzy Matching + KI | 90-98% |
Ein typischer Ablauf sieht so aus:
- Normalisierung aller Felder (Methode 5)
- Schluesselfeld-Vergleich als Vorfilter (Methode 2)
- Fuzzy Matching auf die Kandidaten (Methode 4)
- Gewichteter Feldvergleich fuer die Endentscheidung (Methode 6)
Diesen mehrstufigen Prozess manuell in Excel abzubilden ist moeglich, aber extrem aufwendig. Professionelle Tools wie ListenFix automatisieren diese Schritte und kombinieren Normalisierung, Fuzzy Matching und gewichteten Vergleich in einem Durchlauf. Sie laden Ihre CSV- oder Excel-Datei, starten die Analyse und erhalten nach wenigen Sekunden eine bereinigte Liste – inklusive Protokoll, welche Eintraege als Dubletten erkannt und zusammengefuehrt wurden. Mehr dazu, warum Excel bei der Dublettenerkennung an seine Grenzen stoesst, lesen Sie in unserem Artikel Adressduplikate entfernen: Warum Excel nicht reicht.
Die Kosten unerkannter Dubletten
Zum Schluss ein Blick auf die Zahlen, denn Dubletten sind kein abstraktes Qualitaetsproblem – sie kosten konkret Geld:
Direktkosten: Bei 50.000 Adressen und 12% Dublettenanteil fallen pro Mailing rund 6.000 ueberfluessige Sendungen an. Bei Dialogpost-Kosten von 0,28 EUR pro Stueck sind das 1.680 EUR pro Versand. Bei monatlichen Mailings summiert sich das auf ueber 20.000 EUR im Jahr.
Indirekte Kosten: Verfaelschte Responsequoten (weil derselbe Empfaenger mehrfach gezaehlt wird), fehlerhafte Kundensegmentierung und verpasste Cross-Selling-Chancen, weil zusammengehoerige Informationen auf mehrere Datensaetze verteilt sind.
Reputationskosten: Kunden, die denselben Brief oder Katalog zweimal erhalten, nehmen das als Zeichen mangelnder Professionalitaet wahr. Gerade bei hochpreisigen Produkten oder im B2B-Bereich kann ein solcher Eindruck eine Geschaeftsbeziehung belasten.
Die Investition in zuverlaessige Dublettenerkennung rechnet sich daher schnell – oft schon beim naechsten groesseren Mailing.
Adressen bereinigen — jetzt testen
ListenFix erkennt per Fuzzy Matching deutlich mehr Duplikate als Excel. 100% offline, DSGVO-konform.
Kostenlos testen