← Alle Artikel

Adress-Deduplizierung: Doppelte Kontakte sicher finden

Auch verfügbar in:FrançaisEspañol
Adress-Deduplizierung: Doppelte Kontakte in einer Adressliste werden erkannt und zusammengeführt

Jede Adressliste wächst. Neue Kontakte kommen aus dem Webshop, vom Messestand, aus dem CRM-Import der Partneragentur. Nach zwei Jahren stecken in einer 15.000er-Kundendatenbank typischerweise 600 bis 1.200 Dubletten, die bei keinem Standardabgleich auffallen. Der Grund: Die doppelten Einträge sehen auf den ersten Blick verschieden aus.

"Thomas Müller, Hauptstr. 12" und "Th. Mueller, Hauptstraße 12" sind derselbe Kontakt. Excel erkennt das nicht, ein einfacher Datenbankvergleich auch nicht. Das Ergebnis: doppelte Mailings, irritierte Kunden, verschwendetes Porto. Adress-Deduplizierung löst genau dieses Problem, aber nur, wenn sie über den exakten Zeichenvergleich hinausgeht.

Warum exakte Vergleiche bei Adressen versagen

Ein exakter Vergleich prüft, ob zwei Zeichenketten Zeichen für Zeichen identisch sind. Für strukturierte Daten wie Artikelnummern funktioniert das. Für Adressen nicht, denn dieselbe Adresse lässt sich auf dutzende Arten schreiben.

Kontakt 1: Dr. Maria Schmidt      | Mozartstr. 8      | 50674 | Köln
Kontakt 2: Maria Schmidt          | Mozartstraße 8    | 50674 | Koeln
Kontakt 3: M. Schmidt-Weber       | Mozartstr. 8      | 50674 | Köln

Exakter Vergleich:    0 Dubletten erkannt
Fuzzy Matching (85%): Kontakt 1 + 2 erkannt (93% Ähnlichkeit)

Die Unterschiede im Beispiel sind typisch: fehlender Titel, Abkürzung vs. Langform, Umlaut-Variante ("Köln" vs. "Koeln"), Doppelname. Einzeln betrachtet sind das Kleinigkeiten. In der Summe reichen sie, damit jeder regelbasierte Vergleich die Dublette übersieht.

Fünf Verfahren der Adress-Deduplizierung im Vergleich

Nicht jeder Algorithmus eignet sich gleich gut für Adressdaten. Die Wahl des Verfahrens bestimmt, wie viele Dubletten gefunden werden und wie hoch die Fehlerquote ausfällt.

VerfahrenFunktionsprinzipStärkeSchwäche
Levenshtein-DistanzZählt nötige ZeichenänderungenTippfehler ("Schmit" → "Schmidt")Versagt bei Umstellungen ("Hans Peter" vs. "Peter Hans")
Jaro-WinklerGewichtet übereinstimmende Anfangszeichen stärkerKurze Strings, NachnamenWeniger präzise bei langen Adressen
Token-basiertes MatchingVergleicht Wort für Wort, Reihenfolge egalUmgestellte BestandteileErkennt keine Abkürzungen
Phonetisches Matching (Soundex/Kölner Phonetik)Vergleicht Aussprache statt Schreibweise"Müller" = "Mueller" = "Muller"Nur für Namen sinnvoll, nicht für Straßen
Kombiniertes MatchingMehrere Verfahren parallel, gewichtetes ScoringHöchste ErkennungsrateAufwändiger zu konfigurieren

In der Praxis liefert die Kombination die besten Ergebnisse. Ein einzelner Algorithmus erkennt je nach Datenbestand zwischen 40 und 70 Prozent der tatsächlichen Dubletten. Die parallele Anwendung von drei bis fünf Verfahren mit gewichtetem Scoring erreicht Erkennungsraten über 90 Prozent.

Mehr zu den einzelnen Algorithmen: Fuzzy Matching für Adressen: So funktioniert unscharfer Vergleich

Was doppelte Adressen konkret kosten

Die Kosten unerkannter Dubletten lassen sich für Dialogpost-Mailings präzise berechnen:

Annahmen:
- Adressbestand:           15.000 Kontakte
- Dublettenquote:          5% (branchentypisch nach 2+ Jahren ohne Bereinigung)
- Anzahl Dubletten:        750 doppelte Einträge
- Porto Dialogpost:        0,38 EUR/Stück
- Druckkosten:             0,18 EUR/Stück (Standardbrief, 4-seitig)
- Kuvertierung:            0,05 EUR/Stück

Kosten pro Mailing durch Dubletten:
750 × (0,38 + 0,18 + 0,05) = 750 × 0,61 = 457,50 EUR

Bei 4 Mailings pro Jahr:
4 × 457,50 = 1.830,00 EUR vermeidbare Kosten

Dazu kommen indirekte Kosten: Kunden, die zweimal denselben Brief erhalten, nehmen das Unternehmen als unprofessionell wahr. Im B2B-Bereich kann ein doppeltes Anschreiben an denselben Entscheider die Geschäftsbeziehung belasten. Und wenn der Vertrieb mit einer dublettenbelasteten Liste arbeitet, rufen zwei Mitarbeiter denselben Kunden an, ohne es zu wissen.

Schritt für Schritt: So funktioniert professionelle Deduplizierung

Ein sauberer Deduplizierungsprozess folgt einer klaren Reihenfolge. Wer Schritte überspringt, produziert entweder zu viele False Positives (fälschlich als Dublette erkannt) oder übersieht echte Dubletten.

1. Normalisierung

Vor dem eigentlichen Vergleich müssen alle Adressen in ein einheitliches Format gebracht werden:

2. Blocking

Bei 15.000 Adressen ergeben sich über 112 Millionen mögliche Paarvergleiche. Blocking reduziert diese Menge drastisch, indem nur Adressen mit gleicher PLZ oder gleichem Anfangsbuchstaben des Nachnamens verglichen werden. Das senkt die Rechenzeit von Stunden auf Sekunden, ohne relevante Dubletten zu übersehen.

3. Matching

Jetzt laufen die eigentlichen Vergleichsalgorithmen. Professionelle Tools setzen drei bis fünf Verfahren parallel ein und berechnen einen gewichteten Ähnlichkeitsscore.

4. Entscheidung

Paare oberhalb eines definierten Schwellenwerts (typisch: 85 bis 90 Prozent) werden als Dubletten markiert. Der Bereich zwischen 70 und 85 Prozent enthält Kandidaten, die manuell geprüft werden sollten.

5. Zusammenführung (Merge)

Der letzte Schritt entscheidet, welcher Datensatz bleibt und welcher gelöscht wird. In der Praxis bedeutet das: den vollständigsten Datensatz behalten und fehlende Informationen aus dem Duplikat ergänzen.

VORHER:
Kontakt A: Thomas Müller    | Hauptstr. 12  | 70173 Stuttgart | Tel: —
Kontakt B: Th. Mueller      | Hauptstr. 12  | 70173 Stuttgart | Tel: 0711-1234567

NACHHER (zusammengeführt):
Thomas Müller | Hauptstraße 12 | 70173 Stuttgart | Tel: 0711-1234567

Typische Fehlerquellen bei der Deduplizierung

Auch mit den richtigen Algorithmen gibt es Fallstricke, die das Ergebnis verfälschen:

Zu niedriger Schwellenwert: Bei einem Matching-Score unter 80 Prozent werden häufig verschiedene Personen mit ähnlichem Namen als Dublette markiert. Zwei "Michael Schmidt" in derselben Stadt sind nicht automatisch dieselbe Person.

Keine Adresskomponenten-Gewichtung: PLZ und Hausnummer sind stärkere Indikatoren als der Nachname. Ein Algorithmus, der alle Felder gleich gewichtet, produziert unnötige Fehlentscheidungen.

Einmaliger Lauf statt Prozess: Deduplizierung ist kein einmaliges Projekt. Neue Daten kommen täglich dazu. Ohne regelmäßige Bereinigung, mindestens quartalsweise, wächst die Dublettenquote stetig nach.

Kein Schutz bei Familien: "Maria Müller" und "Thomas Müller" an derselben Adresse sind keine Dublette, sondern ein Haushalt. Naive Algorithmen löschen hier einen der beiden Kontakte.

Deduplizierung in der Praxis: Offline vs. Cloud

Für die Adress-Deduplizierung gibt es zwei grundsätzliche Ansätze:

KriteriumCloud-LösungOffline-Software
Datenschutz (DSGVO)Daten verlassen das UnternehmenDaten bleiben lokal
EinrichtungSofort nutzbarInstallation nötig
KostenMonatlich, volumenbasiertEinmalkauf oder Flatrate
KontrolleAnbieterabhängigVolle Kontrolle
Für sensible DatenNur mit AVV und geprüftem AnbieterOhne zusätzliche Verträge einsetzbar

Gerade bei Kundendaten, Patientenlisten oder Mitgliederdatenbanken ist der Datenschutzaspekt entscheidend. Eine Offline-Lösung umgeht die komplette Diskussion um Auftragsverarbeitung, Server-Standorte und Drittlandtransfers.

ListenFix arbeitet komplett offline auf Ihrem Rechner. Die Software kombiniert fünf Matching-Algorithmen parallel, erkennt Fuzzy-Dubletten auch bei Tippfehlern, Abkürzungen und Umlaut-Varianten und erfordert keinen Cloud-Upload. Kostenlos testen

Wann sich professionelle Deduplizierung lohnt

Nicht jede Liste braucht eine aufwändige Bereinigung. Als Faustregel: Ab 1.000 Adressen und mindestens einem postalischen Mailing pro Jahr lohnt sich der Einsatz eines professionellen Deduplizierungstools. Die Kostenersparnis beim ersten Mailing übersteigt in den meisten Fällen die Softwarekosten.

Wer regelmäßig Dialogpost verschickt, sollte Deduplizierung als festen Prozessschritt vor jedem Versand einplanen. Die Bereinigung einer 10.000er-Liste dauert mit der richtigen Software wenige Minuten. Der ROI ist ab dem ersten bereinigten Mailing positiv.

Weiterführend: Dubletten erkennen: Methoden und Best Practices

Adressen bereinigen — jetzt testen

ListenFix erkennt per Fuzzy Matching deutlich mehr Duplikate als Excel. 100% offline, DSGVO-konform.

Kostenlos testen