Familien-Deduplizierung: Verwandtschaft richtig erkennen

Familie Müller in Stuttgart wohnt zu viert in der Bergstraße 14: Heinrich Müller, seine Frau Eva Müller-Schmidt, die volljährige Tochter Lisa Müller und der zehnjährige Sohn Tim. In Ihrer CRM-Datenbank stehen fünf Datensätze an dieser Adresse: Heinrich aus einer Bestellung 2021, Eva Müller-Schmidt aus dem Webshop 2023, Eva Schmidt (Mädchenname) aus einem Newsletter-Abo von 2018, Lisa Müller aus einer Kampagne von letztem Jahr und Tim Müller, weil ihn die Mutter beim Kindersport mit ausgefüllt hat. Beim nächsten Spendenmailing gehen fünf identische Briefe an die Bergstraße 14.
Klassische Haushaltsbereinigung erkennt nur drei davon, weil Eva Schmidt und Eva Müller-Schmidt als zwei Personen geführt werden und weil Tim als Minderjähriger eigentlich keinen eigenen Brief bekommen sollte. Familien-Deduplizierung schließt genau diese Lücke. Sie erkennt Familienzusammenhänge auch dann, wenn Nachnamen wechseln, wenn jemand einen Doppelnamen angenommen hat oder wenn ein Kind als eigener Datensatz erfasst wurde.
Was Familien-Deduplizierung von Haushaltsbereinigung unterscheidet
Haushaltsbereinigung fragt: Wohnen diese Personen an derselben Adresse? Wenn ja, reicht eine Sendung. Das funktioniert sauber bei Wohngemeinschaften, in denen niemand verwandt ist, weil die einzige Information die Anschrift sein muss.
Familien-Deduplizierung geht eine Ebene tiefer. Sie nutzt Namensgleichheit und Namensähnlichkeit als zusätzliches Signal, um echte Verwandtschaftsbeziehungen zu erkennen und Sonderfälle zu behandeln, die reine Anschriftsabgleiche übersehen.
| Verfahren | Hauptsignal | Erkennt | Übersieht |
|---|---|---|---|
| Reine Deduplizierung | Person A = Person B | Schreibvarianten derselben Person | Familie als Einheit |
| Haushaltsbereinigung | Gleiche Anschrift | Personen an einer Adresse | Mädchenname, Doppelname, Minderjährige |
| Familien-Deduplizierung | Anschrift + Namensbeziehung | Eltern, Kinder, Verheiratete unter altem und neuem Namen | – |
Der praktische Unterschied wird sichtbar, sobald in einer Datenbank historisch gewachsene Daten liegen. Wer Adressen seit fünf Jahren oder länger sammelt, hat zwangsläufig Datensätze mit unterschiedlichen Nachnamen für dieselbe Person. Eine Hochzeit, eine Scheidung, eine Wiederheirat, ein Kind das eigene Post bekommt – jedes dieser Lebensereignisse erzeugt einen neuen Datensatz, der zur Familie gehört, aber nicht so aussieht.
Die fünf Familien-Konstellationen, die Standard-Tools übersehen
Aus der Praxis von Adressbereinigungen kommen fünf typische Fälle, an denen einfache Haushaltsabgleiche scheitern.
1. Heirat mit Namensänderung
Eva Schmidt heiratet Heinrich Müller und nimmt den Namen Müller an. Im CRM existieren zwei Datensätze: einer aus der Newsletter-Anmeldung von 2018 unter „Eva Schmidt" und einer aus der Webshop-Bestellung von 2023 unter „Eva Müller". Beide wohnen jetzt in der Bergstraße 14. Ein Anschriftsabgleich allein erkennt nicht, dass es sich um dieselbe Person handelt – nur die Familien-Deduplizierung mit Mädchennamen-Erkennung bringt beide zusammen.
2. Doppelnamen
Eva entscheidet sich für den Doppelnamen Müller-Schmidt. Damit gibt es nun drei Schreibvarianten derselben Frau in der Datenbank: Eva Schmidt, Eva Müller und Eva Müller-Schmidt. Standard-Dublettenerkennung scheitert hier oft, weil die exakten Namen unterschiedlich sind und die Phonetik keine Übereinstimmung liefert.
3. Erwachsene Kinder unter dem Familiendach
Lisa Müller ist 22, studiert in München und hat eigentlich eine eigene Adresse. Trotzdem läuft die Post der Eltern an sie weiterhin in die Bergstraße 14. Sie hat sich für einen Vereins-Newsletter mit der Elternadresse angemeldet, weil sie nur in den Semesterferien dort ist. Ergebnis: Ein vierter Datensatz an derselben Anschrift, der zur selben Familie gehört.
4. Minderjährige Kinder als eigene Datensätze
Tim Müller, zehn Jahre alt, wurde von seiner Mutter beim Kindersportverein eingetragen. Adresse: Bergstraße 14. Tim ist DSGVO-rechtlich problematisch als eigener Empfänger – Werbung an Minderjährige ist nur in engen Grenzen erlaubt. Trotzdem steht er als eigener Adressdatensatz im CRM und erhält Mailings.
5. Geschiedene Eltern an verschiedenen Adressen
Die Eheleute trennen sich, Eva zieht in die Lindenstraße 7 in Stuttgart. Ihr Mädchenname war Schmidt. Sie behält den Namen Müller-Schmidt. Im CRM existiert jetzt eine Person, die historisch zur Familie Müller in der Bergstraße gehört, aber an einer neuen Adresse wohnt. Hier muss die Familien-Deduplizierung den umgekehrten Schluss ziehen: Trotz Namensgleichheit ist es kein gemeinsamer Haushalt mehr.
Wie Algorithmen Familienbeziehungen erkennen
Die technische Umsetzung läuft in vier Schritten ab.
Schritt 1: Adress-Cluster bilden
Alle Datensätze mit identischer normalisierter Anschrift werden vorgruppiert. „Bergstr. 14", „Bergstraße 14" und „Bergstr. 14, 70199 Stuttgart" landen im selben Cluster. Mehr zur Vorverarbeitung im Artikel über Fuzzy Matching bei Adressen.
Schritt 2: Nachnamen-Heuristik
Innerhalb jedes Adress-Clusters wird geprüft, wie die Nachnamen zusammenhängen. Drei Regeln greifen:
- Identischer Nachname: Vermutlich Familienmitglieder oder Verwandte
- Doppelname enthält Einzelname: „Müller-Schmidt" enthält „Müller" und „Schmidt" – also möglicher Hinweis auf Heirat
- Phonetische Nähe: „Meier" und „Maier" werden über Kölner Phonetik zusammengeführt, falls an gleicher Adresse
Schritt 3: Geburtsjahr-Heuristik für Minderjährige
Falls ein Geburtsdatum vorliegt, wird das Alter berechnet. Datensätze von Personen unter 16 Jahren werden markiert und automatisch aus dem Mailing-Versand entfernt. Liegt kein Geburtsdatum vor, hilft die Vornamen-Datenbank: Vornamen wie „Tim", „Mia" oder „Leon" sind statistisch oft Kindernamen. Diese Heuristik ist allerdings weich und nur ein Verdachtssignal, kein Beweis.
Schritt 4: Primärperson bestimmen
Für jede erkannte Familie wird eine Hauptempfänger-Person bestimmt. Übliche Regeln:
- Älteste Person der Familie (über Geburtsdatum)
- Person mit der höchsten Spenden- oder Bestellhistorie
- Person, deren Datensatz zuletzt aktualisiert wurde
Vor Familien-Deduplizierung:
ID Vorname Nachname Geb. Adresse
1 Heinrich Müller 1972 Bergstraße 14, 70199 Stuttgart
2 Eva Müller 1975 Bergstraße 14, 70199 Stuttgart
3 Eva Schmidt 1975 Bergstraße 14, 70199 Stuttgart
4 Eva Müller-Schmidt (leer) Bergstr. 14, 70199 Stuttgart
5 Lisa Müller 2004 Bergstraße 14, 70199 Stuttgart
6 Tim Müller 2016 Bergstraße 14, 70199 Stuttgart
Nach Familien-Deduplizierung:
Familie Primärperson Mitglieder Mailings
F-001 Heinrich Müller 4 Erwachsene 1 Brief: "Familie Müller"
+ 1 Minderjähriger (Tim ausgeschlossen)
Aus sechs Datensätzen werden ein Hauptempfänger und vier zugeordnete Familienmitglieder. Die Mädchennamen-Variante von Eva (ID 3) und die Doppelnamen-Variante (ID 4) sind als dieselbe Person erkannt. Tim ist als minderjährig ausgeschlossen.
Kostenrechnung: Wie viel ein Verein durch Familien-Deduplizierung spart
Familien-Deduplizierung lohnt sich vor allem in zwei Branchen: Vereinen mit Familienmitgliedschaften und Versicherungen, die historisch Verträge an verschiedene Familienmitglieder verkauft haben. Eine Beispielrechnung für einen mittelständischen Spendenverein.
Ausgangslage:
- 18.000 Datensätze in der Datenbank
- Drei Spendenaufrufe pro Jahr per Dialogpost
- Porto: 0,28 EUR pro Sendung (Dialogpost Standard)
- Druck und Kuvertierung: zusätzlich 0,42 EUR pro Sendung
Vor der Bereinigung schickt der Verein bei jeder Aktion 18.000 Briefe. Eine erste Haushaltsbereinigung reduziert auf 16.200 Sendungen (10 Prozent Überschneidung). Eine zusätzliche Familien-Deduplizierung, die Mädchennamen, Doppelnamen und Minderjährige berücksichtigt, senkt die Sendungsmenge auf 14.940 Stück – weitere 8 Prozent Ersparnis durch erkannte familiäre Mehrfacheinträge.
| Schritt | Sendungen | Porto | Druck/Handling | Gesamt pro Aktion |
|---|---|---|---|---|
| Vor Bereinigung | 18.000 | 5.040 EUR | 7.560 EUR | 12.600 EUR |
| Nach Haushaltsbereinigung | 16.200 | 4.536 EUR | 6.804 EUR | 11.340 EUR |
| Nach Familien-Deduplizierung | 14.940 | 4.183 EUR | 6.275 EUR | 10.458 EUR |
Ersparnis pro Aktion gegenüber dem unbereinigten Stand: 2.142 EUR. Bei drei Aktionen pro Jahr summiert sich das auf 6.426 EUR jährlich. Hinzu kommt ein qualitativer Effekt, der schwerer zu beziffern ist: Empfänger, die nicht mehr fünf identische Briefe pro Aktion bekommen, beschweren sich seltener und sind weniger geneigt, ihre Spendenbereitschaft zu hinterfragen.
Wer die aktuellen Dialogpost-Tarife im Detail nachschlagen möchte, findet sie im Dialogpost-Guide.
Wann Familien-Deduplizierung nicht angewendet werden darf
Es gibt klare Fälle, in denen die Zusammenfassung zur Familie unzulässig ist.
Personalisierte Angebote pro Person: Wenn jedes Familienmitglied einen eigenen Rabattcode oder ein eigenes Bonusprogramm hat, müssen Einzelsendungen bleiben.
Rechtlich vorgeschriebene Einzelpost: Rechnungen, Mahnungen, Vertragskündigungen, Versicherungsbestätigungen – alles, was rechtsverbindlich an eine konkrete Person geht, darf nicht zur Familienadresse zusammengefasst werden.
Gemeinsam wohnende Erwachsene ohne Verwandtschaft: Eine Wohngemeinschaft aus drei Studierenden ist ein Haushalt, aber keine Familie. Hier reicht Haushaltsbereinigung; eine Familien-Deduplizierung würde zu Unrecht annehmen, dass Namensgleichheit oder Mädchennamen-Beziehungen vorliegen.
DSGVO-Sonderfall Kinder: Werbung an Minderjährige unter 16 Jahren ist nach Art. 8 DSGVO an die Einwilligung der Eltern gebunden. Eine Familien-Deduplizierung muss Minderjährige sicher als solche erkennen und aus Werbe-Mailings ausschließen. Wer das nicht trennt, riskiert ein Bußgeld. Die rechtliche Einordnung dazu im Artikel DSGVO-konforme Adressbereinigung.
Familien-Deduplizierung mit ListenFix umsetzen
ListenFix kombiniert die genannten Heuristiken in einem lokal laufenden Tool. Adress-Normalisierung, Dublettenerkennung, Mädchennamen-Logik und Doppelnamen-Erkennung greifen in einem Durchlauf ineinander.
Konkret prüft die Software innerhalb jedes Adress-Clusters:
- Ob Doppelnamen wie „Müller-Schmidt" die Komponenten „Müller" oder „Schmidt" enthalten, die als Einzelnamen an gleicher Anschrift erfasst sind
- Ob phonetisch ähnliche Nachnamen (Kölner Phonetik) an gleicher Anschrift vermutlich Familienmitglieder sind
- Ob Geburtsdaten ein Familienmitglied als minderjährig markieren
- Ob die Adressnormalisierung („Str." → „Straße", Hausnummern-Zusätze) bereits erfolgt ist
Die Verarbeitung läuft komplett auf dem eigenen Rechner, Adressdaten verlassen das System nicht. Das ist relevant für Vereine, Krankenhäuser oder Anwaltskanzleien, bei denen ein Cloud-Upload aus Datenschutzgründen ausscheidet. Die Ausgabe ist eine Excel- oder CSV-Datei, in der jede Familie eine eindeutige ID erhält und der Primärempfänger markiert ist. Die übrigen Familienmitglieder bleiben in der Datei sichtbar, werden aber für den Sendungsaufdruck unterdrückt.
Wer bisher mit Excel-Bordmitteln gearbeitet hat, kennt das Problem: Die Funktion „Duplikate entfernen" findet nur exakte Treffer. Mädchennamen, Doppelnamen und Schreibvarianten rutschen durch. Eine Gegenüberstellung findet sich im Artikel Excel Duplikate entfernen bei Adressen.
Vom CRM-Chaos zur sauberen Familien-Datenbank
Drei Schritte führen vom unbereinigten Bestand zur sauberen Familien-Struktur:
- Bestandsaufnahme: Laden Sie einen aktuellen Adressexport in ein Tool, das Familien-Beziehungen erkennt. Prüfen Sie, wie viele Datensätze zu erkennbaren Familien gehören. Eine Quote zwischen 8 und 20 Prozent ist branchenüblich, in Vereinen mit Familienmitgliedschaften auch höher.
- Regelwerk festlegen: Definieren Sie, wie Primärempfänger bestimmt werden (älteste Person, höchster Spendenwert, jüngste Aktivität) und welche Felder für die Familien-Erkennung herangezogen werden dürfen. Bei Spendenvereinen ist meist die Person mit der höchsten kumulierten Spendenhöhe sinnvoll.
- In den Mailing-Prozess integrieren: Familien-Deduplizierung gehört vor jeden Versand, nicht einmal pro Jahr. Adressen ändern sich laufend – Heirat, Scheidung, Auszug der Kinder, Umzug der Eltern. Eine einmalige Bereinigung veraltet binnen Monaten.
Wer diesen Dreischritt etabliert, hat zwei Effekte gleichzeitig: niedrigere Versandkosten und höhere Akzeptanz bei den Empfängern. Beides zahlt direkt auf die Rendite jedes Mailings ein.
Adressen bereinigen — jetzt testen
ListenFix erkennt per Fuzzy Matching deutlich mehr Duplikate als Excel. 100% offline, DSGVO-konform.
Kostenlos testen