Datenqualität messen: KPIs und Kennzahlen für Adressdaten

Wer Datenqualität verbessern möchte, ohne sie vorher gemessen zu haben, agiert blind. Ein Marketing-Team berichtet, die Adressliste sei "ganz okay", während der Versandpartner gleichzeitig 11 Prozent Rückläufer meldet. Beide Aussagen können stimmen – sie beschreiben nur unterschiedliche Dimensionen desselben Problems. Erst messbare Kennzahlen machen aus Eindrücken eine Entscheidungsgrundlage.
Das Hindernis ist meistens nicht der Wille zu messen, sondern die Auswahl der richtigen KPIs. "Datenqualität" ist ein abstrakter Sammelbegriff, der ohne präzise Indikatoren wenig taugt. Dieser Artikel zeigt sieben Kennzahlen, die sich auch in einer Datenbank mit 30.000 oder 300.000 Adressen ohne Spezial-Software berechnen lassen – und wie Sie diese Zahlen zu einem Quartalsbericht verdichten, der vom Marketingleiter genauso verstanden wird wie vom Geschäftsführer.
Die sechs Dimensionen der Datenqualität
Die ISO 8000 und die DAMA-DMBOK definieren Datenqualität nicht als einen einzelnen Wert, sondern als Kombination mehrerer Dimensionen. Für Adressdaten haben sich sechs davon als praxisrelevant herausgestellt:
| Dimension | Frage, die sie beantwortet | Beispiel-Verstoss |
|---|---|---|
| Vollständigkeit | Sind alle Pflichtfelder gefüllt? | PLZ fehlt bei 4 Prozent der Datensätze |
| Genauigkeit | Stimmen die Werte mit der Realität überein? | Strasse "Hauptsr." statt "Hauptstrasse" |
| Konsistenz | Werden gleiche Inhalte einheitlich erfasst? | "GmbH" vs. "G.m.b.H." vs. "GMBH" |
| Eindeutigkeit | Existiert jeder Datensatz genau einmal? | Drei Einträge für denselben Kunden |
| Aktualität | Wie alt ist die letzte Aktualisierung? | Datensatz seit 7 Jahren nicht angefasst |
| Validität | Entsprechen Werte definierten Regeln? | PLZ "12345A" oder Email ohne @ |
Wer alle sechs gleichzeitig perfekt erfüllt, hat Idealdaten. In der Praxis geht es darum, jede Dimension zu beziffern und Schwellwerte festzulegen, ab denen Handlungsbedarf besteht.
KPI 1: Vollständigkeitsquote
Der einfachste Einstieg. Für jedes als Pflicht definierte Feld berechnen Sie den Anteil der Datensätze, in denen das Feld einen Wert enthält:
Vollstaendigkeitsquote = (Datensaetze mit gefuelltem Feld / Gesamtanzahl) * 100
Beispiel:
Gesamt: 48.213 Adressen
PLZ gefuellt: 47.890
Vollstaendigkeit PLZ: 47.890 / 48.213 = 99,33 %
Vollstaendigkeit Telefon: 31.204 / 48.213 = 64,72 %
Vollstaendigkeit Anrede: 42.001 / 48.213 = 87,12 %
Wichtig: "Gefüllt" heisst nicht "korrekt". Ein Feld mit dem Inhalt "-" oder "k.A." gilt formal als gefüllt, ist aber wertlos. Definieren Sie deshalb für jeden Pflichtfeld-KPI eine Liste verbotener Platzhalter und prüfen Sie diese mit einer Standard-Regex.
Zielwerte (Erfahrungswerte):
- Postalisch zwingende Felder (Name, Strasse, PLZ, Ort): mindestens 98 Prozent
- Personalisierungsfelder (Anrede, Vorname): mindestens 92 Prozent
- Optionale Kontaktfelder (Telefon, Email): kein harter Zielwert, aber als Tracking-Grösse sinnvoll
KPI 2: Dublettenrate
Die wahrscheinlich teuerste Kennzahl. Jeder Doppelversand kostet Porto, Druck und Goodwill beim Empfänger. Die Berechnung scheint einfach – sie ist es nur dann, wenn Sie die Erkennungsmethode klar definieren.
Dublettenrate = (Anzahl erkannter Duplikate / Gesamtanzahl) * 100
Die Tücke: Welche Datensätze gelten als Duplikat? Drei gängige Verfahren liefern drei unterschiedliche Zahlen:
| Methode | Beispiel-Match | Typische Trefferquote |
|---|---|---|
| Exakter String-Vergleich | Buchstabe für Buchstabe identisch | 2 bis 4 Prozent |
| Schlüsselfeld-Hash (Name+PLZ+Strasse) | Normalisierte Kombination | 5 bis 9 Prozent |
| Fuzzy-Matching (Levenshtein + Phonetik) | "Müller" = "Mueller", "Str." = "Strasse" | 10 bis 18 Prozent |
Die Wahl hat enorme Auswirkungen. Eine Datenbank mit 50.000 Adressen kann nach Methode 1 als "fast dublettenfrei" gelten und nach Methode 3 als sanierungsbedürftig. Empfehlung: Berichten Sie immer beide Werte – den exakten Anteil und den Fuzzy-Anteil. Der Abstand zwischen beiden zeigt, wie viele Schreibvarianten in der Datenbank schlummern. Welche Algorithmen dafür in Frage kommen, beschreibt unser Artikel zur Datenqualität verbessern.
KPI 3: Validitätsquote
Validität fragt: Entspricht der Wert dem definierten Format? Beispiele für Validitätsregeln:
PLZ Deutschland: Genau 5 Ziffern, nicht mit 00 beginnend (ausser 01-)
PLZ Frankreich: Genau 5 Ziffern, beginnt mit 01-95 oder 97-98
Email: [Zeichen]@[Domain].[TLD], TLD mindestens 2 Zeichen
Telefon DACH: Beginnt mit +43, +49, +41 oder 0, mindestens 6 Ziffern
Geburtsdatum: gueltiges Datum, nicht in der Zukunft, nicht vor 1900
Die Validitätsquote pro Feld:
Validitaetsquote = (gueltige Werte / gefuellte Werte) * 100
Beispiel Email:
Gefuellte Email-Felder: 36.412
Davon valides Format: 35.880
Validitaetsquote Email: 35.880 / 36.412 = 98,54 %
Beispiel PLZ:
Gefuellte PLZ: 47.890
Davon valides Format: 47.612
Validitaetsquote PLZ: 99,42 %
Niedrige Werte deuten meistens auf zwei Quellen hin: ungeprüfte Imports aus Drittsystemen oder Webformulare ohne Format-Validierung. Beides ist behebbar – aber nur, wenn Sie es regelmässig messen.
KPI 4: Rückläuferquote
Die einzige Kennzahl, die nach dem Versand erhoben wird – und gerade deshalb so aussagekräftig. Der Versandpartner meldet zurück, wie viele Sendungen nicht zustellbar waren. Aufschlüsselung typischerweise:
| Rückläufergrund | Anteil typisch | Was sagt es über die Daten? |
|---|---|---|
| Unbekannt verzogen | 4–6 Prozent | Aktualität niedrig |
| Empfänger verstorben | 0,3–0,8 Prozent | Aktualität, Robinsonliste |
| Adresse unzustellbar | 0,5–1,5 Prozent | Validität, Genauigkeit |
| Adressat unbekannt | 0,3–0,8 Prozent | Adresszuordnung fehlerhaft |
Gesamtrückläufer in deutschen B2C-Mailings: branchenüblich 5 bis 9 Prozent. Bei mehr als 10 Prozent besteht akuter Handlungsbedarf. Eine 5.000-Adressen-Aussendung mit 11 Prozent Rückläufern verbrennt rund 154 EUR Porto und Druck, ohne dass auch nur eine Antwort entsteht. Wer eine grössere Aktion plant, sollte vorher eine Adressdatenbank bereinigen lassen.
KPI 5: Aktualitätsindex
Daten altern. Jedes Jahr ziehen in Deutschland rund 8 Millionen Menschen um – das sind knapp 10 Prozent der Bevölkerung. Eine Adressdatenbank, die seit fünf Jahren nicht aktualisiert wurde, enthält statistisch rund 40 Prozent veraltete Anschriften.
Den Aktualitätsindex berechnen Sie über das Alter der letzten Datensatzaktualisierung:
Datensatz-Alter = Heute - last_modified
Aktualitaetsklassen:
< 12 Monate → frisch
12 bis 24 Mon. → akzeptabel
24 bis 60 Mon. → pruefbeduerftig
> 60 Monate → kritisch
Aktualitaetsindex = (Datensaetze < 24 Monate / Gesamt) * 100
Eine Datenbank mit Aktualitätsindex 78 ist deutlich besser als eine mit 41. Wichtig: "Aktualisiert" heisst hier nicht zwangsläufig "korrigiert". Ein Datensatz, der nur in einer Massenoperation berührt wurde, hat zwar ein neues Datum, aber nicht zwangsläufig neue Inhalte. Wer das saubere Tracking ermöglicht, unterscheidet "letzte Berührung" und "letzte inhaltliche Änderung".
KPI 6: Konsistenzquote
Konsistenz ist die Stiefkind-Dimension. Sie misst, ob gleiche Sachverhalte gleich erfasst werden. Beispiele:
"Müller GmbH"
"Müller G.m.b.H."
"Mueller GmbH"
"MUELLER GMBH"
"Müller-GmbH"
→ Vermutlich derselbe Kunde, aber fuenf Schreibvarianten.
Konsistenz lässt sich quantifizieren, indem Sie Felder normalisieren (Grossschreibung, Sonderzeichen, Abkürzungen) und prüfen, wie viele Datensätze ihren ursprünglichen Wert behalten:
Konsistenzquote = (Datensaetze ohne Normalisierungs-Differenz / Gesamt) * 100
Beispiel Firmenname:
48.213 Datensaetze
nach Normalisierung gleich: 44.602
Konsistenzquote Firmenname: 92,51 %
Eine niedrige Konsistenzquote ist oft Vorbote eines Dubletten-Problems – wo unterschiedliche Schreibweisen existieren, sind versteckte Duplikate fast garantiert.
KPI 7: Postalische Verifizierungsquote
Diese Kennzahl ist optional, aber für jeden, der mehrere tausend Briefe pro Jahr verschickt, sehr aussagekräftig. Sie misst den Anteil der Adressen, deren Strasse, Hausnummer und Ort gegen ein offizielles Postverzeichnis (in Deutschland die Datenfactory Adress, in Frankreich der RNVP-Datenbestand, in Spanien das Correos-Strassenverzeichnis) abgeglichen wurden und als zustellbar gelten.
Verifizierungsquote = (postalisch verifizierbare Datensaetze / Gesamt) * 100
Realistische Werte:
- Junge B2C-Datenbank (< 2 Jahre) : 95 bis 98 Prozent
- Gewachsene B2C-Datenbank (5+ J.) : 86 bis 93 Prozent
- B2B-Datenbank : 88 bis 95 Prozent
- Sehr alte Bestaende (10+ Jahre) : 70 bis 85 Prozent
Beispielrechnung: Was eine 4-Punkt-Verbesserung wirklich wert ist
Ein mittelgrosses Versandhandelsunternehmen mit 60.000 aktiven Adressen, vier Mailings pro Jahr, durchschnittlich 35.000 Sendungen pro Mailing. Ausgangslage und Zielzustand:
| Kennzahl | Status quo | Zielwert | Differenz |
|---|---|---|---|
| Vollständigkeit Pflichtfelder | 94 % | 98 % | +4 Punkte |
| Dublettenrate (fuzzy) | 11 % | 4 % | -7 Punkte |
| Validitätsquote PLZ | 96 % | 99,5 % | +3,5 Punkte |
| Rückläufer | 9 % | 5 % | -4 Punkte |
| Aktualitätsindex | 58 % | 80 % | +22 Punkte |
Allein die Reduktion der Rückläufer von 9 auf 5 Prozent spart bei 35.000 Sendungen und 0,33 EUR pro Sendung rund 462 EUR pro Mailing – also 1.848 EUR im Jahr nur durch weniger nicht zustellbare Briefe. Die Reduktion der Dublettenrate von 11 auf 4 Prozent eliminiert pro Mailing rund 2.450 doppelte Sendungen, was weitere 808 EUR spart. Summe vor Antwort-Effekten: rund 2.656 EUR pro Jahr. Die positiven Effekte auf Response-Rate und Customer Lifetime Value sind dabei nicht mitgerechnet.
Der Quartalsbericht: Diese Tabelle reicht
Datenqualität wird nicht durch einmalige Analysen besser, sondern durch wiederkehrende Messung. Ein einfacher Quartalsbericht reicht in den meisten Organisationen aus. Vorschlag für die Struktur:
| KPI | Q1/2026 | Q2/2026 | Q3/2026 | Q4/2026 | Zielwert | Trend |
|---|---|---|---|---|---|---|
| Vollständigkeit Pflichtfelder | 94,1 % | 95,8 % | 96,2 % | 96,9 % | 98 % | ↑ |
| Dublettenrate (fuzzy) | 11,2 % | 9,4 % | 7,1 % | 5,3 % | 4 % | ↓ |
| Validitätsquote PLZ | 96,3 % | 96,9 % | 98,1 % | 98,4 % | 99,5 % | ↑ |
| Rückläufer-Mailing | 9,1 % | 8,4 % | 7,2 % | 6,5 % | 5 % | ↓ |
| Aktualitätsindex (< 24 Mon.) | 58 % | 62 % | 68 % | 71 % | 80 % | ↑ |
| Konsistenzquote Firmenname | 88 % | 91 % | 92 % | 93 % | 95 % | ↑ |
Drei Regeln für den Bericht:
- Gleiche Berechnungslogik über alle Quartale. Wenn Sie die Methode wechseln, ist der Trend wertlos. Dokumentieren Sie die Formel und friere sie für mindestens vier Quartale ein.
- Maximal sechs bis acht KPIs. Mehr werden ignoriert. Wer alle zwölf möglichen Kennzahlen drinhaben will, produziert einen Bericht, den niemand mehr liest.
- Eine klare Verantwortlichkeit pro KPI. Wer treibt den Wert? Wer wird beim Verfehlen des Zielwerts gefragt? Ohne Owner verändert sich nichts.
Praktische Umsetzung mit ListenFix
ListenFix ist ein Werkzeug für die Bereinigung und Bewertung von Adressdaten, das die Berechnung der oben beschriebenen KPIs in einem Arbeitsschritt erlaubt. Die Software analysiert eine importierte Adressliste, ermittelt Dubletten mit fünf konfigurierbaren Fuzzy-Algorithmen, prüft Felder gegen Postleitzahlverzeichnisse aus 29 Ländern und liefert nach jedem Durchlauf einen Bericht mit Vollständigkeit, Dubletten- und Validitätsquoten.
Die Verarbeitung läuft lokal auf dem eigenen Rechner – Adressdaten verlassen den Arbeitsplatz nicht. Das ist besonders dann relevant, wenn die KPI-Messung Teil eines DSGVO-Audits ist und externe Cloud-Tools rechtlich problematisch sind. Aus den Ergebnissen lässt sich ein quartalsweiser Bericht erstellen, der die Entwicklung über mehrere Auswertungen sichtbar macht.
Vom abstrakten Begriff zum messbaren Wert
Datenqualität ist kein Bauchgefühl und kein einzelner Prozentwert. Sie ist ein Bündel aus Vollständigkeit, Eindeutigkeit, Validität, Aktualität, Konsistenz und Rückläuferquote – jede Dimension mit eigener Berechnung, eigenem Zielwert und eigener Verantwortlichkeit. Wer diese Werte einmal pro Quartal misst und in einer simplen Tabelle festhält, hat innerhalb eines Jahres nicht nur eine bessere Datenbasis, sondern auch eine fundierte Argumentation für jede künftige Datenpflege-Initiative.
Drei Schritte für den Einstieg:
- Wählen Sie sechs KPIs. Mindestens Vollständigkeit, Dublettenrate, Validität, Rückläufer, Aktualität und einen Konsistenzwert.
- Definieren Sie die Berechnungslogik. Dokumentieren Sie sie, ohne juristischen Anspruch, aber so, dass jemand anders sie reproduzieren kann.
- Setzen Sie die erste Messung jetzt an. Nicht "wenn die neue Software steht". Auch eine Excel-Auswertung mit ZÄHLENWENN reicht für Quartal eins.
Wer beim Messen anfängt, weiss am Ende des Jahres, wo er steht. Wer es vermeidet, schickt im nächsten Frühjahrsmailing wieder 9 Prozent in den Müll – und wundert sich darüber.
Adressen bereinigen — jetzt testen
ListenFix erkennt per Fuzzy Matching deutlich mehr Duplikate als Excel. 100% offline, DSGVO-konform.
Kostenlos testen