Mesurer la qualité des données : KPI et indicateurs pour fichiers adresses

Vouloir améliorer la qualité des données sans l'avoir mesurée au préalable, c'est piloter à l'aveugle. Une équipe marketing rapporte que la base d'adresses est "globalement correcte" pendant que le routeur signale 11 pour cent de NPAI sur la même opération. Les deux constats peuvent être justes : ils décrivent simplement des dimensions différentes du même problème. Seuls des indicateurs mesurables transforment une impression en base de décision.
L'obstacle n'est généralement pas la volonté de mesurer, mais le choix des bons KPI. "Qualité des données" reste un terme abstrait, peu utile sans indicateurs précis. Cet article présente sept mesures qui se calculent sur une base de 30 000 ou 300 000 adresses sans logiciel spécialisé, et montre comment les condenser en un rapport trimestriel compréhensible aussi bien par un responsable marketing que par un dirigeant.
Les six dimensions de la qualité des données
Les normes ISO 8000 et DAMA-DMBOK définissent la qualité des données non comme une valeur unique, mais comme une combinaison de plusieurs dimensions. Pour les fichiers adresses, six d'entre elles se révèlent particulièrement pertinentes :
| Dimension | Question à laquelle elle répond | Exemple d'écart |
|---|---|---|
| Complétude | Tous les champs obligatoires sont-ils remplis ? | Code postal absent dans 4 pour cent des fiches |
| Exactitude | Les valeurs correspondent-elles à la réalité ? | Rue "Av. Hauss." au lieu de "Avenue Haussmann" |
| Cohérence | Les mêmes contenus sont-ils saisis de manière homogène ? | "SARL" vs. "S.A.R.L." vs. "Sarl" |
| Unicité | Chaque fiche existe-t-elle une seule fois ? | Trois entrées pour le même client |
| Fraîcheur | Quand la fiche a-t-elle été mise à jour pour la dernière fois ? | Fiche non touchée depuis 7 ans |
| Validité | Les valeurs respectent-elles les règles définies ? | Code postal "12345A" ou e-mail sans @ |
Atteindre les six simultanément est l'idéal théorique. En pratique, l'enjeu est de chiffrer chaque dimension et de fixer des seuils à partir desquels une action s'impose.
KPI 1 : Taux de complétude
Le point de départ le plus simple. Pour chaque champ déclaré obligatoire, vous calculez la part des fiches dans lesquelles le champ contient une valeur :
Taux de completude = (fiches avec champ rempli / nombre total) * 100
Exemple :
Total : 52 184 adresses
Code postal rempli : 51 720
Completude code postal : 51 720 / 52 184 = 99,11 %
Completude telephone : 33 410 / 52 184 = 64,02 %
Completude civilite : 45 290 / 52 184 = 86,79 %
Attention : "rempli" ne signifie pas "correct". Une valeur "-" ou "N/A" est formellement remplie, mais sans utilité. Définissez pour chaque champ une liste de valeurs interdites et contrôlez-les avec une expression régulière.
Valeurs cibles indicatives :
- Champs postaux obligatoires (nom, rue, code postal, ville) : au moins 98 pour cent
- Champs de personnalisation (civilité, prénom) : au moins 92 pour cent
- Champs de contact facultatifs (téléphone, e-mail) : pas de cible stricte, mais à suivre
KPI 2 : Taux de doublons
Probablement l'indicateur le plus coûteux à ignorer. Chaque envoi en double consomme de l'affranchissement, du papier et de la patience du destinataire. Le calcul paraît simple – il ne l'est qu'à condition de définir clairement la méthode de détection.
Taux de doublons = (doublons detectes / nombre total) * 100
Le piège : qu'est-ce qu'un doublon ? Trois méthodes courantes donnent trois résultats différents :
| Méthode | Exemple de correspondance | Taux typique de détection |
|---|---|---|
| Comparaison exacte | Caractère pour caractère identique | 2 à 4 pour cent |
| Hash sur champs-clés (nom+CP+rue) | Combinaison normalisée | 5 à 9 pour cent |
| Fuzzy matching (Levenshtein + phonétique) | "Lefèvre" = "Lefevre", "Bd." = "Boulevard" | 10 à 18 pour cent |
Le choix change tout. Une base de 50 000 adresses peut paraître "presque sans doublons" selon la méthode 1 et "à nettoyer en urgence" selon la méthode 3. Recommandation : publiez toujours les deux valeurs – le taux exact et le taux fuzzy. L'écart entre les deux indique combien de variantes orthographiques dorment dans la base. Les algorithmes adaptés à ce travail sont décrits dans notre article sur le dédoublonnage des adresses.
KPI 3 : Taux de validité
La validité pose la question : la valeur respecte-t-elle le format défini ? Quelques règles concrètes :
Code postal France : Exactement 5 chiffres, commence par 01-95 ou 97-98
Code postal Allemagne : Exactement 5 chiffres
Email : [caracteres]@[domaine].[TLD], TLD au moins 2 caracteres
Telephone France : Commence par +33 ou 0, suivi de 9 chiffres
Date de naissance : Date valide, pas dans le futur, pas avant 1900
Le calcul par champ :
Taux de validite = (valeurs valides / valeurs renseignees) * 100
Exemple e-mail :
Champs e-mail remplis : 38 224
Format valide : 37 590
Taux de validite e-mail : 37 590 / 38 224 = 98,34 %
Exemple code postal :
Champs CP remplis : 51 720
Format valide : 51 488
Taux de validite CP : 99,55 %
Des taux faibles trahissent en général deux origines : des imports non contrôlés depuis des systèmes tiers ou des formulaires web sans validation côté serveur. Les deux sont corrigeables, à condition d'être mesurés régulièrement.
KPI 4 : Taux de NPAI
Le seul indicateur recueilli après l'envoi – et c'est précisément ce qui en fait la valeur. La Poste, via le service Destineo MD, retourne les plis non distribuables. La répartition typique :
| Motif NPAI | Part habituelle | Ce que ça révèle |
|---|---|---|
| N'habite plus à l'adresse | 4 à 6 pour cent | Manque de fraîcheur |
| Destinataire décédé | 0,3 à 0,8 pour cent | Manque de fraîcheur, liste Robinson |
| Adresse incomplète/inconnue | 0,5 à 1,5 pour cent | Validité, exactitude |
| Destinataire inconnu | 0,3 à 0,8 pour cent | Mauvais rattachement adresse-personne |
NPAI total sur un mailing B2C français : couramment 5 à 9 pour cent. Au-delà de 10 pour cent, il est urgent d'agir. Une opération de 5 000 plis avec 11 pour cent de NPAI gaspille environ 142 EUR d'affranchissement et de production (à 0,256 EUR par pli en Destineo MD) sans générer la moindre réponse. Avant une opération de grande ampleur, mieux vaut faire un nettoyage du fichier adresses.
KPI 5 : Indice de fraîcheur
Les données vieillissent. En France, environ 3 millions de personnes déménagent chaque année, soit près de 5 pour cent de la population (sources INSEE). Une base d'adresses non actualisée depuis cinq ans contient statistiquement autour de 20 à 25 pour cent d'adresses obsolètes – davantage dans les zones urbaines à forte rotation.
L'indice de fraîcheur se calcule à partir de la date de dernière modification de la fiche :
Age de la fiche = Aujourd'hui - last_modified
Classes de fraicheur :
< 12 mois -> recente
12 a 24 mois -> acceptable
24 a 60 mois -> a verifier
> 60 mois -> critique
Indice de fraicheur = (fiches < 24 mois / nombre total) * 100
Une base avec un indice de 78 est nettement plus saine qu'une base à 41. Important : "actualisée" ne veut pas dire "corrigée". Une fiche touchée lors d'une opération de masse a une nouvelle date sans forcément avoir un contenu nouveau. Une bonne discipline distingue "dernier accès" et "dernière modification de contenu".
KPI 6 : Taux de cohérence
La cohérence est la dimension oubliée. Elle mesure si des contenus identiques sont saisis de la même façon. Exemples :
"Boulanger Pierre"
"Boulanger, Pierre"
"BOULANGER Pierre"
"P. Boulanger"
"Boulanger-Pierre"
-> Vraisemblablement la meme personne, mais cinq variantes.
La cohérence se chiffre en normalisant le champ (casse, caractères spéciaux, abréviations) et en mesurant combien de fiches conservent leur valeur d'origine :
Taux de coherence = (fiches sans difference apres normalisation / total) * 100
Exemple raison sociale :
52 184 fiches
identiques apres normalisation : 48 312
Taux de coherence raison sociale : 92,58 %
Un faible taux de cohérence est souvent l'avant-goût d'un problème de doublons : là où les variantes d'écriture coexistent, les duplicats cachés sont presque garantis.
KPI 7 : Taux de vérification postale (RNVP)
Cet indicateur est optionnel, mais très éclairant pour quiconque envoie plusieurs milliers de plis par an. Il mesure la part des adresses dont la rue, le numéro et la commune ont été confrontés au référentiel officiel (la RNVP, Restructuration, Normalisation, Validation Postale, basée sur le SNA – Service National de l'Adresse) et reconnus comme distribuables.
Taux de verification = (adresses verifiables / total) * 100
Valeurs realistes :
- Base B2C recente (< 2 ans) : 95 a 98 pour cent
- Base B2C mature (5 ans et +) : 86 a 93 pour cent
- Base B2B : 88 a 95 pour cent
- Tres anciens fonds (10 ans+) : 70 a 85 pour cent
Une certification RNVP ouvre droit aux tarifs Destineo MD de La Poste – à partir de 0,256 EUR par pli – contre 1,16 EUR pour un Ecopli classique. Sur 30 000 plis, cela représente plus de 27 000 EUR d'économie potentielle, conditionnée à la qualité des données.
Exemple chiffré : ce qu'une amélioration de 4 points rapporte vraiment
Une entreprise de VAD avec 60 000 adresses actives, quatre opérations par an, 35 000 plis par envoi en moyenne. Situation actuelle et cible :
| Indicateur | État actuel | Cible | Écart |
|---|---|---|---|
| Complétude des champs obligatoires | 94 % | 98 % | +4 pts |
| Taux de doublons (fuzzy) | 11 % | 4 % | -7 pts |
| Validité code postal | 96 % | 99,5 % | +3,5 pts |
| NPAI | 9 % | 5 % | -4 pts |
| Indice de fraîcheur | 58 % | 80 % | +22 pts |
Réduire le NPAI de 9 à 5 pour cent sur 35 000 plis à 0,33 EUR (Destineo MD avec sélection géographique) économise environ 462 EUR par opération – donc 1 848 EUR par an, simplement par moins de plis non distribués. Réduire le taux de doublons de 11 à 4 pour cent élimine environ 2 450 envois doublons par opération, soit 808 EUR supplémentaires. Total avant effets de taux de retour : autour de 2 656 EUR par an. Les effets positifs sur le taux de réponse et la valeur client à long terme s'ajoutent.
Le rapport trimestriel : ce tableau suffit
La qualité des données ne s'améliore pas par des analyses ponctuelles, mais par une mesure récurrente. Un simple rapport trimestriel suffit dans la plupart des organisations. Structure proposée :
| KPI | T1/2026 | T2/2026 | T3/2026 | T4/2026 | Cible | Tendance |
|---|---|---|---|---|---|---|
| Complétude champs obligatoires | 94,1 % | 95,8 % | 96,2 % | 96,9 % | 98 % | ↑ |
| Taux de doublons (fuzzy) | 11,2 % | 9,4 % | 7,1 % | 5,3 % | 4 % | ↓ |
| Validité code postal | 96,3 % | 96,9 % | 98,1 % | 98,4 % | 99,5 % | ↑ |
| NPAI sur mailing | 9,1 % | 8,4 % | 7,2 % | 6,5 % | 5 % | ↓ |
| Indice de fraîcheur (< 24 mois) | 58 % | 62 % | 68 % | 71 % | 80 % | ↑ |
| Cohérence raison sociale | 88 % | 91 % | 92 % | 93 % | 95 % | ↑ |
Trois règles pour ce rapport :
- Même logique de calcul sur tous les trimestres. Changer de méthode rend la tendance illisible. Documentez la formule et figez-la pendant au moins quatre trimestres.
- Six à huit KPI maximum. Au-delà, plus personne ne lit. Un tableau avec douze indicateurs finit à la corbeille.
- Un responsable par KPI. Qui fait évoluer la valeur ? Qui rend des comptes en cas d'écart à la cible ? Sans propriétaire, rien ne bouge.
Mise en œuvre pratique avec ListenFix
ListenFix est un outil de nettoyage et d'évaluation des fichiers adresses qui calcule les KPI décrits ci-dessus en une seule opération. Le logiciel analyse une liste importée, détecte les doublons via cinq algorithmes fuzzy paramétrables, contrôle les champs face aux référentiels postaux de 29 pays (dont la France) et produit après chaque passage un rapport avec les taux de complétude, de doublons et de validité.
Le traitement s'exécute en local sur la machine de l'utilisateur – les données adresses ne quittent pas le poste de travail. Cela compte particulièrement quand la mesure de KPI s'inscrit dans un audit RGPD et que les outils cloud externes posent un problème juridique. Les résultats permettent de constituer un rapport trimestriel qui met en évidence l'évolution sur plusieurs analyses consécutives.
D'un concept flou à une mesure concrète
La qualité des données n'est pas une intuition et pas un pourcentage unique. C'est un faisceau d'indicateurs – complétude, unicité, validité, fraîcheur, cohérence, NPAI – chacun avec son calcul, sa cible et son responsable. Mesurer ces valeurs une fois par trimestre et les consigner dans un tableau simple donne, au bout d'un an, à la fois une meilleure base de données et un argumentaire solide pour toute initiative future de qualité.
Trois étapes pour démarrer :
- Choisissez six KPI. Au minimum complétude, taux de doublons, validité, NPAI, fraîcheur et un indicateur de cohérence.
- Définissez la logique de calcul. Documentez-la sans prétention juridique, mais de sorte qu'un autre puisse la reproduire.
- Lancez la première mesure maintenant. Pas "quand le nouvel outil sera là". Une analyse Excel avec NB.SI suffit pour le premier trimestre.
Qui commence à mesurer sait, à la fin de l'année, où il en est. Qui s'en abstient enverra au printemps suivant à nouveau 9 pour cent à la corbeille – et s'en étonnera.
Télécharger ListenFix gratuitement sur listenfix.com.
Nettoyez vos adresses — essayez maintenant
ListenFix détecte nettement plus de doublons qu'Excel grâce au fuzzy matching. 100% hors ligne, conforme au RGPD.
Essayer gratuitement