← Tous les articles

Dédoublonnage d'adresses : trouver les doublons que personne ne voit

Également disponible en:DeutschEspañol
Dédoublonnage d'adresses : des contacts en double sont identifiés et fusionnés dans un fichier

Chaque fichier d'adresses grossit au fil des mois. Nouveaux contacts issus du site web, fiches collectées en salon professionnel, import depuis le CRM d'un partenaire. Au bout de deux ans, une base de 15 000 contacts contient typiquement entre 500 et 1 000 doublons que personne ne remarque. La raison : ces doublons ne sont jamais parfaitement identiques.

"Jean Dupont, 12 rue de la Paix" et "J. Dupont, 12 r. de la Paix" désignent la même personne. Un tri dans Excel ne les repère pas, un simple dédoublonnage par identité exacte non plus. Résultat : courriers en double, clients agacés, budget postal gaspillé. Le dédoublonnage d'adresses résout ce problème, à condition d'aller au-delà de la comparaison caractère par caractère.

Pourquoi la comparaison exacte échoue sur les adresses françaises

Une comparaison exacte vérifie si deux chaînes de caractères sont identiques lettre par lettre. Pour des références produits ou des codes postaux, cela fonctionne. Pour des adresses postales, non, car la même adresse peut s'écrire de dizaines de façons différentes.

Contact 1: Mme Marie-Claire Lefèvre  | 24 bd Haussmann      | 75009 | Paris
Contact 2: Marie Claire Lefevre      | 24 boulevard Haussmann| 75009 | Paris
Contact 3: M.C. Lefèvre-Martin       | 24 bd Haussmann       | 75009 | Paris

Comparaison exacte :     0 doublon détecté
Fuzzy Matching (85%) :   Contact 1 + 2 détectés (91% de similarité)

Les différences sont classiques : civilité présente ou absente, trait d'union dans le prénom composé, accent manquant ("Lefèvre" vs "Lefevre"), abréviation ("bd" vs "boulevard"). Chaque écart suffit à tromper un algorithme de comparaison simple.

Cinq méthodes de dédoublonnage comparées

Le choix de l'algorithme détermine le nombre de doublons détectés et le taux de faux positifs.

MéthodePrincipePoint fortPoint faible
Distance de LevenshteinCompte les modifications de caractères nécessairesFautes de frappe ("Dupond" → "Dupont")Échoue sur les inversions ("Jean Pierre" vs "Pierre Jean")
Jaro-WinklerPondère davantage les premiers caractèresNoms courts, patronymesMoins précis sur les longues adresses
Matching par tokensCompare mot par mot, indépendamment de l'ordreÉléments inversésNe détecte pas les abréviations
Matching phonétique (Soundex/Phonex)Compare la prononciation, pas l'orthographe"Lefèvre" = "Lefevre" = "Lefebvre"Pertinent pour les noms uniquement
Matching combinéPlusieurs algorithmes en parallèle, score pondéréMeilleur taux de détectionConfiguration plus exigeante

Un algorithme unique détecte entre 40 et 70 % des doublons réels selon la qualité du fichier. La combinaison de trois à cinq méthodes avec scoring pondéré dépasse 90 % de détection.

Pour aller plus loin sur les algorithmes : Fuzzy Matching pour les adresses

Ce que coûtent réellement les adresses en double

Pour un publipostage via La Poste, les coûts des doublons se calculent avec précision :

Hypothèses :
- Base d'adresses :          15 000 contacts
- Taux de doublons :         5 % (typique après 2+ ans sans nettoyage)
- Nombre de doublons :       750 entrées en double
- Tarif Destineo MD :        0,256 EUR/pli (envoi groupé > 400 plis)
- Impression :               0,16 EUR/pli (standard, 4 pages)
- Mise sous pli :            0,04 EUR/pli

Coût par campagne lié aux doublons :
750 × (0,256 + 0,16 + 0,04) = 750 × 0,456 = 342,00 EUR

Sur 4 campagnes par an :
4 × 342 = 1 368,00 EUR de coûts évitables

À cela s'ajoutent les coûts indirects. Un client qui reçoit deux fois le même courrier perçoit l'entreprise comme désorganisée. En B2B, un doublon dans une campagne Destineo peut compromettre une relation commerciale. Et quand deux commerciaux appellent le même prospect sans le savoir, c'est l'image de toute l'équipe qui en souffre.

Pour les envois en Lettre verte (1,29 EUR) ou Ecopli (1,16 EUR), l'impact par doublon est encore plus élevé. Sur 750 doublons en Lettre verte, la perte atteint 967,50 EUR par campagne rien qu'en affranchissement.

Processus de dédoublonnage en cinq étapes

Un dédoublonnage fiable suit un ordre précis. Sauter une étape produit soit trop de faux positifs, soit des doublons non détectés.

1. Normalisation

Avant toute comparaison, uniformiser toutes les adresses :

2. Blocking

Sur 15 000 adresses, le nombre de paires possibles dépasse 112 millions. Le blocking réduit cette masse en ne comparant que les adresses partageant le même code postal ou la même initiale du nom de famille. Le temps de calcul passe de plusieurs heures à quelques secondes.

3. Matching

Les algorithmes de comparaison tournent en parallèle et calculent un score de similarité pondéré pour chaque paire candidate.

4. Décision

Les paires dépassant le seuil défini (typiquement 85 à 90 %) sont marquées comme doublons. La zone entre 70 et 85 % contient des cas à vérifier manuellement.

5. Fusion (Merge)

L'étape finale détermine quel enregistrement conserver. En pratique : garder le plus complet et récupérer les informations manquantes depuis le doublon.

AVANT :
Contact A: Jean Dupont    | 8 rue Victor Hugo  | 69002 Lyon | Tél : —
Contact B: J. Dupont      | 8 r. Victor Hugo   | 69002 Lyon | Tél : 04 72 12 34 56

APRÈS (fusionné) :
Jean Dupont | 8 rue Victor Hugo | 69002 Lyon | Tél : 04 72 12 34 56

Pièges courants du dédoublonnage

Même avec les bons algorithmes, certaines erreurs faussent les résultats :

Seuil trop bas : En dessous de 80 %, des personnes différentes portant un nom similaire sont confondues. Deux "Pierre Martin" dans la même ville ne sont pas forcément la même personne.

Pas de pondération par composant : Le code postal et le numéro de rue sont des indicateurs plus fiables que le nom de famille. Un algorithme qui pèse tous les champs de manière égale génère des erreurs inutiles.

Opération ponctuelle au lieu d'un processus : Le dédoublonnage n'est pas un projet unique. De nouvelles données arrivent chaque jour. Sans nettoyage régulier (au minimum trimestriel), le taux de doublons remonte inexorablement.

Pas de gestion des foyers : "Marie Dupont" et "Jean Dupont" à la même adresse ne sont pas un doublon mais un foyer. Un algorithme naïf supprime l'un des deux contacts.

Dédoublonnage et CNIL : traitement local vs cloud

En France, la conformité CNIL pèse lourd dans le choix d'un outil de dédoublonnage. Envoyer un fichier d'adresses vers un serveur tiers implique un contrat de sous-traitance (article 28 du RGPD), une vérification du lieu d'hébergement et, pour certains secteurs (santé, juridique), des contraintes supplémentaires.

CritèreSolution cloudLogiciel local
Conformité CNIL/RGPDContrat de sous-traitance obligatoireDonnées restent sur votre poste
Mise en routeImmédiateInstallation requise
CoûtMensuel, selon le volumeLicence fixe
ContrôleDépend du prestataireTotal
Données sensiblesUniquement avec garanties contractuellesUtilisable sans formalités supplémentaires

ListenFix fonctionne entièrement en local sur votre ordinateur. Le logiciel combine cinq algorithmes de matching en parallèle, détecte les doublons flous malgré les fautes de frappe, les abréviations et les variantes d'accents, et ne nécessite aucun envoi de données vers le cloud. Télécharger ListenFix gratuitement

À partir de quand investir dans le dédoublonnage

Règle simple : à partir de 1 000 adresses et d'au moins un publipostage par an, un outil de dédoublonnage professionnel est rentable. L'économie réalisée sur la première campagne Destineo dépasse généralement le coût du logiciel.

Pour les entreprises qui envoient régulièrement du courrier publicitaire, le dédoublonnage devrait être une étape systématique avant chaque envoi. Le nettoyage d'un fichier de 10 000 adresses prend quelques minutes avec le bon outil. Le retour sur investissement est positif dès le premier mailing nettoyé.

Pour approfondir : Comment reconnaître les doublons dans vos fichiers

Nettoyez vos adresses — essayez maintenant

ListenFix détecte nettement plus de doublons qu'Excel grâce au fuzzy matching. 100% hors ligne, conforme au RGPD.

Essayer gratuitement