Detecter les doublons : 7 methodes pour des donnees d'adresses propres

17 février 2026·9 min read·ListenFix

DoublonsDetection de doublonsQualite des donneesNettoyage d'adressesFuzzy Matching

Également disponible en:Deutsch English Español

Des doublons d'adresses sont identifies et fusionnes en un seul enregistrement propre

Chaque base de donnees d'adresses contient des doublons. Ce n'est pas une supposition, mais un constat qui se verifie dans les entreprises de toutes tailles. Les estimations du secteur indiquent que 8 a 15 pour cent des enregistrements d'adresses dans une base de donnees professionnelle typique sont des doublons. Lorsque des donnees provenant de sources multiples ont ete fusionnees, ce chiffre est souvent plus eleve.

Le probleme n'est pas l'existence des doublons – ils sont quasiment inevitables lorsque les donnees affluent de differents canaux au fil des annees. Le probleme, c'est lorsqu'ils passent inapercus. Chaque doublon non detecte signifie un envoi en double, des analyses faussees et, dans le pire des cas, un client agace de recevoir le meme courrier deux fois.

Cet article presente sept methodes pour detecter de maniere fiable les doublons dans vos donnees d'adresses, des outils simples aux techniques professionnelles.

1. Correspondance exacte – l'approche la plus simple

La methode la plus directe : deux enregistrements sont compares caractere par caractere. Si tous les champs concordent, il s'agit d'un doublon.

Enregistrement A : Jean Dupont | 12 rue de la Paix | 75001 Paris
Enregistrement B : Jean Dupont | 12 rue de la Paix | 75001 Paris
→ Correspondance exacte : doublon detecte

Avantage : Rapide, facile a mettre en oeuvre, pas de faux positifs.

Inconvenient : Ne detecte que les entrees identiques. Un seul espace supplementaire ou une abreviation differente suffit pour que le doublon passe entre les mailles. En pratique, cette methode ne trouve qu'environ 10 a 20 pour cent des doublons reels.

Utile pour un premier controle rapide, mais totalement insuffisante seule.

2. Comparaison par champs cles

Au lieu de comparer tous les champs, cette methode se concentre sur des champs cles selectionnes. Combinaisons courantes :

Combinaison de cles	Taux de detection	Risque de faux positifs
Nom + code postal	Moyen	Eleve (noms courants)
Nom + rue + numero	Eleve	Faible
Nom + prenom + code postal	Eleve	Faible
Nom + date de naissance	Tres eleve	Tres faible

La comparaison par champs cles est un compromis pragmatique. Dans Excel, elle se realise avec des colonnes auxiliaires concatenant les champs cles, puis en verifiant les doublons. Pour une methode pas a pas, consultez notre article Supprimer les doublons d'adresses dans Excel.

=SI(NB.SI(F:F;F2)>1;"Doublon possible";"")

ou F2 = Nom & CodePostal (concatenes)

Limitation : Les variantes orthographiques comme "Dupont" et "Du Pont" ne sont pas detectees. Il faut aussi decider en amont quels champs sont pertinents – et cette decision influence considerablement les resultats.

3. Methodes de comparaison phonetique

Les algorithmes phonetiques resolvent un probleme frequent : des noms qui se prononcent de la meme maniere mais s'ecrivent differemment. Les methodes les plus connues :

Soundex : Le classique americain. Convertit les noms en un code regroupant les noms similaires phonetiquement. "Dupont", "Du Pont" et "Dupond" recoivent le meme code.

Phonetique de Cologne (Koelner Phonetik) : La variante allemande de Soundex. Prend en compte les regles phonetiques allemandes – particulierement utile pour les noms germaniques.

Metaphone / Double Metaphone : Des evolutions de Soundex avec une meilleure precision, notamment pour les noms internationaux.

Exemple Soundex :
"Dupont"  → Code : D153
"Du Pont" → Code : D153
"Dupond"  → Code : D153
→ Les trois sont signales comme doublons potentiels

Les methodes phonetiques fonctionnent bien en complement de la comparaison par champs cles. Elles ameliorent significativement la detection des variantes de noms, mais produisent parfois des faux positifs avec les noms tres courts ou inhabituels.

4. Fuzzy Matching – la recherche approximative

Le Fuzzy Matching calcule le degre de similarite entre deux chaines de caracteres. Au lieu de "identique ou different", il fournit un pourcentage : a quel point deux entrees se ressemblent-elles ?

Les algorithmes les plus courants :

Distance de Levenshtein : Compte le nombre minimum de modifications (insertions, suppressions, remplacements) necessaires pour transformer une chaine en une autre. "Dupont" vers "Dupond" ne necessite qu'un seul changement – similarite elevee.

Similarite de Jaro-Winkler : Valorise en plus la concordance des caracteres initiaux. Particulierement efficace pour les noms de personnes, car les fautes de frappe sont plus rares en debut de mot.

Comparaison N-Gram : Decoupe les chaines en segments de longueur fixe et compare leur chevauchement.

Exemple Levenshtein :
"12 rue de la Paix" → "12 r. de la Paix"
Distance : 2 (ue → .)
Similarite : ~89%

Exemple Jaro-Winkler :
"Lefebvre" → "Lefèvre"
Similarite : ~95%
→ Forte probabilite d'un doublon

Le Fuzzy Matching est au coeur de toute detection professionnelle de doublons. Il detecte les fautes de frappe, les variantes orthographiques et les abreviations que les comparaisons exactes et phonetiques manquent.

5. Normalisation basee sur des regles

Avant toute comparaison, la normalisation met toutes les donnees dans un format uniforme. Cela elimine les pseudo-doublons causes uniquement par des differences de formatage :

Regles de normalisation courantes :

Avant	Apres	Regle
r., rue, Rue	rue	Standardiser les abreviations
Dr., Prof., M.	(supprime)	Separer les titres
DUPONT, Jean	Dupont, Jean	Standardiser la casse
01-23-45-67-89	0123456789	Supprimer les caracteres speciaux
" Jean Dupont "	"Jean Dupont"	Nettoyer les espaces

La normalisation seule ne trouve pas les doublons. Mais elle est le prerequis pour que toutes les autres methodes fonctionnent de maniere fiable. Sans normalisation, meme le meilleur moteur de Fuzzy Matching produit des erreurs parce qu'il confond des differences de format avec des differences de contenu.

Un exemple concret : sans normalisation, la comparaison de "Dr. Jean Dupont, 12 r. de la Paix" et "Jean Dupont, 12 rue de la Paix" pourrait donner une similarite de 65 pour cent. Apres normalisation – titre supprime, rue standardisee – la similarite depasse 95 pour cent.

6. Comparaison ponderee des champs

Tous les champs n'ont pas la meme importance pour la detection des doublons. Une comparaison ponderee tient compte des champs les plus informatifs :

Exemple de ponderation :
Nom :            30%
Prenom :         15%
Rue :            20%
Numero :         15%
Code postal :    15%
Ville :           5%
─────────────────
Total :         100%

La comparaison ponderee evite les erreurs de jugement typiques :

Sans ponderation : "Jean Dupont, 12 r. de la Paix, Paris" et "Jean Dupont, 8 av. des Champs, Paris" – meme nom, meme ville, donc 60% de similarite. Mais ce sont deux personnes differentes.

Avec ponderation : La difference de rue (20%) et de numero (15%) pese lourd. La similarite globale tombe a 50% – sous le seuil, donc pas de doublon. Correctement identifie.

7. Apprentissage automatique et detection assistee par IA

La derniere generation de detection de doublons utilise des modeles entraines qui apprennent a partir de donnees d'exemple. Un tel systeme est entraine avec des doublons confirmes et des non-doublons, puis reconnait des schemas que les systemes bases sur des regles ne voient pas.

Avantages par rapport aux methodes basees sur des regles :

Detecte des relations complexes (par ex. "Societe XY SARL" et "XY SAS" comme identiques)
S'adapte aux specificites d'un jeu de donnees
S'ameliore avec le volume de donnees croissant
Prend en compte le contexte : si le prenom et la date de naissance concordent, une adresse similaire suffit

Limitations :

Necessite des donnees d'entrainement (au moins quelques centaines de cas confirmes)
Moins transparent – la logique de decision est plus difficile a retracer
Souvent pas rentable pour les petits jeux de donnees

Pour les entreprises disposant de bases d'adresses volumineuses et regulierement mises a jour, la detection de doublons assistee par IA est l'option la plus performante. Pour les listes plus petites, les methodes 1 a 6 combinees donnent d'excellents resultats.

Quelle methode pour quel usage ?

Les sept methodes ne s'excluent pas mutuellement. Au contraire : les meilleurs resultats viennent de leur combinaison.

Scenario	Methodes recommandees	Taux de detection attendu
Verification rapide d'une petite liste	Exacte + Champs cles	30-40%
Nettoyage CRM annuel	Normalisation + Fuzzy Matching + Ponderation	70-85%
Fusion de sources multiples	Toutes les methodes combinees	85-95%
Deduplication continue dans le CRM	Normalisation + Fuzzy Matching + IA	90-98%

Un processus typique se deroule ainsi :

Normaliser tous les champs (Methode 5)
Comparaison par champs cles comme pre-filtre (Methode 2)
Fuzzy Matching sur les candidats (Methode 4)
Comparaison ponderee pour la decision finale (Methode 6)

Reproduire ce processus multi-etapes manuellement dans Excel est possible, mais extremement chronophage. Des outils professionnels comme ListenFix automatisent ces etapes et combinent normalisation, Fuzzy Matching et comparaison ponderee en un seul passage. Vous chargez votre fichier CSV ou Excel, lancez l'analyse et recevez en quelques secondes une liste nettoyee – avec un journal detaillant quels enregistrements ont ete identifies comme doublons et fusionnes. Pour en savoir plus sur les limites d'Excel en matiere de detection des doublons, consultez notre article Supprimer les doublons d'adresses : pourquoi Excel ne suffit pas.

Le cout des doublons non detectes

Les doublons ne sont pas un probleme de qualite abstrait – ils coutent de l'argent reel :

Couts directs : Avec 50 000 adresses et un taux de doublons de 12%, chaque publipostage genere environ 6 000 envois superflus. A 0,28 EUR par piece en Dialogpost, cela represente 1 680 EUR par envoi. Avec des publipostages mensuels, cela depasse 20 000 EUR par an.

Couts indirects : Taux de reponse fausses (parce que le meme destinataire est compte plusieurs fois), segmentation client erronee et opportunites de ventes croisees manquees parce que les informations associees sont reparties sur plusieurs enregistrements.

Couts de reputation : Les clients qui recoivent le meme courrier ou catalogue deux fois y voient un signe de manque de professionnalisme. Surtout pour les produits haut de gamme ou dans les relations B2B, une telle impression peut affecter une relation commerciale.

Investir dans une detection de doublons fiable est donc rapidement rentable – souvent des le prochain publipostage important.

Nettoyez vos adresses — essayez maintenant

ListenFix détecte nettement plus de doublons qu'Excel grâce au fuzzy matching. 100% hors ligne, conforme au RGPD.

Essayer gratuitement