Deduplicación de direcciones: cómo encontrar contactos duplicados

Toda base de datos de direcciones crece con el tiempo. Nuevos contactos llegan desde la tienda online, ferias comerciales, importaciones del CRM de un socio comercial. Tras dos años, una base de 15.000 contactos contiene típicamente entre 500 y 1.200 duplicados que ningún filtro estándar detecta. El motivo: los duplicados casi nunca son idénticos carácter por carácter.
"Carlos García, C/ Gran Vía 28" y "C. García López, Calle Gran Vía 28" son el mismo contacto. Excel no lo reconoce, una consulta SQL con igualdad exacta tampoco. El resultado: mailings duplicados, clientes molestos, presupuesto postal desperdiciado. La deduplicación de direcciones resuelve este problema, pero solo si va más allá de la comparación exacta de cadenas.
Por qué la comparación exacta falla con direcciones postales
Una comparación exacta verifica si dos cadenas de texto son idénticas letra por letra. Para códigos de producto o referencias internas funciona. Para direcciones postales no, porque la misma dirección se puede escribir de decenas de formas diferentes.
Contacto 1: Dña. María Rodríguez | Av. de la Constitución 24 | 41001 | Sevilla
Contacto 2: Maria Rodriguez | Avda. Constitución 24 | 41001 | Sevilla
Contacto 3: M. Rodríguez Fernández | Av. Constitución 24 | 41001 | Sevilla
Comparación exacta: 0 duplicados detectados
Fuzzy Matching (85%): Contacto 1 + 2 detectados (92% de similitud)
Las diferencias son habituales: tratamiento presente o ausente, tilde faltante ("Rodríguez" vs. "Rodriguez"), abreviatura ("Av." vs. "Avda." vs. "Avenida"), segundo apellido añadido. Cada variación basta para que un algoritmo básico pase por alto el duplicado.
Cinco métodos de deduplicación comparados
La elección del algoritmo determina cuántos duplicados se detectan y cuántos falsos positivos se generan.
| Método | Principio | Punto fuerte | Punto débil |
|---|---|---|---|
| Distancia de Levenshtein | Cuenta las modificaciones de caracteres necesarias | Errores tipográficos ("Garciá" → "García") | Falla con inversiones ("Juan Pedro" vs. "Pedro Juan") |
| Jaro-Winkler | Pondera más los caracteres iniciales | Cadenas cortas, apellidos | Menos preciso en direcciones largas |
| Matching por tokens | Compara palabra por palabra, sin importar el orden | Elementos invertidos | No detecta abreviaturas |
| Matching fonético (Soundex) | Compara pronunciación, no escritura | "Rodríguez" = "Rodriguez" = "Rodriges" | Solo útil para nombres, no para calles |
| Matching combinado | Varios algoritmos en paralelo, puntuación ponderada | Mayor tasa de detección | Configuración más compleja |
Un algoritmo aislado detecta entre el 40 y el 70% de los duplicados reales. La combinación de tres a cinco métodos con puntuación ponderada supera el 90% de detección.
Más sobre los algoritmos: Fuzzy Matching para direcciones
Cuánto cuestan realmente las direcciones duplicadas
Para un mailing postal con Correos, los costes por duplicados se calculan con precisión:
Supuestos:
- Base de direcciones: 15.000 contactos
- Tasa de duplicados: 5% (típica tras 2+ años sin depuración)
- Número de duplicados: 750 registros duplicados
- Tarifa Publicorreo: 0,22 EUR/envío (envío masivo > 500 unidades)
- Impresión: 0,15 EUR/envío (estándar, 4 páginas)
- Manipulado y ensobrado: 0,04 EUR/envío
Coste por campaña debido a duplicados:
750 × (0,22 + 0,15 + 0,04) = 750 × 0,41 = 307,50 EUR
Con 4 campañas al año:
4 × 307,50 = 1.230,00 EUR en costes evitables
A esto se suman costes indirectos. Un cliente que recibe dos veces la misma carta percibe a la empresa como desorganizada. En B2B, un duplicado en una campaña de Publicorreo puede dañar una relación comercial. Y cuando dos comerciales llaman al mismo prospecto sin saberlo, la imagen de todo el equipo se resiente.
Para envíos por Carta ordinaria (0,75 EUR), el impacto por duplicado es aún mayor. Con 750 duplicados en Carta ordinaria, la pérdida solo en franqueo alcanza 562,50 EUR por campaña.
Proceso de deduplicación en cinco pasos
Una deduplicación fiable sigue un orden preciso. Saltarse un paso produce demasiados falsos positivos o duplicados no detectados.
1. Normalización
Antes de cualquier comparación, uniformizar todas las direcciones:
- "C/" → "Calle", "Av." → "Avenida", "Pza." → "Plaza"
- Tildes: "García" y "Garcia" reducidos a la misma forma
- Tratamientos eliminados ("D.", "Dña.", "Dr.")
- Espacios múltiples, guiones y apóstrofos limpiados
- Mayúsculas/minúsculas armonizadas
2. Blocking
Con 15.000 direcciones, el número de pares posibles supera los 112 millones. El blocking reduce esta cifra comparando solo direcciones que comparten el mismo código postal o la misma inicial del apellido. El tiempo de cálculo baja de horas a segundos.
3. Matching
Los algoritmos de comparación se ejecutan en paralelo y calculan una puntuación de similitud ponderada para cada par candidato.
4. Decisión
Los pares que superan el umbral definido (típicamente 85 a 90%) se marcan como duplicados. La franja entre 70 y 85% contiene casos que deben revisarse manualmente.
5. Fusión (Merge)
El paso final determina qué registro se conserva. En la práctica: mantener el más completo y recuperar la información que falta del duplicado.
ANTES:
Contacto A: Carlos García | C/ Gran Vía 28 | 28013 Madrid | Tel: —
Contacto B: C. García López | Calle Gran Vía 28| 28013 Madrid | Tel: 91 123 45 67
DESPUÉS (fusionado):
Carlos García López | Calle Gran Vía 28 | 28013 Madrid | Tel: 91 123 45 67
Errores frecuentes en la deduplicación
Incluso con los algoritmos correctos, ciertos errores distorsionan los resultados:
Umbral demasiado bajo: Por debajo del 80%, personas diferentes con nombres similares se confunden. Dos "José Martínez" en la misma ciudad no son automáticamente la misma persona.
Sin ponderación por componente: El código postal y el número de calle son indicadores más fiables que el apellido. Un algoritmo que pondera todos los campos por igual genera errores innecesarios.
Operación puntual en lugar de proceso: La deduplicación no es un proyecto único. Llegan datos nuevos cada día. Sin depuración periódica (mínimo trimestral), la tasa de duplicados vuelve a subir.
Sin gestión de hogares: "María García" y "Carlos García" en la misma dirección no son un duplicado, sino un hogar. Un algoritmo ingenuo elimina uno de los dos contactos.
Deduplicación y RGPD: tratamiento local vs. nube
En España, el cumplimiento del RGPD influye directamente en la elección de herramienta. Enviar un fichero de direcciones a un servidor de terceros implica un contrato de encargado de tratamiento (artículo 28 RGPD), verificar la ubicación de los servidores y, en sectores como sanidad o jurídico, cumplir requisitos adicionales de la AEPD.
| Criterio | Solución en la nube | Software local |
|---|---|---|
| Conformidad RGPD | Contrato de encargado obligatorio | Los datos no salen de su equipo |
| Puesta en marcha | Inmediata | Instalación necesaria |
| Coste | Mensual, según volumen | Licencia fija |
| Control | Depende del proveedor | Total |
| Datos sensibles | Solo con garantías contractuales | Utilizable sin trámites adicionales |
ListenFix funciona completamente en local en su ordenador. El software combina cinco algoritmos de matching en paralelo, detecta duplicados difusos pese a errores tipográficos, abreviaturas y variantes de tildes, y no requiere subir datos a ningún servidor. Descargar ListenFix gratis
Cuándo merece la pena invertir en deduplicación
Regla sencilla: a partir de 1.000 direcciones y al menos un mailing postal al año, una herramienta profesional de deduplicación resulta rentable. El ahorro en la primera campaña de Publicorreo suele superar el coste del software.
Para empresas que envían correo publicitario de forma regular, la deduplicación debería ser un paso sistemático antes de cada envío. La depuración de un fichero de 10.000 direcciones lleva pocos minutos con la herramienta adecuada. El retorno de inversión es positivo desde el primer mailing depurado.
Para profundizar: Cómo reconocer duplicados en sus ficheros
Limpia tus direcciones — pruébalo ahora
ListenFix detecta significativamente más duplicados que Excel gracias al fuzzy matching. 100% sin conexión, compatible con RGPD.
Probar gratis