← Todos los artículos

Deduplicación de direcciones: cómo encontrar contactos duplicados

También disponible en:DeutschFrançais
Deduplicación de direcciones: contactos duplicados detectados y fusionados en una base de datos

Toda base de datos de direcciones crece con el tiempo. Nuevos contactos llegan desde la tienda online, ferias comerciales, importaciones del CRM de un socio comercial. Tras dos años, una base de 15.000 contactos contiene típicamente entre 500 y 1.200 duplicados que ningún filtro estándar detecta. El motivo: los duplicados casi nunca son idénticos carácter por carácter.

"Carlos García, C/ Gran Vía 28" y "C. García López, Calle Gran Vía 28" son el mismo contacto. Excel no lo reconoce, una consulta SQL con igualdad exacta tampoco. El resultado: mailings duplicados, clientes molestos, presupuesto postal desperdiciado. La deduplicación de direcciones resuelve este problema, pero solo si va más allá de la comparación exacta de cadenas.

Por qué la comparación exacta falla con direcciones postales

Una comparación exacta verifica si dos cadenas de texto son idénticas letra por letra. Para códigos de producto o referencias internas funciona. Para direcciones postales no, porque la misma dirección se puede escribir de decenas de formas diferentes.

Contacto 1: Dña. María Rodríguez   | Av. de la Constitución 24 | 41001 | Sevilla
Contacto 2: Maria Rodriguez         | Avda. Constitución 24     | 41001 | Sevilla
Contacto 3: M. Rodríguez Fernández  | Av. Constitución 24       | 41001 | Sevilla

Comparación exacta:      0 duplicados detectados
Fuzzy Matching (85%):    Contacto 1 + 2 detectados (92% de similitud)

Las diferencias son habituales: tratamiento presente o ausente, tilde faltante ("Rodríguez" vs. "Rodriguez"), abreviatura ("Av." vs. "Avda." vs. "Avenida"), segundo apellido añadido. Cada variación basta para que un algoritmo básico pase por alto el duplicado.

Cinco métodos de deduplicación comparados

La elección del algoritmo determina cuántos duplicados se detectan y cuántos falsos positivos se generan.

MétodoPrincipioPunto fuertePunto débil
Distancia de LevenshteinCuenta las modificaciones de caracteres necesariasErrores tipográficos ("Garciá" → "García")Falla con inversiones ("Juan Pedro" vs. "Pedro Juan")
Jaro-WinklerPondera más los caracteres inicialesCadenas cortas, apellidosMenos preciso en direcciones largas
Matching por tokensCompara palabra por palabra, sin importar el ordenElementos invertidosNo detecta abreviaturas
Matching fonético (Soundex)Compara pronunciación, no escritura"Rodríguez" = "Rodriguez" = "Rodriges"Solo útil para nombres, no para calles
Matching combinadoVarios algoritmos en paralelo, puntuación ponderadaMayor tasa de detecciónConfiguración más compleja

Un algoritmo aislado detecta entre el 40 y el 70% de los duplicados reales. La combinación de tres a cinco métodos con puntuación ponderada supera el 90% de detección.

Más sobre los algoritmos: Fuzzy Matching para direcciones

Cuánto cuestan realmente las direcciones duplicadas

Para un mailing postal con Correos, los costes por duplicados se calculan con precisión:

Supuestos:
- Base de direcciones:       15.000 contactos
- Tasa de duplicados:        5% (típica tras 2+ años sin depuración)
- Número de duplicados:      750 registros duplicados
- Tarifa Publicorreo:        0,22 EUR/envío (envío masivo > 500 unidades)
- Impresión:                 0,15 EUR/envío (estándar, 4 páginas)
- Manipulado y ensobrado:    0,04 EUR/envío

Coste por campaña debido a duplicados:
750 × (0,22 + 0,15 + 0,04) = 750 × 0,41 = 307,50 EUR

Con 4 campañas al año:
4 × 307,50 = 1.230,00 EUR en costes evitables

A esto se suman costes indirectos. Un cliente que recibe dos veces la misma carta percibe a la empresa como desorganizada. En B2B, un duplicado en una campaña de Publicorreo puede dañar una relación comercial. Y cuando dos comerciales llaman al mismo prospecto sin saberlo, la imagen de todo el equipo se resiente.

Para envíos por Carta ordinaria (0,75 EUR), el impacto por duplicado es aún mayor. Con 750 duplicados en Carta ordinaria, la pérdida solo en franqueo alcanza 562,50 EUR por campaña.

Proceso de deduplicación en cinco pasos

Una deduplicación fiable sigue un orden preciso. Saltarse un paso produce demasiados falsos positivos o duplicados no detectados.

1. Normalización

Antes de cualquier comparación, uniformizar todas las direcciones:

2. Blocking

Con 15.000 direcciones, el número de pares posibles supera los 112 millones. El blocking reduce esta cifra comparando solo direcciones que comparten el mismo código postal o la misma inicial del apellido. El tiempo de cálculo baja de horas a segundos.

3. Matching

Los algoritmos de comparación se ejecutan en paralelo y calculan una puntuación de similitud ponderada para cada par candidato.

4. Decisión

Los pares que superan el umbral definido (típicamente 85 a 90%) se marcan como duplicados. La franja entre 70 y 85% contiene casos que deben revisarse manualmente.

5. Fusión (Merge)

El paso final determina qué registro se conserva. En la práctica: mantener el más completo y recuperar la información que falta del duplicado.

ANTES:
Contacto A: Carlos García    | C/ Gran Vía 28   | 28013 Madrid | Tel: —
Contacto B: C. García López  | Calle Gran Vía 28| 28013 Madrid | Tel: 91 123 45 67

DESPUÉS (fusionado):
Carlos García López | Calle Gran Vía 28 | 28013 Madrid | Tel: 91 123 45 67

Errores frecuentes en la deduplicación

Incluso con los algoritmos correctos, ciertos errores distorsionan los resultados:

Umbral demasiado bajo: Por debajo del 80%, personas diferentes con nombres similares se confunden. Dos "José Martínez" en la misma ciudad no son automáticamente la misma persona.

Sin ponderación por componente: El código postal y el número de calle son indicadores más fiables que el apellido. Un algoritmo que pondera todos los campos por igual genera errores innecesarios.

Operación puntual en lugar de proceso: La deduplicación no es un proyecto único. Llegan datos nuevos cada día. Sin depuración periódica (mínimo trimestral), la tasa de duplicados vuelve a subir.

Sin gestión de hogares: "María García" y "Carlos García" en la misma dirección no son un duplicado, sino un hogar. Un algoritmo ingenuo elimina uno de los dos contactos.

Deduplicación y RGPD: tratamiento local vs. nube

En España, el cumplimiento del RGPD influye directamente en la elección de herramienta. Enviar un fichero de direcciones a un servidor de terceros implica un contrato de encargado de tratamiento (artículo 28 RGPD), verificar la ubicación de los servidores y, en sectores como sanidad o jurídico, cumplir requisitos adicionales de la AEPD.

CriterioSolución en la nubeSoftware local
Conformidad RGPDContrato de encargado obligatorioLos datos no salen de su equipo
Puesta en marchaInmediataInstalación necesaria
CosteMensual, según volumenLicencia fija
ControlDepende del proveedorTotal
Datos sensiblesSolo con garantías contractualesUtilizable sin trámites adicionales

ListenFix funciona completamente en local en su ordenador. El software combina cinco algoritmos de matching en paralelo, detecta duplicados difusos pese a errores tipográficos, abreviaturas y variantes de tildes, y no requiere subir datos a ningún servidor. Descargar ListenFix gratis

Cuándo merece la pena invertir en deduplicación

Regla sencilla: a partir de 1.000 direcciones y al menos un mailing postal al año, una herramienta profesional de deduplicación resulta rentable. El ahorro en la primera campaña de Publicorreo suele superar el coste del software.

Para empresas que envían correo publicitario de forma regular, la deduplicación debería ser un paso sistemático antes de cada envío. La depuración de un fichero de 10.000 direcciones lleva pocos minutos con la herramienta adecuada. El retorno de inversión es positivo desde el primer mailing depurado.

Para profundizar: Cómo reconocer duplicados en sus ficheros

Limpia tus direcciones — pruébalo ahora

ListenFix detecta significativamente más duplicados que Excel gracias al fuzzy matching. 100% sin conexión, compatible con RGPD.

Probar gratis