← Todos los artículos

Deduplicacion de direcciones: detectar y eliminar contactos duplicados

También disponible en:DeutschFrançais
Registros de direcciones duplicados son detectados y fusionados en un unico registro limpio

Toda base de datos de direcciones contiene duplicados. No es una suposicion, es una realidad que se confirma en empresas de todos los tamanos. Las estimaciones del sector situan la tasa de duplicados entre el 8 y el 15 por ciento en una base de datos comercial tipica. Cuando se han fusionado ficheros de distintas fuentes – tras una adquisicion, una migracion de CRM o la importacion de datos de ferias – el porcentaje sube facilmente al 20 o 30 por ciento.

Las consecuencias son directas y cuantificables. Imaginemos un mailing postal de 35.000 direcciones con un 12 por ciento de duplicados. Eso supone 4.200 envios innecesarios. Con la tarifa de Publicorreo de Correos (desde 0,22 EUR por envio), son 924 EUR desperdiciados en una sola campana. Si realiza cuatro campanas al ano, la cifra supera los 3.600 EUR, sin contar los costes de impresion y manipulado.

La deduplicacion de direcciones resuelve este problema de forma sistematica. Pero no todos los enfoques funcionan igual, y las diferencias de rendimiento son considerables.

Que diferencia la deduplicacion de direcciones de un simple borrado de duplicados

Excel ofrece una funcion "Quitar duplicados". Compara filas caracter por caracter y elimina las entradas identicas. Para listas de productos o codigos de articulo, es suficiente. Para direcciones, no.

El problema: las direcciones no son codigos estructurados. La misma persona puede aparecer de docenas de formas diferentes en un fichero.

Registro 1: D. José García López     | C/ Gran Vía 45, 3º B  | 28013 Madrid
Registro 2: García López, José       | Gran Vía 45            | 28013 Madrid
Registro 3: Jose Garcia              | Calle Gran Via 45 3B   | 28013 Madrid

Los tres registros probablemente designan a la misma persona. Una comparacion exacta no detecta ninguno de estos duplicados. La verdadera deduplicacion de direcciones funciona de otro modo: normaliza las escrituras, compara foneticamente, calcula grados de similitud y tiene en cuenta la estructura especifica de las direcciones postales.

Las cinco etapas de una deduplicacion profesional

Una deduplicacion fiable sigue un proceso en cinco etapas. Cada una incrementa significativamente la tasa de deteccion.

Etapa 1: Normalizacion

Antes de cualquier comparacion, los datos deben llevarse a un formato homogeneo:

Solo con la normalizacion, la tasa de deteccion mejora entre un 15 y un 25 por ciento respecto a una comparacion en bruto.

Etapa 2: Comparacion fonetica

Los algoritmos foneticos resuelven un problema habitual: apellidos que suenan igual pero se escriben de forma diferente.

"González"  → Codigo fonetico: G524
"Gonzales"  → Codigo fonetico: G524
"Gonsalez"  → Codigo fonetico: G524
→ Los tres se identifican como posibles duplicados

Para los apellidos espanoles, los algoritmos adaptados al castellano ofrecen mejores resultados que el Soundex americano original. Los apellidos compuestos (García López, Martínez de la Torre) y las particulas requieren un tratamiento especifico.

Etapa 3: Fuzzy Matching

El fuzzy matching calcula un porcentaje de similitud entre dos cadenas de texto. En lugar de responder "igual o diferente", proporciona una puntuacion: 95 por ciento de similitud, 82 por ciento, 60 por ciento.

AlgoritmoFortalezaUso tipico
Distancia de LevenshteinDetecta errores de tecleo (caracteres insertados, eliminados)Nombres de calle, nombres de ciudad
Jaro-WinklerValora mas la coincidencia al inicio de palabraApellidos, nombres de empresa
Comparacion N-gramasRobusto ante inversiones de palabrasLineas de direccion completas
Soundex/MetaphoneComparacion basada en la pronunciacionNombres con ortografia variable

El umbral de activacion es decisivo. Demasiado bajo (70 por ciento), obtendra muchos falsos positivos. Demasiado alto (98 por ciento), dejara pasar duplicados evidentes. Un umbral entre el 85 y el 90 por ciento ofrece generalmente el mejor equilibrio.

Etapa 4: Ponderacion por campo

No todos los campos tienen la misma importancia. Una deduplicacion profesional pondera cada coincidencia:

Una coincidencia en "apellidos + calle + codigo postal" con un score de similitud alto es casi con toda seguridad un duplicado, incluso si el nombre difiere ligeramente.

Etapa 5: Fusion de registros

Los duplicados detectados deben fusionarse. La pregunta clave: cual conservar? La mejor practica es un merge que construya el registro mas completo a partir de todas las fuentes:

Fuente A: José García López  | C/ Gran Vía 45  | 28013 Madrid | Tel: -
Fuente B: J. García L.       | Gran Via 45 3B  | 28013 Madrid | Tel: 91 000 00 00

Resultado: José García López | Calle Gran Vía 45, 3º B | 28013 Madrid | Tel: 91 000 00 00

Cuanto cuesta no deduplicar

Los numeros se calculan facilmente para cada fichero. Este es un escenario realista para una PYME que realiza mailings postales con regularidad:

IndicadorValor
Tamano del fichero de direcciones50.000 registros
Tasa de duplicados (tipica)12 por ciento
Duplicados detectados6.000
Campanas de mailing postal al ano4
Tarifa por envio (Publicorreo, Correos)0,22 EUR
Franqueo desperdiciado al ano5.280 EUR
Impresion + manipulado por pieza0,10 EUR
Produccion desperdiciada al ano2.400 EUR
Ahorro total al ano7.680 EUR

A esto hay que sumar los costes indirectos: reclamaciones de destinatarios que reciben la misma carta varias veces, tasas de respuesta falsificadas por conteos dobles, y el tiempo invertido en correcciones manuales posteriores.

Para los envios en Carta ordinaria (0,75 EUR por pieza), los importes desperdiciados son aun mayores. La deduplicacion es tanto mas rentable cuanto mayor sea la tarifa unitaria.

Por que Excel no es suficiente para la deduplicacion de direcciones

Muchas empresas intentan limpiar sus duplicados con las herramientas integradas. Funciona hasta cierto punto, pero los limites aparecen pronto:

Excel: La funcion "Quitar duplicados" solo encuentra coincidencias exactas. Las construcciones con BUSCARV para comparaciones aproximadas son fragiles y extremadamente lentas a partir de 10.000 filas. Las comparaciones foneticas son imposibles sin macros VBA.

Access: Ofrece mas posibilidades gracias a las consultas SQL, pero carece de fuzzy matching integrado. Las soluciones caseras requieren un esfuerzo de desarrollo considerable y son dificiles de mantener.

Revision manual: Viable para listas pequenas (menos de 500 registros). Por encima, no es realista. A razon de 2 segundos por comparacion, 50.000 registros con 10 candidatos cada uno suponen mas de 275 horas de trabajo.

Deduplicacion automatica con ListenFix

ListenFix combina las cinco etapas de la deduplicacion profesional en una aplicacion de escritorio que funciona sin conexion a la nube. Usted importa su fichero de direcciones (CSV, Excel o exportacion CRM), lanza el analisis y obtiene una lista limpia en segundos.

El software utiliza cinco algoritmos de fuzzy matching en paralelo, detecta duplicados de hogar (misma direccion, personas diferentes), valida codigos postales de 29 paises y normaliza automaticamente los nombres de calle. Todo el procesamiento se realiza localmente en su equipo, lo que significa que sus datos de direcciones nunca salen de su empresa – un punto esencial para el cumplimiento del RGPD.

Por donde empezar: las preguntas que debe hacerse

Antes de elegir una herramienta, aclare estos cinco puntos:

  1. Cual es el tamano de su fichero? Por debajo de 500 direcciones, una revision manual es viable. A partir de 1.000 direcciones, una herramienta especializada se vuelve imprescindible.

  2. Con que frecuencia importa datos? Una limpieza unica no basta. Nuevos duplicados aparecen con cada importacion. Planifique una deduplicacion trimestral como minimo.

  3. De que campos dispone? Cuantos mas campos tenga (nombre, direccion, telefono, email, fecha de nacimiento), mas precisa sera la deteccion. Campos como la fecha de nacimiento o un numero de cliente reducen considerablemente los falsos positivos.

  4. Cual es su formato de exportacion? Asegurese de que el resultado limpio pueda reimportarse en su CRM o software de mailing postal. Los formatos habituales son CSV y Excel.

  5. Quien valida los resultados? El borrado completamente automatico es arriesgado. Las herramientas profesionales marcan los duplicados y proponen una fusion que usted valida. Este paso de control debe formar parte integral de su proceso.

Descargar ListenFix gratis y probar la deduplicacion con su propio fichero es la forma mas rapida de medir su tasa real de duplicados.

Limpia tus direcciones — pruébalo ahora

ListenFix detecta significativamente más duplicados que Excel gracias al fuzzy matching. 100% sin conexión, compatible con RGPD.

Probar gratis