Normalización de direcciones: checklist de 10 pasos para datos postales limpios

Una base de datos con 15.000 direcciones de clientes acumula, tras dos o tres años sin mantenimiento, decenas de variantes para la misma información. "C/ Gran Vía" convive con "Calle Gran Vía", "Gran Via" sin tilde y "Gv Gran Vía". Los códigos postales aparecen con y sin espacio, las abreviaturas se usan de forma inconsistente y los nombres de ciudad presentan grafías distintas.
Estas inconsistencias no son un problema estético. Cuando Correos procesa un envío masivo por Publicorreo (desde 0,22 EUR por unidad en lotes superiores a 500), las direcciones mal formateadas generan devoluciones. Cada devolución cuesta entre 0,50 y 1,20 EUR adicionales entre gastos de reenvío, gestión logística y material desperdiciado. En un mailing de 10.000 unidades con un 5 por ciento de direcciones inconsistentes, el sobrecoste ronda los 375 EUR solo en un envío.
Esta checklist recoge los 10 pasos necesarios para normalizar una base de direcciones postales de forma sistemática. Cada paso incluye criterios concretos para verificar que se ha completado correctamente.
Paso 1: Inventariar los formatos existentes
Antes de corregir nada, hay que saber qué variantes existen en la base de datos. Exportar las direcciones a CSV y buscar patrones:
Análisis de 15.000 registros – campo "dirección":
───────────────────────────────────────────────
Abreviatura "C/" 4.320 registros
Forma completa "Calle" 3.890 registros
Abreviatura "Cl." 210 registros
Sin tipo de vía 580 registros
"Avda." vs "Avenida" vs "Av." 1.100 registros
"Pza." vs "Plaza" vs "Pl." 340 registros
"Pº" vs "Paseo" vs "P." 290 registros
───────────────────────────────────────────────
Total con formato inconsistente: 6.410 (42,7%)
Casi la mitad de los registros tiene algún tipo de inconsistencia en el formato de la vía. Este inventario inicial permite definir las reglas de normalización con datos reales, no con suposiciones.
Criterio de verificación: existe un documento con todas las variantes detectadas y su frecuencia.
Paso 2: Definir un estándar de formato
España sigue la estructura de direcciones definida por Correos:
| Componente | Formato estándar | Ejemplo |
|---|---|---|
| Tipo de vía | Abreviatura oficial | C/, Av., Pza., Pº |
| Nombre de vía | Primera letra mayúscula | Gran Vía, Constitución |
| Número | Sin espacios antes | 28 |
| Piso/puerta | Separado con coma | 3º Izq. |
| Código postal | 5 dígitos sin espacio | 28001 |
| Ciudad | Nombre oficial del INE | Madrid, L'Hospitalet de Llobregat |
La clave es elegir UN formato y aplicarlo a toda la base. No importa si se elige "C/" o "Calle", lo que importa es la consistencia.
Criterio de verificación: las reglas de formato están documentadas y cubren tipo de vía, número, piso, código postal y ciudad.
Paso 3: Normalizar abreviaturas de vía
Este paso transforma todas las variantes de tipo de vía al formato estándar elegido en el paso 2.
Tabla de equivalencias habituales en España:
| Variantes encontradas | Forma normalizada |
|---|---|
| Calle, Cl., cl, calle | C/ |
| Avenida, Avda., Avd., avda | Av. |
| Plaza, Plza., Pza., plza | Pza. |
| Paseo, Pº, P., paseo | Pº |
| Carretera, Ctra., ctra | Ctra. |
| Camino, Cno., cno | Cno. |
| Ronda, Rda., rda | Rda. |
| Travesía, Tvsa., tvsa | Tvsa. |
En una base de 15.000 registros, esta normalización suele afectar entre 3.000 y 6.000 entradas. El proceso debe ser automático, no manual – revisar 6.000 registros a mano requiere unas 40 horas de trabajo a un ritmo de 150 registros por hora.
Criterio de verificación: al consultar la columna de dirección, solo aparecen las abreviaturas del formato estándar definido.
Paso 4: Corregir mayúsculas, tildes y caracteres especiales
Las direcciones españolas contienen tildes y caracteres que a menudo se pierden en importaciones de CSV o migraciones entre sistemas:
Antes de la normalización:
───────────────────────────
GARCIA RODRIGUEZ, ANTONIO → García Rodríguez, Antonio
C/ CONSTITUCION 14 → C/ Constitución, 14
avda. de la hispanidad → Av. de la Hispanidad
Pza SAN MARTÍN, 8 3ºB → Pza. San Martín, 8, 3º B
c/ maria de molina 22 1 izda → C/ María de Molina, 22, 1º Izda.
Después de la normalización:
───────────────────────────
García Rodríguez, Antonio – C/ Constitución, 14, 28001 Madrid
Martínez López, Carmen – Av. de la Hispanidad, 56, 08001 Barcelona
Fernández Ruiz, Pablo – Pza. San Martín, 8, 3º B, 46001 Valencia
Las reglas concretas: primera letra de cada palabra en mayúscula (excepto preposiciones "de", "del", "la", "las", "los"), tildes restauradas según diccionario de nombres de vía, eliminación de espacios dobles y caracteres no imprimibles.
Criterio de verificación: cero registros con dirección completamente en mayúsculas o completamente en minúsculas.
Paso 5: Validar y completar códigos postales
Los códigos postales españoles tienen 5 dígitos y siguen un patrón predecible: los dos primeros dígitos corresponden a la provincia (01–52). Esto permite detectar errores evidentes.
Comprobaciones obligatorias:
- Todos los códigos postales tienen exactamente 5 dígitos
- Los dos primeros dígitos están entre 01 y 52
- El código postal corresponde a la provincia de la ciudad indicada
- No hay códigos postales con formato extranjero (4 dígitos, letras)
- Los registros sin código postal están marcados para revisión manual
Validación de códigos postales – 15.000 registros:
───────────────────────────────────────────────────
Código postal válido y coherente: 14.200 (94,7%)
Código postal con formato incorrecto: 180 (1,2%)
– "2800" en lugar de "28001": 45
– "E-28001" (formato internacional): 28
– Campo vacío: 107
CP no coincide con ciudad/provincia: 320 (2,1%)
– Valencia con CP de Madrid: 12
– Barcelona con CP de Zaragoza: 8
– Resto: errores de transcripción: 300
Códigos postales inexistentes: 300 (2,0%)
───────────────────────────────────────────────────
Una base de datos de PLZ como la de GeoNames (abierta, gratuita) permite automatizar esta validación. ListenFix incluye validación de códigos postales para 29 países europeos sin necesidad de conexión a internet, ya que la base de datos está integrada localmente.
Criterio de verificación: cero códigos postales con menos o más de 5 dígitos; cero combinaciones CP-ciudad imposibles.
Paso 6: Estandarizar números, pisos y puertas
La parte numérica de las direcciones españolas es donde más caos se acumula:
| Variante encontrada | Forma normalizada |
|---|---|
| 3 izquierda, 3 izqda, 3 IZQ, 3-izq | 3º Izq. |
| 2 derecha, 2 dcha, 2 DCHA, 2-der | 2º Dcha. |
| bajo, BJ, bjo, B | Bajo |
| entresuelo, entlo, ENTL | Entlo. |
| 4 C, 4-c, cuarto C | 4º C |
| s/n, SN, sin numero, s.n. | S/N |
La separación entre número, piso y puerta debe seguir un patrón uniforme. El formato recomendado usa comas: "C/ Gran Vía, 28, 3º Izq."
Criterio de verificación: un solo formato para "izquierda", "derecha", "sin número" y los indicadores de piso en toda la base.
Paso 7: Eliminar duplicados que la normalización revela
La normalización expone duplicados que antes eran invisibles. Dos registros que parecían distintos resultan ser el mismo cliente:
Antes de normalizar (parecen distintos):
Registro A: Antonio García – Calle Gran Vía 28 3 izq – 28013 MADRID
Registro B: A. García – C/ Gran Via, 28, 3º Izq. – 28013 Madrid
Después de normalizar (idénticos):
Registro A: Antonio García – C/ Gran Vía, 28, 3º Izq. – 28013 Madrid
Registro B: A. García – C/ Gran Vía, 28, 3º Izq. – 28013 Madrid
→ Fuzzy matching con umbral 85%: coincidencia del 91%
→ Acción: fusionar registros, conservar el más completo
Este paso suele revelar entre un 3 y un 8 por ciento de duplicados adicionales que no aparecen con una búsqueda de duplicados exactos. En una base de 15.000 registros, eso son entre 450 y 1.200 contactos duplicados que se eliminan solo después de normalizar.
Para un envío por Publicorreo a 0,22 EUR la unidad: eliminar 800 duplicados ahorra 176 EUR por campaña. Con cuatro campañas al año, son 704 EUR de ahorro directo.
Herramientas como ListenFix utilizan cinco algoritmos de fuzzy matching – Levenshtein, Partial Ratio, Token Sort, Token Set y coincidencia fonética – que detectan estas variantes automáticamente. La detección de duplicados en direcciones es más fiable cuando se ejecuta después de normalizar, no antes.
Criterio de verificación: se ha ejecutado una búsqueda de duplicados post-normalización y los duplicados detectados están fusionados o marcados.
Paso 8: Verificar direcciones contra fuentes externas
Una dirección puede estar perfectamente formateada y aun así no existir. "C/ Constitución, 999, 28001 Madrid" tiene formato correcto pero el número 999 probablemente no existe en esa calle.
Niveles de verificación disponibles:
| Nivel | Qué comprueba | Coste |
|---|---|---|
| Formato | Estructura correcta (tipo vía, número, CP) | Gratuito (regex) |
| CP-Ciudad | El código postal corresponde a la ciudad | Gratuito (base GeoNames) |
| Existencia de calle | La calle existe en ese municipio | API de Catastro (gratuita) |
| Número exacto | El portal existe en esa calle | API de Catastro o Correos |
Para mailings masivos, el nivel CP-Ciudad suele ser suficiente para eliminar el 80 por ciento de los errores de dirección. La verificación de portal exacto es necesaria solo para envíos certificados o de alto valor.
Criterio de verificación: todos los registros han pasado al menos la validación de formato y CP-Ciudad.
Paso 9: Documentar las reglas y automatizar
Las reglas de normalización definidas en los pasos 2 a 6 deben quedar documentadas para que cualquier importación futura siga los mismos criterios. Sin documentación, la base vuelve a degradarse con cada nueva carga de datos.
Checklist de documentación:
- Tabla de abreviaturas oficiales con todas las equivalencias
- Reglas de mayúsculas y tildes
- Formato de número, piso y puerta
- Lista de códigos postales válidos por provincia
- Proceso de importación: qué normalización se aplica automáticamente
- Frecuencia de re-normalización (recomendado: antes de cada campaña postal)
- Responsable del mantenimiento de datos
La automatización es clave para que la normalización no dependa de la memoria de una persona. Herramientas de fuzzy matching para direcciones permiten ejecutar la deduplicación post-normalización de forma periódica sin intervención manual.
Criterio de verificación: existe un documento interno con las reglas y un proceso automatizado o semi-automatizado de normalización.
Paso 10: Medir el resultado y programar la siguiente revisión
La normalización no es un proyecto que se hace una vez. Las direcciones se degradan a un ritmo constante: en España, más de 500.000 personas cambian de domicilio cada año (INE). En una base de 15.000 clientes, eso significa que entre 1.200 y 1.800 direcciones pueden quedar obsoletas en 12 meses.
Métricas para comparar antes y después:
Resultado de la normalización – 15.000 registros:
───────────────────────────────────────────────────
Antes Después Mejora
Formatos inconsistentes: 6.410 0 –100%
CP inválidos: 800 12 –98,5%
Duplicados detectados: 620 1.380* +122%
Registros completos: 11.200 14.680 +31%
───────────────────────────────────────────────────
* Post-normalización: 760 duplicados adicionales revelados
Ahorro estimado por campaña (10.000 envíos Publicorreo):
Envíos duplicados eliminados: 760 × 0,22 EUR = 167,20 EUR
Devoluciones evitadas: 380 × 0,85 EUR = 323,00 EUR
Ahorro total por campaña: 490,20 EUR
Ahorro anual (4 campañas): 1.960,80 EUR
Programar la siguiente revisión: para bases de datos con actualizaciones frecuentes, cada trimestre. Para bases más estáticas, cada semestre o antes de cada campaña postal importante.
Criterio de verificación: existe un informe con las métricas antes/después y una fecha programada para la próxima revisión.
Checklist completa de normalización de direcciones
Para uso rápido, aquí están los 10 pasos en formato de lista de verificación:
- Paso 1 – Inventario de formatos existentes completado
- Paso 2 – Estándar de formato definido y documentado
- Paso 3 – Abreviaturas de vía normalizadas
- Paso 4 – Mayúsculas, tildes y caracteres corregidos
- Paso 5 – Códigos postales validados y completados
- Paso 6 – Números, pisos y puertas estandarizados
- Paso 7 – Duplicados post-normalización eliminados
- Paso 8 – Direcciones verificadas contra fuentes externas
- Paso 9 – Reglas documentadas y proceso automatizado
- Paso 10 – Métricas medidas y próxima revisión programada
Descargar ListenFix gratis y ejecutar la normalización de forma automática: los cinco algoritmos de matching detectan variantes que una búsqueda manual no encontraría, y la validación de códigos postales para 29 países europeos funciona sin conexión a internet.
Limpia tus direcciones — pruébalo ahora
ListenFix detecta significativamente más duplicados que Excel gracias al fuzzy matching. 100% sin conexión, compatible con RGPD.
Probar gratis