Dirty Data un escollo para Big Data

Aunque Big Data y sus estrategias están hoy en boca de todos, lo cierto es que se viene trabajando con el concepto subyacente de la gestión y el análisis de grandes volúmenes de datos desde hace muchos años. Sin embargo, ahora hay una complejidad añadida derivada de las tres primeras “V”, de las cinco que sustentan el Big Data: volumen, velocidad y variedad, veracidad y valor.

Fruto del entorno interconectado en el que vivimos, las empresas están adoptando estas nuevas herramientas y estrategias de procesamiento de grandes volúmenes de datos para ajustar su oferta a las demandas de sus clientes o localizar y explotar nuevas oportunidades de negocio. Sin embargo, también se enfrentan al gran reto del Dirty Data: bases de datos con información incorrecta, incompleta, inexacta, desactualizada o con datos duplicados.

Así, las organizaciones se encuentran con que una segmentación de clientes basada en datos no depurados, puede llevar a asignar indicadores erróneos a un contacto, lo que puede limitar su validez, o invalidarlo por completo, afectando al desarrollo de su actividad.

La veracidad de los datos, cuestión de confianza

En este contexto, vale la pena examinar el origen de las posibles inexactitudes en los datos. Para simplificar, consideremos sólo el ámbito de los datos de cliente. En primer lugar, habría que mencionar los datos erróneos consecuencia de equivocaciones no intencionadas por parte de los usuarios a la hora de introducirlos. En este caso, nada que objetar. Un fallo lo tiene cualquiera.

Otro posible origen estaría en la introducción intencionada de datos incorrectos, con fines ilegales (para acceder de manera anónima a información o recursos) o con propósitos delictivos (vía suplantación de identidad). Interesante, pero fuera de nuestro alcance.

Hay, también, otras razones para la existencia de datos sucios, de “Dirty Data”, tales como la intención de clientes y potenciales de ocultar su identidad con el fin de evitar ser identificados por la empresa y huir del posible acoso de una campaña, o ser incluidos, o excluidos, en determinados segmentos objetivo.

Y uno más, que suele pasar bastante desapercibido: la propia obsolescencia de los datos. Hay calles que cambian de nombre, códigos postales que se modifican, municipios que se fusionan y otros que se segregan…

Y así, ¿cómo avanzar con el Big Data?

Existen soluciones muy eficientes que pueden ofrecer importantes ahorros en tiempos de procesamiento y costes de campañas. Son soluciones basadas en criterios de normalización y detección de duplicidades que permiten la validación de datos (nombre, dirección, NIF, teléfono, cuenta corriente…) y la detección de anomalías para su posterior tratamiento. En entornos Big Data son imprescindibles para validar los datos antes de analizarlos.

En cuanto a la verificación, además de la interacción directa con el cliente, disponemos también de soluciones específicas, siempre con los límites que la legislación impone.

Como vías de avance en esta búsqueda de validación de datos, y partiendo siempre del uso de las mencionadas soluciones de normalización y deduplicación, hay que tomar en consideración la analítica avanzada de clientes y la inteligencia artificial, con la emergencia de la algoritmia especializada en este ámbito.

En conclusión, y volviendo al inicio, lo importante, la única forma de generar Valor, la quinta “V” del Big Data, es garantizar la cuarta, Veracidad. Y para ello, debemos tratar de evitar que las tres primeras, Volumen, Velocidad y Variedad, nos abrumen y nos sirvan de coartada para no entregar aquéllas.

La mejor forma de frenar la proliferación del “Dirty Data” es apostar por el “Data Quality”, para evitar que el “Big Data” se acabe convirtiendo en un “Big Problem”.

Mario Peñas, Key Account Manager de DEYDE