“Supervised Learning” para limpieza de datos en las dimensiones de consistencia y completitud

Amézquita, Juan C; Eslava, Hermes J

doi:10.25100/iyc.v24i2.11361

Services on Demand

Journal

Article

Indicators

Cited by SciELO
Access statistics

Ingeniería y competitividad

Print version ISSN 0123-3033On-line version ISSN 2027-8284

Abstract

AMEZQUITA, Juan C and ESLAVA, Hermes J. “Supervised Learning” para limpieza de datos en las dimensiones de consistencia y completitud. Ing. compet. [online]. 2022, vol.24, n.2, e21011361. Epub May 26, 2022. ISSN 0123-3033. https://doi.org/10.25100/iyc.v24i2.11361.

La información se ha convertido en un activo para las compañías debido a que la mayoría de las decisiones estratégicas de los negocios están basadas en el análisis de los datos, sin embargo, no siempre se obtienen los mejores resultados en estos análisis debido a la baja calidad de la información. La calidad de la información tiene varias dimensiones de evaluación, lo cual hace compleja la tarea de lograr un nivel adecuado de calidad. Una de las principales actividades antes de proceder con cualquier tipo de análisis es el preprocesamiento de los datos. Esta actividad es una de las más demandantes en tiempo y no siempre se obtienen los niveles esperados de calidad o se cubren las dimensiones de evaluación de mayor impacto. Este trabajo propone el uso de machine learning como herramienta para realizar limpieza de datos en la dimensión de completitud y coherencia, su validación se hace sobre un conjunto de datos suministrado por una entidad estatal encargada de la protección de los derechos de los niños a nivel nacional. El trabajo de investigación inicia con la selección de las herramientas de procesamiento la información, el análisis descriptivo de los datos, la identificación puntual de los problemas a los cuales se aplicarán las técnicas de machine learning para mejorar la calidad de los datos, experimentación y evaluación de los diferentes modelos y finalmente la implementación del modelo de mejor desempeño. Dentro de los resultados de este trabajo se tiene una mejora en la dimensión de completitud disminuyendo en un 4.9% los datos nulos y en la dimensión de coherencia un 2.6% de los registros con contradicciones, validando de esta forma el uso de machine learning para la limpieza de datos.

Keywords : Calidad; datos; Machine learning; Completitud; Coherencia.

· abstract in English · text in English · English (

pdf )