“Supervised Learning” para limpieza de datos en las dimensiones de consistencia y completitud

Amézquita, Juan C; Eslava, Hermes J

doi:10.25100/iyc.v24i2.11361

Serviços Personalizados

Journal

Artigo

Indicadores

Citado por SciELO
Acessos

Links relacionados

Citado por Google
Similares em SciELO
Similares em Google

Permalink

Ingeniería y competitividad

versão impressa ISSN 0123-3033versão On-line ISSN 2027-8284

Resumo

AMEZQUITA, Juan C e ESLAVA, Hermes J. “Supervised Learning” para limpieza de datos en las dimensiones de consistencia y completitud. Ing. compet. [online]. 2022, vol.24, n.2, e21011361. Epub 26-Maio-2022. ISSN 0123-3033. https://doi.org/10.25100/iyc.v24i2.11361.

La información se ha convertido en un activo para las compañías debido a que la mayoría de las decisiones estratégicas de los negocios están basadas en el análisis de los datos, sin embargo, no siempre se obtienen los mejores resultados en estos análisis debido a la baja calidad de la información. La calidad de la información tiene varias dimensiones de evaluación, lo cual hace compleja la tarea de lograr un nivel adecuado de calidad. Una de las principales actividades antes de proceder con cualquier tipo de análisis es el preprocesamiento de los datos. Esta actividad es una de las más demandantes en tiempo y no siempre se obtienen los niveles esperados de calidad o se cubren las dimensiones de evaluación de mayor impacto. Este trabajo propone el uso de machine learning como herramienta para realizar limpieza de datos en la dimensión de completitud y coherencia, su validación se hace sobre un conjunto de datos suministrado por una entidad estatal encargada de la protección de los derechos de los niños a nivel nacional. El trabajo de investigación inicia con la selección de las herramientas de procesamiento la información, el análisis descriptivo de los datos, la identificación puntual de los problemas a los cuales se aplicarán las técnicas de machine learning para mejorar la calidad de los datos, experimentación y evaluación de los diferentes modelos y finalmente la implementación del modelo de mejor desempeño. Dentro de los resultados de este trabajo se tiene una mejora en la dimensión de completitud disminuyendo en un 4.9% los datos nulos y en la dimensión de coherencia un 2.6% de los registros con contradicciones, validando de esta forma el uso de machine learning para la limpieza de datos.

Palavras-chave : Calidad; datos; Machine learning; Completitud; Coherencia.

· resumo em Inglês · texto em Inglês · Inglês (

pdf )