Detección de anomalías en grandes volúmenes de datos

Torres-Domínguez, Omar; Sabater-Fernández, Samuel; Bravo-Ilisatigui, Lisandra; Martin-Rodríguez, Diana; García-Borroto, Milton

doi:10.19053/01211129.v28.n50.2019.8793

Servicios Personalizados

Revista

Articulo

Indicadores

Citado por SciELO
Accesos

Links relacionados

Citado por Google
Similares en SciELO
Similares en Google

Permalink

Revista Facultad de Ingeniería

versión impresa ISSN 0121-1129

Resumen

TORRES-DOMINGUEZ, Omar et al. Detección de anomalías en grandes volúmenes de datos. Rev. Fac. ing. [online]. 2019, vol.28, n.50, pp.62-76. ISSN 0121-1129. https://doi.org/10.19053/01211129.v28.n50.2019.8793.

El desarrollo de la era digital ha traído como consecuencia un incremento considerable de los volúmenes de datos. A estos grandes volúmenes de datos se les ha denominado big data ya que exceden la capacidad de procesamiento de sistemas de bases de datos convencionales. Diversos sectores consideran varias oportunidades y aplicaciones en la detección de anomalías en problemas de big data. Para realizar este tipo de análisis puede resultar muy útil el empleo de técnicas de minería de datos porque permiten extraer patrones y relaciones desde grandes cantidades de datos. El procesamiento y análisis de estos volúmenes de datos, necesitan de herramientas capaces de procesarlos como Apache Spark y Hadoop. Estas herramientas no cuentan con algoritmos específicos para la detección de anomalías. El objetivo del trabajo es presentar un nuevo algoritmo para la detección de anomalías basado en vecindad para de problemas big data. A partir de un estudio comparativo se seleccionó el algoritmo KNNW por sus resultados, con el fin de diseñar una variante big data. La implementación del algoritmo big data se realizó en la herramienta Apache Spark, utilizando el paradigma de programación paralela MapReduce. Posteriormente se realizaron diferentes experimentos para analizar el comportamiento del algoritmo con distintas configuraciones. Dentro de los experimentos se compararon los tiempos de ejecución y calidad de los resultados entre la variante secuencial y la variante big data. La variante big data obtuvo mejores resultados con diferencia significativa. Logrando que la variante big data, KNNW-Big Data, pueda procesar grandes volúmenes de datos.

Palabras clave : big data; detección de anomalías; MapReduce; minería de datos.

· resumen en Inglés | Portugués · texto en Español · Español (

pdf )