Detecção de anomalias em grandes volumes de dados

Torres-Domínguez, Omar; Sabater-Fernández, Samuel; Bravo-Ilisatigui, Lisandra; Martin-Rodríguez, Diana; García-Borroto, Milton

doi:10.19053/01211129.v28.n50.2019.8793

Services on Demand

Journal

Article

Indicators

Cited by SciELO
Access statistics

Revista Facultad de Ingeniería

Print version ISSN 0121-1129

Abstract

TORRES-DOMINGUEZ, Omar et al. Detecção de anomalias em grandes volumes de dados. Rev. Fac. ing. [online]. 2019, vol.28, n.50, pp.62-76. ISSN 0121-1129. https://doi.org/10.19053/01211129.v28.n50.2019.8793.

O desenvolvimento da era digital tem trazido como consequência um incremento considerável dos volumes de dados. Estes grandes volumes de dados têm sido chamados de big data já que excedem a capacidade de processamento de sistemas de bases de dados convencionais. Diversos setores consideram várias oportunidades e aplicações na detecção de anomalias em problemas de big data. Para realizar este tipo de análise pode resultar muito útil o emprego de técnicas de mineração de dados porque permitem extrair padrões e relações desde grandes quantidades de dados. O processamento e análise destes volumes de dados, necessitam de ferramentas capazes de processá-los como Apache Spark e Hadoop. Estas ferramentas não contam com algoritmos específicos para a detecção de anomalias. O objetivo do trabalho é apresentar um novo algoritmo para a detecção de anomalias baseado em vizinhança para problemas de big data. A partir de um estudo comparativo selecionou-se o algoritmo KNNW por seus resultados, com o fim de desenhar uma variante big data. A implementação do algoritmo big data realizou-se na ferramenta Apache Spark, utilizando o paradigma de programação paralela MapReduce. Posteriormente realizaram-se diferentes experimentos para analisar o comportamento do algoritmo com distintas configurações. Dentro dos experimentos compararam-se os tempos de execução e qualidade dos resultados entre a variante sequencial e a variante big data. A variante big data obteve melhores resultados com diferença significativa. Logrando que a variante big data, KNNW-Big Data, possa processar grandes volumes de dados.

Keywords : big data; detecção de anomalias; MapReduce; mineração de dados.

· abstract in English | Spanish · text in Spanish · Spanish (

pdf )