Services on Demand
Journal
Article
Indicators
- Cited by SciELO
- Access statistics
Related links
- Cited by Google
- Similars in SciELO
- Similars in Google
Share
Revista Facultad de Ingeniería
Print version ISSN 0121-1129
Abstract
TORRES-DOMINGUEZ, Omar et al. Detecção de anomalias em grandes volumes de dados. Rev. Fac. ing. [online]. 2019, vol.28, n.50, pp.62-76. ISSN 0121-1129. https://doi.org/10.19053/01211129.v28.n50.2019.8793.
O desenvolvimento da era digital tem trazido como consequência um incremento considerável dos volumes de dados. Estes grandes volumes de dados têm sido chamados de big data já que excedem a capacidade de processamento de sistemas de bases de dados convencionais. Diversos setores consideram várias oportunidades e aplicações na detecção de anomalias em problemas de big data. Para realizar este tipo de análise pode resultar muito útil o emprego de técnicas de mineração de dados porque permitem extrair padrões e relações desde grandes quantidades de dados. O processamento e análise destes volumes de dados, necessitam de ferramentas capazes de processá-los como Apache Spark e Hadoop. Estas ferramentas não contam com algoritmos específicos para a detecção de anomalias. O objetivo do trabalho é apresentar um novo algoritmo para a detecção de anomalias baseado em vizinhança para problemas de big data. A partir de um estudo comparativo selecionou-se o algoritmo KNNW por seus resultados, com o fim de desenhar uma variante big data. A implementação do algoritmo big data realizou-se na ferramenta Apache Spark, utilizando o paradigma de programação paralela MapReduce. Posteriormente realizaram-se diferentes experimentos para analisar o comportamento do algoritmo com distintas configurações. Dentro dos experimentos compararam-se os tempos de execução e qualidade dos resultados entre a variante sequencial e a variante big data. A variante big data obteve melhores resultados com diferença significativa. Logrando que a variante big data, KNNW-Big Data, possa processar grandes volumes de dados.
Keywords : big data; detecção de anomalias; MapReduce; mineração de dados.