SciELO - Scientific Electronic Library Online

 
vol.28 issue50Strength benefit of sawdust/wood ash amendment in cement stabilization of an expansive soilRepresentation and estimation of the power coefficient in wind energy conversion systems author indexsubject indexarticles search
Home Pagealphabetic serial listing  

Services on Demand

Journal

Article

Indicators

Related links

  • On index processCited by Google
  • Have no similar articlesSimilars in SciELO
  • On index processSimilars in Google

Share


Revista Facultad de Ingeniería

Print version ISSN 0121-1129

Abstract

TORRES-DOMINGUEZ, Omar et al. Detecção de anomalias em grandes volumes de dados. Rev. Fac. ing. [online]. 2019, vol.28, n.50, pp.62-76. ISSN 0121-1129.  https://doi.org/10.19053/01211129.v28.n50.2019.8793.

O desenvolvimento da era digital tem trazido como consequência um incremento considerável dos volumes de dados. Estes grandes volumes de dados têm sido chamados de big data já que excedem a capacidade de processamento de sistemas de bases de dados convencionais. Diversos setores consideram várias oportunidades e aplicações na detecção de anomalias em problemas de big data. Para realizar este tipo de análise pode resultar muito útil o emprego de técnicas de mineração de dados porque permitem extrair padrões e relações desde grandes quantidades de dados. O processamento e análise destes volumes de dados, necessitam de ferramentas capazes de processá-los como Apache Spark e Hadoop. Estas ferramentas não contam com algoritmos específicos para a detecção de anomalias. O objetivo do trabalho é apresentar um novo algoritmo para a detecção de anomalias baseado em vizinhança para problemas de big data. A partir de um estudo comparativo selecionou-se o algoritmo KNNW por seus resultados, com o fim de desenhar uma variante big data. A implementação do algoritmo big data realizou-se na ferramenta Apache Spark, utilizando o paradigma de programação paralela MapReduce. Posteriormente realizaram-se diferentes experimentos para analisar o comportamento do algoritmo com distintas configurações. Dentro dos experimentos compararam-se os tempos de execução e qualidade dos resultados entre a variante sequencial e a variante big data. A variante big data obteve melhores resultados com diferença significativa. Logrando que a variante big data, KNNW-Big Data, possa processar grandes volumes de dados.

Keywords : big data; detecção de anomalias; MapReduce; mineração de dados.

        · abstract in English | Spanish     · text in Spanish     · Spanish ( pdf )