SciELO - Scientific Electronic Library Online

 
vol.28 número50Beneficio de la resistencia de la enmienda al aserrín/ceniza de madera en la estabilización de cemento de un suelo expansivoRepresentación y estimación del coeficiente de potencia en sistemas de conversión de energía eólica índice de autoresíndice de materiabúsqueda de artículos
Home Pagelista alfabética de revistas  

Servicios Personalizados

Revista

Articulo

Indicadores

Links relacionados

  • En proceso de indezaciónCitado por Google
  • No hay articulos similaresSimilares en SciELO
  • En proceso de indezaciónSimilares en Google

Compartir


Revista Facultad de Ingeniería

versión impresa ISSN 0121-1129

Resumen

TORRES-DOMINGUEZ, Omar et al. Detecção de anomalias em grandes volumes de dados. Rev. Fac. ing. [online]. 2019, vol.28, n.50, pp.62-76. ISSN 0121-1129.  https://doi.org/10.19053/01211129.v28.n50.2019.8793.

O desenvolvimento da era digital tem trazido como consequência um incremento considerável dos volumes de dados. Estes grandes volumes de dados têm sido chamados de big data já que excedem a capacidade de processamento de sistemas de bases de dados convencionais. Diversos setores consideram várias oportunidades e aplicações na detecção de anomalias em problemas de big data. Para realizar este tipo de análise pode resultar muito útil o emprego de técnicas de mineração de dados porque permitem extrair padrões e relações desde grandes quantidades de dados. O processamento e análise destes volumes de dados, necessitam de ferramentas capazes de processá-los como Apache Spark e Hadoop. Estas ferramentas não contam com algoritmos específicos para a detecção de anomalias. O objetivo do trabalho é apresentar um novo algoritmo para a detecção de anomalias baseado em vizinhança para problemas de big data. A partir de um estudo comparativo selecionou-se o algoritmo KNNW por seus resultados, com o fim de desenhar uma variante big data. A implementação do algoritmo big data realizou-se na ferramenta Apache Spark, utilizando o paradigma de programação paralela MapReduce. Posteriormente realizaram-se diferentes experimentos para analisar o comportamento do algoritmo com distintas configurações. Dentro dos experimentos compararam-se os tempos de execução e qualidade dos resultados entre a variante sequencial e a variante big data. A variante big data obteve melhores resultados com diferença significativa. Logrando que a variante big data, KNNW-Big Data, possa processar grandes volumes de dados.

Palabras clave : big data; detecção de anomalias; MapReduce; mineração de dados.

        · resumen en Español | Inglés     · texto en Español     · Español ( pdf )