AbstractsComputer Science

Contributions on BI systems based on big data and predictive analytics integrated with an etl process

by Antonio Manuel Serrano




Institution: Universidade de Brasília
Department:
Year: 2014
Keywords: Previsão; Armazenamento de dados
Record ID: 1077485
Full text PDF: http://hdl.handle.net/10482/18208


Abstract

Dissertação (mestrado)— Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Elétrica, 2014. Esta dissertação apresenta o estudo, aplicação e análise dos conceitos envolvidos num processo de Business Intelligence (BI) em três áreas principais: extração e carga de dados, análise preditiva, e armazenamento de dados usando Big Data. Primeiro, no processo de extração e carga de dados, as diferentes soluções adotadas no sistema de BI do Ministério de Planejamento, Orçamento e Gestão têm sido analisadas, e uma nova solução tem sido proposta para resolver as limitações detectadas nas soluções anteriores a cumprir com os novos requerimentos do sistema. Esses requerimentos incluem a capacidade de trabalhar com um maior volume de dados e a necessidade de um melhor monitoramento do processo de restituição ao erário nos casos em que um servidor público deve devolver o salário recebido indevidamente. Na parte de análise preditiva, diversos algoritmos de predição foram estudados e comparados usando os dados do MP. As conclusões deste estudo tem sido úteis para propor um sistema automático de detecção de fraudes e uma metodologia chamada de Extração, Transformação, Predição Adaptativa e Carga (ETAPL) que inclui predição adaptativa com seleção e configuração automática do algoritmo dentro de um processo tradicional de Extração, Transformação e Carga (ETL). Por último, as novas tecnologias de Big Data têm sido estudadas e comparadas com as atuais, de forma a avaliar a viabilidade destas tecnologias como alternativa futura no contexto do MP. _________________________________________________________________________ ABSTRACT This dissertation presents the study, application and analysis of the concepts involved on the process of a Business Intelligence (BI) solution in three main areas: data extraction and loading, predictive analytics and storage systems using Big Data. First, in the BI data loading, the different previous solutions into the BI system of the Brazilian Ministry of Planning, Budget and Management (MP) has been analysed, and a new solution has been proposed for solving the limitations of the previous ones and for fulfilling the new requirements appeared on the project. Those requirements include the necessity of managing a bigger volume of data or the need for a better monitoring of the reimbursement process that is executed when a public servant has to refund the erroneously received money.In predictive analytics, several prediction algorithms have been analysed and compared using the data of the MP. The results has been useful for proposing an automatic fraud detection system and a new methodology called Extract, Transform, Adaptive Prediction and Load (ETAPL) that includes predictive analytics into a traditional Extract, Transform and Load (ETL) process. Finally, the new Big Data technologies have been studied and tested as future alternative for the current storage systems at the MP.