Análise comparativa de _data_ _warehouses_ com SGBDs _open-source_

Análise comparativa de data warehouses com SGBDs open-source

Autor(a)
Pereira, Gabriel da Silva.
<gabriel.pereira1@arapiraca.ufal.br>
Ano de publicação
2024
Data da defesa
04/10/2024
Curso/Outros
Ciência da Computação
Número de folhas
46
Tipo
TCC - Trabalho de Conclusão de Curso
Local
UFAL, Campus Arapiraca, Unidade Educacional ARAPIRACA
Resumo

Com o crescimento considerável da digitalização de produtos e serviços em diversos setores da economia, a necessidade de processar grandes volumes de dados tornou-se indispensável para as organizações que buscam se manter competitivas. Paralelamente, a crescente adoção da cultura Data-Driven nos núcleos corporativos gerou uma série de desafios complexos no processo de modelagem, armazenamento e análise de dados. Nesse cenário dinâmico e desafiador, técnicas de Data Warehouse emergiram como alternativas robustas aos sistemas Online Transaction Processing tradicionais ao proporcionar uma visão analítica aprofundada, organizada em fatos e dimensões, o que resulta em uma significativa melhoria na performance das consultas – objetivo principal dos sistemas Online Analytical Processing. Dessa forma, o presente trabalho tem como objetivo avaliar a viabilidade do uso de diferentes tipos de bancos de dados, tanto modelos relacionais quanto não relacionais (e suas variadas orientações, como orientados a documentos e colunares), a fim de determinar qual deles alcança o melhor desempenho nos cenários específicos propostos, principalmente no que tange ao tempo de consulta, um dos principais focos nos sistemas OLAP. Para alcançar esse objetivo, serão selecionadas e analisadas diversas bases de dados representativas, sobre as quais serão construídos Data Warehouses. Essas bases de dados serão armazenadas no PostgreSQL, no Mongo DB e no Citus. Esses ambientes serão utilizados para avaliar, de maneira detalhada, o processo de modelagem, a eficiência das operações e o desempenho geral dos sistemas em diferentes contextos de uso. Evidenciou-se que o PostgreSQL obteve um desempenho superior na maioria dos cenários, mostrando-se uma alternativa interessante para Data Warehousing.

Abstract

With the substantial growth of digitalization of products and services in various sectors of the economy, the need to process large volumes of data has become indispensable for organizations seeking to remain competitive. At the same time, the increasing adoption of the Data-Driven culture in corporate centers has generated a series of complex challenges in the process of modeling, storing, and analyzing data. In this dynamic and challenging scenario, Data Warehouse techniques have emerged as robust alternatives to traditional Online Transaction Processing systems by providing an in-depth analytical view, organized into facts and dimensions, which results in a significant improvement in query performance – the main objective of Online Analytical Processing systems. Thus, this work aims to evaluate the feasibility of using different types of databases, both relational and non-relational models (and their various orientations, such as document-oriented and columnar), in order to determine which one achieves the best performance in the specific scenarios proposed, especially with regard to query time, one of the main focuses in OLAP systems. To achieve this goal, several representative databases will be selected and analyzed, on which Data Warehouses will be built. These databases will be stored in PostgreSQL, Mongo DB and Citus. These environments will be used to evaluate, in detail, the modeling process, the efficiency of operations and the overall performance of the systems in different contexts of use. It was evident that PostgreSQL obtained superior performance in most scenarios, proving to be an interesting alternative for Data Warehousing.

Orientador(a)
Dr. Cavalcante, Rodolfo Carneiro.
Banca Examinadora
Dr. Oliveira, Elthon Allex da Silva.
Dr. Brito, Patrick Henrique da Silva.
Palavras-chave
Big data.
Data warehouse.
Sistema de Gerenciamento de Banco de Dados (SGBD).
Banco de dados.
Áreas do Conhecimento/Localização
Coleção Propriedade Intelectual (CPI) - BSCA.
Categorias CNPQ
1.00.00.00-3 Ciências exatas e da terra.
Visualizações
52
Observações


Não foi possível exibir o PDF