Uso de tecnologias open source para análise de grandes volumes de dados: uma arquitetura Data Lakehouse

Uso de tecnologias open source para análise de grandes volumes de dados: uma arquitetura Data Lakehouse

Autor(a)
Silva, Vanessa Fernandes da.
<vanessa.fernandes@arapiraca.ufal.br>
Ano de publicação
2025
Data da defesa
21/11/2025
Curso/Outros
Ciência da Computação
Número de folhas
44
Tipo
TCC - Trabalho de Conclusão de Curso
Local
UFAL, Campus Arapiraca, Unidade Educacional ARAPIRACA
Resumo

Este trabalho apresenta uma abordagem prática para análise de grandes volumes de dados utilizando tecnologias open source em uma arquitetura Data Lakehouse. O estudo tem como objetivo demonstrar a viabilidade da integração entre o Apache Spark e o Apache Iceberg na consolidação e análise de dados contábeis, fiscais e de departamento pessoal, simulando o funcionamento de um escritório de contabilidade de médio porte. Para isso, foram gerados dados sintéticos representando sistemas reais e desenvolvidos pipelines de ingestão, transformação, agregação e armazenamento versionado. Os resultados foram disponibilizados em dashboards interativos no Looker Studio, possibilitando a visualização de indicadores de desempenho (KPIs) em tempo real. Os experimentos mostraram que o pipeline proposto apresenta boa escalabilidade e estabilidade, mesmo com volumes de até dez milhões de registros por tabela, sem perda significativa de desempenho. Além de validar tecnicamente o uso do Spark e do Iceberg, o estudo demonstra que tecnologias abertas podem oferecer alternativas economicamente viáveis para pequenas e médias organizações, garantindo governança, rastreabilidade e acessibilidade. Conclui-se que a adoção de soluções open source em arquiteturas Lakehouse representa um caminho promissor para a transformação digital do setor contábil.

Abstract

This work presents a practical approach to large-scale data analysis using open-source technologies within a Data Lakehouse architecture. The study aims to demonstrate the feasibility of integrating Apache Spark and Apache Iceberg for the consolidation and analysis of accounting, tax, and human resources data, simulating the operations of a mid-sized accounting firm. Synthetic datasets were generated to represent real systems, and data pipelines were developed for ingestion, transformation, aggregation, and versioned storage. The results were made available through interactive dashboards in Looker Studio, enabling real-time visualization of key performance indicators (KPIs). Experiments showed that the proposed pipeline achieves excellent scalability and stability, even when processing up to ten million records per table, without significant performance degradation. In addition to validating the technical aspects of Spark and Iceberg, the study demonstrates that open-source technologies can provide cost-effective alternatives for small and medium-sized organizations, ensuring data governance, traceability, and accessibility. It concludes that adopting open-source solutions within Lakehouse architectures represents a promising path for the digital transformation of the accounting sector.

Orientador(a)
Dr. Cavalcante, Rodolfo Carneiro.
Banca Examinadora
Dr. Brito, Patrick Henrique da Silva.
Dr. Souza, Tarsis Marinho de .
Palavras-chave
Big data.
Governança de dados.
Apache Spark (Programa de computador).
Apache Iceberg (Programa de computador).
Data Lakehouse (Sistema de gerenciamento de dados).
Áreas do Conhecimento/Localização
Coleção Propriedade Intelectual (CPI) - BSCA.
Categorias CNPQ
1.00.00.00-3 Ciências exatas e da terra.
Visualizações
25
Observações


Não foi possível exibir o PDF