This document details the activities performed during a curricular internship at Zucchetti S.p.A., lasting a total of 320 hours. The main goal of the experience was the experimentation and assessment of new technologies potentially useful to the company, with the intent of analyzing their efficacy and applicability in real-world production environments. In particular, the work focused on creating a Proof of Concept utilizing Apache Kafka and different storage systems. Furthermore, the internship included a study of DuckDB, a column-oriented relational database management system that allows for interaction with Apache Parquet files. Finally, various streaming algorithms were studied and implemented to extract meaningful insights from data streams and detect anomalies.

Il presente elaborato descrive il lavoro svolto durante il periodo di tirocinio curricolare presso l'azienda Zucchetti S.p.A, della durata complessiva di 320 ore. L'esperienza di stage ha avuto come obiettivo principale la sperimentazione e valutazione di nuove tecnologie di potenziale interesse per l'azienda, con l'intento di analizzarne l'efficacia e l'applicabilità in contesti produttivi reali. In particolare, l'attività ha riguardato la realizzazione di un Proof of Concept basato sull'utilizzo di Apache Kafka e di diversi sistemi di archiviazione. Nel corso dello stage è stato inoltre approfondito DuckDB, un sistema di gestione di database relazionali orientati a colonne che permette l'interazione con file in formato Apache Parquet. Infine, sono stati studiati e implementati diversi algoritmi di streaming, applicabili ai flussi di dati per l'estrazione di insight significativi e la rilevazione di situazioni anomale.

Tecnologie e algoritmi per l'analisi di flussi di dati: Proof of Concept di data ingestion, DuckDB e algoritmi di streaming

LEONI, PEDRO
2024/2025

Abstract

This document details the activities performed during a curricular internship at Zucchetti S.p.A., lasting a total of 320 hours. The main goal of the experience was the experimentation and assessment of new technologies potentially useful to the company, with the intent of analyzing their efficacy and applicability in real-world production environments. In particular, the work focused on creating a Proof of Concept utilizing Apache Kafka and different storage systems. Furthermore, the internship included a study of DuckDB, a column-oriented relational database management system that allows for interaction with Apache Parquet files. Finally, various streaming algorithms were studied and implemented to extract meaningful insights from data streams and detect anomalies.
2024
Technologies and algorithms for the analysis of data streams: Proof of concept of data ingestion, Duckdb and implementation of streaming algorithms
Il presente elaborato descrive il lavoro svolto durante il periodo di tirocinio curricolare presso l'azienda Zucchetti S.p.A, della durata complessiva di 320 ore. L'esperienza di stage ha avuto come obiettivo principale la sperimentazione e valutazione di nuove tecnologie di potenziale interesse per l'azienda, con l'intento di analizzarne l'efficacia e l'applicabilità in contesti produttivi reali. In particolare, l'attività ha riguardato la realizzazione di un Proof of Concept basato sull'utilizzo di Apache Kafka e di diversi sistemi di archiviazione. Nel corso dello stage è stato inoltre approfondito DuckDB, un sistema di gestione di database relazionali orientati a colonne che permette l'interazione con file in formato Apache Parquet. Infine, sono stati studiati e implementati diversi algoritmi di streaming, applicabili ai flussi di dati per l'estrazione di insight significativi e la rilevazione di situazioni anomale.
Apache Kafka
Data ingestion
Algoritmi
Streaming
Analisi dati
File in questo prodotto:
File Dimensione Formato  
Leoni_Pedro.pdf

Accesso riservato

Dimensione 2.48 MB
Formato Adobe PDF
2.48 MB Adobe PDF

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/102057