This document details the activities performed during a curricular internship at Zucchetti S.p.A., lasting a total of 320 hours. The main goal of the experience was the experimentation and assessment of new technologies potentially useful to the company, with the intent of analyzing their efficacy and applicability in real-world production environments. In particular, the work focused on creating a Proof of Concept utilizing Apache Kafka and different storage systems. Furthermore, the internship included a study of DuckDB, a column-oriented relational database management system that allows for interaction with Apache Parquet files. Finally, various streaming algorithms were studied and implemented to extract meaningful insights from data streams and detect anomalies.
Il presente elaborato descrive il lavoro svolto durante il periodo di tirocinio curricolare presso l'azienda Zucchetti S.p.A, della durata complessiva di 320 ore. L'esperienza di stage ha avuto come obiettivo principale la sperimentazione e valutazione di nuove tecnologie di potenziale interesse per l'azienda, con l'intento di analizzarne l'efficacia e l'applicabilità in contesti produttivi reali. In particolare, l'attività ha riguardato la realizzazione di un Proof of Concept basato sull'utilizzo di Apache Kafka e di diversi sistemi di archiviazione. Nel corso dello stage è stato inoltre approfondito DuckDB, un sistema di gestione di database relazionali orientati a colonne che permette l'interazione con file in formato Apache Parquet. Infine, sono stati studiati e implementati diversi algoritmi di streaming, applicabili ai flussi di dati per l'estrazione di insight significativi e la rilevazione di situazioni anomale.
Tecnologie e algoritmi per l'analisi di flussi di dati: Proof of Concept di data ingestion, DuckDB e algoritmi di streaming
LEONI, PEDRO
2024/2025
Abstract
This document details the activities performed during a curricular internship at Zucchetti S.p.A., lasting a total of 320 hours. The main goal of the experience was the experimentation and assessment of new technologies potentially useful to the company, with the intent of analyzing their efficacy and applicability in real-world production environments. In particular, the work focused on creating a Proof of Concept utilizing Apache Kafka and different storage systems. Furthermore, the internship included a study of DuckDB, a column-oriented relational database management system that allows for interaction with Apache Parquet files. Finally, various streaming algorithms were studied and implemented to extract meaningful insights from data streams and detect anomalies.| File | Dimensione | Formato | |
|---|---|---|---|
|
Leoni_Pedro.pdf
Accesso riservato
Dimensione
2.48 MB
Formato
Adobe PDF
|
2.48 MB | Adobe PDF |
The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License
https://hdl.handle.net/20.500.12608/102057