Ridurre la latenza end-to-end nei sistemi di comunicazione video è essenziale in applicazioni come teleoperazione, realtà aumentata e streaming in tempo reale. Questa tesi esplora l’estrapolazione predittiva dei frame come strategia per compensare la latenza, concentrandosi su architetture modulari e leggere che abilitano una visualizzazione anticipata lato ricevente. La prima parte del lavoro prevede la ristrutturazione della pipeline di inferenze di SDCNet, un modello di estrapolazione basato sul movimento, per supportare modalità di test flessibili (lato encoder/decoder, estrapolazione diretta/iterativa) e una valutazione automatica tramite metriche standard. Nella seconda parte, viene proposto un sistema dedicato alla previsione di maschere binarie, focalizzato esclusivamente sulla dinamica spaziale degli oggetti in primo piano. Il sistema, addestrato sul dataset DAVIS tramite una U-Net con encoder ResNet-101, mostra rapidità di inferenza e robustezza anche in presenza di movimento. Infine, progettiamo una pipeline ibrida che integra le maschere predette come priors strutturali all’interno di SDCNet. Il sistema risultante migliora la coerenza visiva e preserva la geometria degli oggetti, in particolare in caso di movimento o occlusioni. Sebbene i miglioramenti non siano statisticamente significativi secondo PSNR o SSIM, l’analisi qualitativa mostra benefici consistenti in termini di qualità visiva e stabilità temporale. Il metodo proposto è computazionalmente efficiente e mostra potenziale real-time su hardware consumer.
Minimizing end-to-end latency in video communication is critical for applications such as teleoperation, augmented reality, and real-time streaming. This thesis investigates predictive frame extrapolation as a strategy to compensate for latency, focusing on modular and lightweight architectures that enable anticipatory rendering at the receiver side. The first part of this work involves the restructuring the inference pipeline for SDCNet, a motion-based extrapolation model, to support flexible testing modes (encoder/decoder side, direct/iterative extrapolation) and automatic evaluation using standard metrics. In the second part, we propose a dedicated binary mask prediction system that focuses solely on the spatial dynamics of foreground objects. This system is trained on the DAVIS dataset using a U-Net with ResNet-101 encoder, achieving high inference speed and robustness under motion. Finally, we design a hybrid extrapolation pipeline that integrates predicted masks as structural priors into SDCNet. The resulting system improves visual coherence and preserves object geometry, especially under motion and occlusions. While the improvements are not statistically significant under PSNR or SSIM, qualitative results show consistent gains in visual quality and temporal stability. The proposed method remains computationally efficient and shows real-time potential on consumer-grade hardware.
Towards zero latency: Architectures for Predictive Frame Extrapolation in Video Streaming
LEZZI, LUCA
2024/2025
Abstract
Ridurre la latenza end-to-end nei sistemi di comunicazione video è essenziale in applicazioni come teleoperazione, realtà aumentata e streaming in tempo reale. Questa tesi esplora l’estrapolazione predittiva dei frame come strategia per compensare la latenza, concentrandosi su architetture modulari e leggere che abilitano una visualizzazione anticipata lato ricevente. La prima parte del lavoro prevede la ristrutturazione della pipeline di inferenze di SDCNet, un modello di estrapolazione basato sul movimento, per supportare modalità di test flessibili (lato encoder/decoder, estrapolazione diretta/iterativa) e una valutazione automatica tramite metriche standard. Nella seconda parte, viene proposto un sistema dedicato alla previsione di maschere binarie, focalizzato esclusivamente sulla dinamica spaziale degli oggetti in primo piano. Il sistema, addestrato sul dataset DAVIS tramite una U-Net con encoder ResNet-101, mostra rapidità di inferenza e robustezza anche in presenza di movimento. Infine, progettiamo una pipeline ibrida che integra le maschere predette come priors strutturali all’interno di SDCNet. Il sistema risultante migliora la coerenza visiva e preserva la geometria degli oggetti, in particolare in caso di movimento o occlusioni. Sebbene i miglioramenti non siano statisticamente significativi secondo PSNR o SSIM, l’analisi qualitativa mostra benefici consistenti in termini di qualità visiva e stabilità temporale. Il metodo proposto è computazionalmente efficiente e mostra potenziale real-time su hardware consumer.| File | Dimensione | Formato | |
|---|---|---|---|
|
Lezzi_Luca.pdf
accesso aperto
Dimensione
7.96 MB
Formato
Adobe PDF
|
7.96 MB | Adobe PDF | Visualizza/Apri |
The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License
https://hdl.handle.net/20.500.12608/87084