This thesis investigates saliency detection in the context of Light Field (LF) displays, a technol- ogy capable of capturing and reproducing both spatial and angular information of light rays. While LF imaging offers enhanced immersive experiences, its rendering on projection-based LF displays often introduces aliasing artifacts (distortions caused by insufficient sampling of the LF) due to bandwidth limitations, affecting the perceptual quality of 3D scenes. The motiva- tion for this work arises from previous experiments with projection-based LF displays, where blurring filters were applied to mitigate aliasing. User studies revealed, however, that viewers often preferred unfiltered aliasing artifacts over blurred renderings, highlighting the need for a more adaptive strategy. This motivated the central aim of the thesis: to explore whether visual saliency detection can guide adaptive processing of LF content, selectively choosing between retaining aliasing or applying blur across regions. To address this, saliency detection is explored as a mechanism to identify visually relevant regions, thereby enabling adaptive processing strategies such as selective filtering of aliasing artifacts. To address this, the study reviews classical saliency detection methods for 2D, 3D, and 4D-LF imagery, as well as recent machine learning approaches. Four representative methods are implemented and tested: the 2015 Depth-Induced Light Field (DILF) method, the 2015 Weighted Sparse Coding (WSC) method, the 2017 Multi-Cue method, and the 2024 LF-Tracy machine learning model. These methods are applied to a LF dataset from Tampere University, consisting of nine synthetic LF scenes. Experimental results reveal that earlier methods (DILF, WSC, Multi-Cue) provide limited accuracy, often producing incoherent saliency maps and failing in cluttered environments. In contrast, LF-Tracy demonstrates significant improvements, generating sharper and more complete saliency maps aligned with object boundaries. Nonetheless, the model exhibits an “object completeness bias”, uniformly emphasizing all objects without capturing the selective, hierarchical nature of human attention. Overall, the findings highlight the evolution of LF saliency detection from low-level feature- driven models to modern machine learning paradigms. While progress has been achieved, challenges remain in modeling intra-object saliency and human-like selective attention, point- ing to directions for future research in more high-fidelity LF saliency prediction.

Questa tesi indaga la saliency detection nel contesto dei display Light Field (LF), una tecnologia in grado di catturare e riprodurre sia informazioni spaziali che angolari dei raggi luminosi. Mentre l'imaging LF offre esperienze immersive avanzate, la sua riproduzione su projection-based display LF spesso introduce artefatti di aliasing (distorsioni causate da un campionamento insufficiente del LF) a causa delle limitazioni di banda, compromettendo la qualità percettiva delle scene 3D. La motivazione per questo lavoro nasce da esperimenti precedenti con projection-based display LF, dove sono stati applicati filtri di sfocatura per mitigare l'aliasing. Tuttavia, test soggettivi hanno rivelato che spesso i fruitori preferivano gli artefatti di aliasing non filtrati rispetto alle rappresentazioni sfocate, evidenziando la necessità di una strategia più adattiva. Questo ha motivato l'obiettivo centrale della tesi: esplorare se la saliency detection può guidare un'elaborazione adattiva dei contenuti LF, scegliendo selettivamente tra il mantenimento dell'aliasing o l'applicazione di sfocatura su specifiche regioni. Per affrontare questo, la saliency detection viene esplorata come meccanismo per identificare le regioni visivamente rilevanti, consentendo così strategie di elaborazione adattive come il filtraggio selettivo degli artefatti di aliasing. Per esaminare questa problematica, lo studio rivede i metodi classici di saliency detection per dati 2D, 3D e 4D-LF, così come i recenti approcci basati sul machine learning. Quattro metodi sono stati implementati e testati: il metodo Depth-Induced Light Field (DILF) del 2015, il metodo Weighted Sparse Coding (WSC) del 2015, il metodo Multi-Cue del 2017 e, il modello di machine learning, LF-Tracy del 2024. Questi metodi sono stati applicati a un dataset LF dell'Università di Tampere, costituito da nove scene LF sintetiche. I risultati sperimentali rivelano che i primi tre metodi (DILF, WSC, Multi-Cue) offrono una precisione limitata, producendo spesso saliency maps incoerenti e fallendo in scenari complessi. Al contrario, LF-Tracy dimostra miglioramenti significativi, generando saliency maps più nitide e complete, allineate con i bordi degli oggetti. Tuttavia, il modello presenta un “object completeness bias” poichè enfatizza uniformemente tutti gli oggetti senza catturare la natura selettiva e gerarchica dell'attenzione umana. In generale, i risultati evidenziano l'evoluzione della LF saliency detection da modelli basati su caratteristiche a basso livello a paradigmi moderni di machine learning. Sebbene siano stati ottenuti progressi, permangono delle sfide nel modellare la saliency intra-oggetto e l'attenzione selettiva simile a quella umana, indicando direzioni per la ricerca futura nella LF saliency prediction a maggiore fedeltà.

Saliency detection on Light Field displays

PANOZZO, ELISA SILENE
2024/2025

Abstract

This thesis investigates saliency detection in the context of Light Field (LF) displays, a technol- ogy capable of capturing and reproducing both spatial and angular information of light rays. While LF imaging offers enhanced immersive experiences, its rendering on projection-based LF displays often introduces aliasing artifacts (distortions caused by insufficient sampling of the LF) due to bandwidth limitations, affecting the perceptual quality of 3D scenes. The motiva- tion for this work arises from previous experiments with projection-based LF displays, where blurring filters were applied to mitigate aliasing. User studies revealed, however, that viewers often preferred unfiltered aliasing artifacts over blurred renderings, highlighting the need for a more adaptive strategy. This motivated the central aim of the thesis: to explore whether visual saliency detection can guide adaptive processing of LF content, selectively choosing between retaining aliasing or applying blur across regions. To address this, saliency detection is explored as a mechanism to identify visually relevant regions, thereby enabling adaptive processing strategies such as selective filtering of aliasing artifacts. To address this, the study reviews classical saliency detection methods for 2D, 3D, and 4D-LF imagery, as well as recent machine learning approaches. Four representative methods are implemented and tested: the 2015 Depth-Induced Light Field (DILF) method, the 2015 Weighted Sparse Coding (WSC) method, the 2017 Multi-Cue method, and the 2024 LF-Tracy machine learning model. These methods are applied to a LF dataset from Tampere University, consisting of nine synthetic LF scenes. Experimental results reveal that earlier methods (DILF, WSC, Multi-Cue) provide limited accuracy, often producing incoherent saliency maps and failing in cluttered environments. In contrast, LF-Tracy demonstrates significant improvements, generating sharper and more complete saliency maps aligned with object boundaries. Nonetheless, the model exhibits an “object completeness bias”, uniformly emphasizing all objects without capturing the selective, hierarchical nature of human attention. Overall, the findings highlight the evolution of LF saliency detection from low-level feature- driven models to modern machine learning paradigms. While progress has been achieved, challenges remain in modeling intra-object saliency and human-like selective attention, point- ing to directions for future research in more high-fidelity LF saliency prediction.
2024
Saliency detection on Light Field displays
Questa tesi indaga la saliency detection nel contesto dei display Light Field (LF), una tecnologia in grado di catturare e riprodurre sia informazioni spaziali che angolari dei raggi luminosi. Mentre l'imaging LF offre esperienze immersive avanzate, la sua riproduzione su projection-based display LF spesso introduce artefatti di aliasing (distorsioni causate da un campionamento insufficiente del LF) a causa delle limitazioni di banda, compromettendo la qualità percettiva delle scene 3D. La motivazione per questo lavoro nasce da esperimenti precedenti con projection-based display LF, dove sono stati applicati filtri di sfocatura per mitigare l'aliasing. Tuttavia, test soggettivi hanno rivelato che spesso i fruitori preferivano gli artefatti di aliasing non filtrati rispetto alle rappresentazioni sfocate, evidenziando la necessità di una strategia più adattiva. Questo ha motivato l'obiettivo centrale della tesi: esplorare se la saliency detection può guidare un'elaborazione adattiva dei contenuti LF, scegliendo selettivamente tra il mantenimento dell'aliasing o l'applicazione di sfocatura su specifiche regioni. Per affrontare questo, la saliency detection viene esplorata come meccanismo per identificare le regioni visivamente rilevanti, consentendo così strategie di elaborazione adattive come il filtraggio selettivo degli artefatti di aliasing. Per esaminare questa problematica, lo studio rivede i metodi classici di saliency detection per dati 2D, 3D e 4D-LF, così come i recenti approcci basati sul machine learning. Quattro metodi sono stati implementati e testati: il metodo Depth-Induced Light Field (DILF) del 2015, il metodo Weighted Sparse Coding (WSC) del 2015, il metodo Multi-Cue del 2017 e, il modello di machine learning, LF-Tracy del 2024. Questi metodi sono stati applicati a un dataset LF dell'Università di Tampere, costituito da nove scene LF sintetiche. I risultati sperimentali rivelano che i primi tre metodi (DILF, WSC, Multi-Cue) offrono una precisione limitata, producendo spesso saliency maps incoerenti e fallendo in scenari complessi. Al contrario, LF-Tracy dimostra miglioramenti significativi, generando saliency maps più nitide e complete, allineate con i bordi degli oggetti. Tuttavia, il modello presenta un “object completeness bias” poichè enfatizza uniformemente tutti gli oggetti senza catturare la natura selettiva e gerarchica dell'attenzione umana. In generale, i risultati evidenziano l'evoluzione della LF saliency detection da modelli basati su caratteristiche a basso livello a paradigmi moderni di machine learning. Sebbene siano stati ottenuti progressi, permangono delle sfide nel modellare la saliency intra-oggetto e l'attenzione selettiva simile a quella umana, indicando direzioni per la ricerca futura nella LF saliency prediction a maggiore fedeltà.
Saliency detection
Light Field
3D multimedia
File in questo prodotto:
File Dimensione Formato  
ElisaSilene_Panozzo.pdf

accesso aperto

Dimensione 27.26 MB
Formato Adobe PDF
27.26 MB Adobe PDF Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/94136