Semantic segmentation is a cornerstone of computer vision and plays a critical role in biomedical imaging, where accurate delineation of anatomical structures and tumors supports diagnosis, treatment planning, and disease monitoring. However, the field faces persistent challenges: annotated datasets are scarce, labels are costly and variable, and images often present low contrast and heterogeneous acquisition conditions. These factors make biomedical image segmentation one of the most demanding applications of computer vision. Over the past decade, the field has undergone remarkable progress, advancing from deep learning– based approaches with convolutional neural networks such as U-Net, to Vision Transformers and more recently, to self-supervised learning frameworks. Each wave of innovation, often appearing in overlapping phases, has addressed part of the problem, yet the fundamental bottleneck of annotation scarcity has remained largely unresolved. This thesis investigates whether combining the representational richness of self-supervised Vision Transformers with the bias-reduction capabilities of causal inference can improve unsupervised semantic segmentation in biomedical imaging. Specifically, it adapts the CAUSE framework, a causal approach to unsupervised segmentation, to MR images. The thesis contributes both a comprehensive review of the evolution of semantic segmentation methods and an empirical demonstration that integrating self-supervision with causal inference offers a promising direction for annotation-efficient MRI segmentation.

La segmentazione semantica è una pietra miliare della computer vision e svolge un ruolo fondamentale nell’imaging biomedico, in quanto la delineazione accurata delle strutture anatomiche e dei tumori supporta la diagnosi, la pianificazione terapeutica e il monitoraggio delle malattie. Tuttavia, il settore deve affrontare sfide persistenti: i dataset annotati sono scarsi, le etichette sono costose e variabili, e le immagini spesso presentano basso contrasto e condizioni di acquisizione eterogenee. Questi fattori rendono la segmentazione di immagini biomediche una delle applicazioni più impegnative della computer vision. Negli ultimi dieci anni, il campo ha conosciuto progressi straordinari, passando da approcci basati sul deep learning con reti neurali convoluzionali, come U-Net, ai Vision Transformers e, più recentemente, ai framework di apprendimento auto-supervisionato. Ogni ondata di innovazione, spesso comparsa in fasi sovrapposte, ha affrontato parte del problema, ma il collo di bottiglia fondamentale della scarsità di annotazioni è rimasto in gran parte irrisolto. Questa tesi indaga se la combinazione della ricchezza rappresentazionale dei Vision Transformers auto-supervisionati con le capacità di riduzione del bias dell’inferenza causale possa migliorare la segmentazione semantica non supervisionata nelle immagini biomediche. In particolare, adatta il framework CAUSE, un approccio causale alla segmentazione non supervisionata, alle immagini RM. La tesi offre sia una revisione completa dell’evoluzione dei metodi di segmentazione semantica, sia una dimostrazione empirica che l’integrazione dell’auto-supervisione con l’inferenza causale rappresenta una direzione promettente per una segmentazione della risonanza magnetica più efficiente in termini di annotazioni.

Self-Supervised Vision Transformer and Causal Inference for MRI semantic segmentation

RICCÒ, LORENZO
2024/2025

Abstract

Semantic segmentation is a cornerstone of computer vision and plays a critical role in biomedical imaging, where accurate delineation of anatomical structures and tumors supports diagnosis, treatment planning, and disease monitoring. However, the field faces persistent challenges: annotated datasets are scarce, labels are costly and variable, and images often present low contrast and heterogeneous acquisition conditions. These factors make biomedical image segmentation one of the most demanding applications of computer vision. Over the past decade, the field has undergone remarkable progress, advancing from deep learning– based approaches with convolutional neural networks such as U-Net, to Vision Transformers and more recently, to self-supervised learning frameworks. Each wave of innovation, often appearing in overlapping phases, has addressed part of the problem, yet the fundamental bottleneck of annotation scarcity has remained largely unresolved. This thesis investigates whether combining the representational richness of self-supervised Vision Transformers with the bias-reduction capabilities of causal inference can improve unsupervised semantic segmentation in biomedical imaging. Specifically, it adapts the CAUSE framework, a causal approach to unsupervised segmentation, to MR images. The thesis contributes both a comprehensive review of the evolution of semantic segmentation methods and an empirical demonstration that integrating self-supervision with causal inference offers a promising direction for annotation-efficient MRI segmentation.
2024
Self-Supervised Vision Transformer and Causal Inference for MRI semantic segmentation
La segmentazione semantica è una pietra miliare della computer vision e svolge un ruolo fondamentale nell’imaging biomedico, in quanto la delineazione accurata delle strutture anatomiche e dei tumori supporta la diagnosi, la pianificazione terapeutica e il monitoraggio delle malattie. Tuttavia, il settore deve affrontare sfide persistenti: i dataset annotati sono scarsi, le etichette sono costose e variabili, e le immagini spesso presentano basso contrasto e condizioni di acquisizione eterogenee. Questi fattori rendono la segmentazione di immagini biomediche una delle applicazioni più impegnative della computer vision. Negli ultimi dieci anni, il campo ha conosciuto progressi straordinari, passando da approcci basati sul deep learning con reti neurali convoluzionali, come U-Net, ai Vision Transformers e, più recentemente, ai framework di apprendimento auto-supervisionato. Ogni ondata di innovazione, spesso comparsa in fasi sovrapposte, ha affrontato parte del problema, ma il collo di bottiglia fondamentale della scarsità di annotazioni è rimasto in gran parte irrisolto. Questa tesi indaga se la combinazione della ricchezza rappresentazionale dei Vision Transformers auto-supervisionati con le capacità di riduzione del bias dell’inferenza causale possa migliorare la segmentazione semantica non supervisionata nelle immagini biomediche. In particolare, adatta il framework CAUSE, un approccio causale alla segmentazione non supervisionata, alle immagini RM. La tesi offre sia una revisione completa dell’evoluzione dei metodi di segmentazione semantica, sia una dimostrazione empirica che l’integrazione dell’auto-supervisione con l’inferenza causale rappresenta una direzione promettente per una segmentazione della risonanza magnetica più efficiente in termini di annotazioni.
Vision Tranformer
Causal Inference
Semantic Segmentatio
File in questo prodotto:
File Dimensione Formato  
Lorenzo Ricco.pdf

accesso aperto

Dimensione 3.39 MB
Formato Adobe PDF
3.39 MB Adobe PDF Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/94139