In questi tesi parlo della segmentazione delle immagini, un processo fondamentale nella visione artificiale che consiste nel suddividere un'immagine in regioni significative, assegnando a ciascuna di esse un'etichetta semantica. In particolare. In questo contesto, i modelli di segmentazione rappresentano lo State Of The Art, ovvero la frontiera della ricerca in un determinato campo (le tecniche e gli algoritmi più recenti e performanti). In particolare parlo di SAM (Segment Anything Model) e descrivo tre esperimenti effettuati con questo modello, i primi due nell'ambito medico, mentre nell'ultimo descrivo il mio esperimento personale che si concentrava sull'ottimizzazione di un metodo proposto, per combinare le capacità di SAM con quelle di modelli di segmentazione specializzati. Inoltre descrivo le potenzialità della prompt engineering (consiste nella progettazione e ottimizzazione di sequenze di token, definite come prompt, per guidare modelli di linguaggio di grandi dimensioni verso la generazione di output desiderati) e dell'Input Augmentation (una tecnica utilizzata per migliorare le prestazioni di un modello di machine learning).
Segmentazione semantica: prompt engineering per il modello Segment Anything
VENEZIANI, MICHELE
2023/2024
Abstract
In questi tesi parlo della segmentazione delle immagini, un processo fondamentale nella visione artificiale che consiste nel suddividere un'immagine in regioni significative, assegnando a ciascuna di esse un'etichetta semantica. In particolare. In questo contesto, i modelli di segmentazione rappresentano lo State Of The Art, ovvero la frontiera della ricerca in un determinato campo (le tecniche e gli algoritmi più recenti e performanti). In particolare parlo di SAM (Segment Anything Model) e descrivo tre esperimenti effettuati con questo modello, i primi due nell'ambito medico, mentre nell'ultimo descrivo il mio esperimento personale che si concentrava sull'ottimizzazione di un metodo proposto, per combinare le capacità di SAM con quelle di modelli di segmentazione specializzati. Inoltre descrivo le potenzialità della prompt engineering (consiste nella progettazione e ottimizzazione di sequenze di token, definite come prompt, per guidare modelli di linguaggio di grandi dimensioni verso la generazione di output desiderati) e dell'Input Augmentation (una tecnica utilizzata per migliorare le prestazioni di un modello di machine learning).File | Dimensione | Formato | |
---|---|---|---|
Veneziani_Michele.pdf
accesso aperto
Dimensione
3.02 MB
Formato
Adobe PDF
|
3.02 MB | Adobe PDF | Visualizza/Apri |
The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License
https://hdl.handle.net/20.500.12608/76498