La Computer Vision (CV), essendo un campo dell’Artificial Intelligence (AI) che si occupa dell’estrazione di informazioni da immagini o video per risolvere diversi compiti in scenari come, ad esempio, quello sanitario e della sicurezza, ha tratto notevole vantaggio dallo sviluppo del Deep Learning (DL). Tra i compiti principali che la CV affronta, si trova la classificazione delle immagini, attività che consiste nel categorizzare un’immagine in base al suo contenuto visivo, assegnandole un’etichetta. La complessità e dinamicità del mondo reale hanno reso necessario lo sviluppo di modelli di DL in grado di adattarsi e apprendere continuamente nuovi dati. Il Continual Learning (CL), paradigma di apprendimento supervisionato di DL, permette ai modelli di accumulare conoscenze nel tempo, mitigando il Catastrophic Forgetting, problema dovuto alla tendenza dei modelli di DL a dimenticare le informazioni apprese in precedenza quando ne acquisiscono di nuove. Una nuova era nell’AI è stata segnata dall’ascesa dei Foundation Models, complessi modelli di DL che, attraverso il pre-addestramento su enormi quantità di dati non etichettati e le loro proprietà, si sono rivelati utili per la risoluzione di diversi compiti, tra cui la classificazione delle immagini. Questa tesi si concentra sull’esposizione dei principali approcci di CL e dei più rilevanti Foundation Models utilizzati per la classificazione delle immagini, analizzando se lo sviluppo di questi ultimi possa trasformare l’approccio tradizionale del CL e, di conseguenza, rivoluzionare il mondo della CV. Attraverso l’analisi di diversi esperimenti ed esempi applicativi per la classificazione delle immagini, i risultati confermano che, nonostante i Foundation Models offrano una precisione e una versatilità maggiore, i modelli di CL risultano meno onerosi in termini di risorse e capaci di mitigare il Catastrophic Forgetting in maniera efficace. Affinché i Foundation Models si possano confermare il futuro della CV, integrare ad essi le capacità di CL risulta cruciale per sviluppare modelli universali adattabili a qualsiasi scenario e dispositivo. Sono necessari ulteriori studi per affinare tale sinergia, in quanto questo ambito di ricerca è ancora agli inizi, ma la complementarità dei due approcci di DL offre molte opportunità di sviluppo.
Continual Learning e Foundation Models: approcci per la classificazione delle immagini e direzioni future
PARPAIOLA, EDOARDO
2023/2024
Abstract
La Computer Vision (CV), essendo un campo dell’Artificial Intelligence (AI) che si occupa dell’estrazione di informazioni da immagini o video per risolvere diversi compiti in scenari come, ad esempio, quello sanitario e della sicurezza, ha tratto notevole vantaggio dallo sviluppo del Deep Learning (DL). Tra i compiti principali che la CV affronta, si trova la classificazione delle immagini, attività che consiste nel categorizzare un’immagine in base al suo contenuto visivo, assegnandole un’etichetta. La complessità e dinamicità del mondo reale hanno reso necessario lo sviluppo di modelli di DL in grado di adattarsi e apprendere continuamente nuovi dati. Il Continual Learning (CL), paradigma di apprendimento supervisionato di DL, permette ai modelli di accumulare conoscenze nel tempo, mitigando il Catastrophic Forgetting, problema dovuto alla tendenza dei modelli di DL a dimenticare le informazioni apprese in precedenza quando ne acquisiscono di nuove. Una nuova era nell’AI è stata segnata dall’ascesa dei Foundation Models, complessi modelli di DL che, attraverso il pre-addestramento su enormi quantità di dati non etichettati e le loro proprietà, si sono rivelati utili per la risoluzione di diversi compiti, tra cui la classificazione delle immagini. Questa tesi si concentra sull’esposizione dei principali approcci di CL e dei più rilevanti Foundation Models utilizzati per la classificazione delle immagini, analizzando se lo sviluppo di questi ultimi possa trasformare l’approccio tradizionale del CL e, di conseguenza, rivoluzionare il mondo della CV. Attraverso l’analisi di diversi esperimenti ed esempi applicativi per la classificazione delle immagini, i risultati confermano che, nonostante i Foundation Models offrano una precisione e una versatilità maggiore, i modelli di CL risultano meno onerosi in termini di risorse e capaci di mitigare il Catastrophic Forgetting in maniera efficace. Affinché i Foundation Models si possano confermare il futuro della CV, integrare ad essi le capacità di CL risulta cruciale per sviluppare modelli universali adattabili a qualsiasi scenario e dispositivo. Sono necessari ulteriori studi per affinare tale sinergia, in quanto questo ambito di ricerca è ancora agli inizi, ma la complementarità dei due approcci di DL offre molte opportunità di sviluppo.File | Dimensione | Formato | |
---|---|---|---|
Parpaiola_Edoardo.pdf
accesso riservato
Dimensione
2.02 MB
Formato
Adobe PDF
|
2.02 MB | Adobe PDF |
The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License
https://hdl.handle.net/20.500.12608/67653