Continual Learning e Foundation Models: approcci per la classificazione delle immagini e direzioni future

La Computer Vision (CV), essendo un campo dell’Artificial Intelligence (AI) che si occupa dell’estrazione di informazioni da immagini o video per risolvere diversi compiti in scenari come, ad esempio, quello sanitario e della sicurezza, ha tratto notevole vantaggio dallo sviluppo del Deep Learning (DL). Tra i compiti principali che la CV affronta, si trova la classificazione delle immagini, attività che consiste nel categorizzare un’immagine in base al suo contenuto visivo, assegnandole un’etichetta. La complessità e dinamicità del mondo reale hanno reso necessario lo sviluppo di modelli di DL in grado di adattarsi e apprendere continuamente nuovi dati. Il Continual Learning (CL), paradigma di apprendimento supervisionato di DL, permette ai modelli di accumulare conoscenze nel tempo, mitigando il Catastrophic Forgetting, problema dovuto alla tendenza dei modelli di DL a dimenticare le informazioni apprese in precedenza quando ne acquisiscono di nuove. Una nuova era nell’AI è stata segnata dall’ascesa dei Foundation Models, complessi modelli di DL che, attraverso il pre-addestramento su enormi quantità di dati non etichettati e le loro proprietà, si sono rivelati utili per la risoluzione di diversi compiti, tra cui la classificazione delle immagini. Questa tesi si concentra sull’esposizione dei principali approcci di CL e dei più rilevanti Foundation Models utilizzati per la classificazione delle immagini, analizzando se lo sviluppo di questi ultimi possa trasformare l’approccio tradizionale del CL e, di conseguenza, rivoluzionare il mondo della CV. Attraverso l’analisi di diversi esperimenti ed esempi applicativi per la classificazione delle immagini, i risultati confermano che, nonostante i Foundation Models offrano una precisione e una versatilità maggiore, i modelli di CL risultano meno onerosi in termini di risorse e capaci di mitigare il Catastrophic Forgetting in maniera efficace. Affinché i Foundation Models si possano confermare il futuro della CV, integrare ad essi le capacità di CL risulta cruciale per sviluppare modelli universali adattabili a qualsiasi scenario e dispositivo. Sono necessari ulteriori studi per affinare tale sinergia, in quanto questo ambito di ricerca è ancora agli inizi, ma la complementarità dei due approcci di DL offre molte opportunità di sviluppo.

Continual Learning e Foundation Models: approcci per la classificazione delle immagini e direzioni future

PARPAIOLA, EDOARDO

2023/2024

Abstract

La Computer Vision (CV), essendo un campo dell’Artificial Intelligence (AI) che si occupa dell’estrazione di informazioni da immagini o video per risolvere diversi compiti in scenari come, ad esempio, quello sanitario e della sicurezza, ha tratto notevole vantaggio dallo sviluppo del Deep Learning (DL). Tra i compiti principali che la CV affronta, si trova la classificazione delle immagini, attività che consiste nel categorizzare un’immagine in base al suo contenuto visivo, assegnandole un’etichetta. La complessità e dinamicità del mondo reale hanno reso necessario lo sviluppo di modelli di DL in grado di adattarsi e apprendere continuamente nuovi dati. Il Continual Learning (CL), paradigma di apprendimento supervisionato di DL, permette ai modelli di accumulare conoscenze nel tempo, mitigando il Catastrophic Forgetting, problema dovuto alla tendenza dei modelli di DL a dimenticare le informazioni apprese in precedenza quando ne acquisiscono di nuove. Una nuova era nell’AI è stata segnata dall’ascesa dei Foundation Models, complessi modelli di DL che, attraverso il pre-addestramento su enormi quantità di dati non etichettati e le loro proprietà, si sono rivelati utili per la risoluzione di diversi compiti, tra cui la classificazione delle immagini. Questa tesi si concentra sull’esposizione dei principali approcci di CL e dei più rilevanti Foundation Models utilizzati per la classificazione delle immagini, analizzando se lo sviluppo di questi ultimi possa trasformare l’approccio tradizionale del CL e, di conseguenza, rivoluzionare il mondo della CV. Attraverso l’analisi di diversi esperimenti ed esempi applicativi per la classificazione delle immagini, i risultati confermano che, nonostante i Foundation Models offrano una precisione e una versatilità maggiore, i modelli di CL risultano meno onerosi in termini di risorse e capaci di mitigare il Catastrophic Forgetting in maniera efficace. Affinché i Foundation Models si possano confermare il futuro della CV, integrare ad essi le capacità di CL risulta cruciale per sviluppare modelli universali adattabili a qualsiasi scenario e dispositivo. Sono necessari ulteriori studi per affinare tale sinergia, in quanto questo ambito di ricerca è ancora agli inizi, ma la complementarità dei due approcci di DL offre molte opportunità di sviluppo.

Scheda

Scheda DC

	Facoltà/Dipartimento
	
				Dipartimento di Ingegneria dell'Informazione - DEI
			
	Corso di studio
	
				INGEGNERIA INFORMATICA Laurea di Primo Livello (D.M. 270/2004)
			
	Anno Accademico
	
				2023
			
	Titolo inglese
	
				Continual Learning and Foundation Models: approaches for image classification and future directions
			
	Parola chiave
	
				Continual Learning
Foundation Models
Classificazione
Machine Learning
Deep Learning
			
	Relatore
	
				GHIDONI, STEFANO
			
	Appare nelle tipologie:
	
				Lauree triennali

File in questo prodotto:

File	Dimensione	Formato
Parpaiola_Edoardo.pdf Accesso riservato Dimensione 2.02 MB Formato Adobe PDF	2.02 MB	Adobe PDF

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/67653