Algoritmi di Class Incremental Learning per classificazione di immagini

Many modern systems utilize Computer Vision to extract information from images. An important application in this field is classification, which involves assigning a label to an image based on its visual content. Many approaches in the literature are based on Deep Learning (DL) and use pretrained models to distinguish a fixed set of classes during the training phase. Once this is completed, no further modifications are made to the model. However, in reality, there may be scenarios where the model needs to be able to learn new classes as new data is encountered. If the model is retrained exclusively on the newly introduced classes, it leads to Catastrophic Forgetting (CF), a phenomenon that results in a loss of accuracy in recognizing previously learned classes. On the other hand, retraining the model on both new and past classes can be very time and computationally costly. To address these limitations, research has produced Class Incremental Learning (CIL) algorithms, which are approaches that allow the model to learn a new set of classes while maintaining the ability to recognize previously learned ones. This thesis explores the main types of algorithms proposed to develop an entity capable of expanding the number of recognized classes over time. The problem of CIL is formalized, and three types of approaches found in the literature are introduced: Model-Growth (MG), Fixed-Representation (FR), and Fine-Tuning (FT). Furthermore, two approaches for each of them are discussed. Subsequently, the three types are compared based on certain properties. This is followed by a discussion of the results obtained from experiments reported in the literature, which confirm the validity of the theory. Next, real-world applications of CIL are presented, identifying which approach is most suitable for each of them. Additionally, the factors motivating the choice for each of the approaches discussed are outlined.

Molti sistemi moderni sfruttano la Computer Vision per estrarre informazioni dalle immagini. Una importante applicazione di questo settore è la classificazione, che prevede di assegnare un’etichetta a un’immagine in base al suo contenuto visivo. Molti approcci in letteratura si basano sul Deep Learning (DL) e utilizzano modelli allenati per distinguere un insieme di classi fissato durante la fase di addestramento. Una volta che questa si è conclusa, non vengono apportate ulteriori modifiche al modello. Tuttavia, nella realtà possono verificarsi scenari in cui il modello deve essere in grado di apprendere nuove classi man mano che si incontrano nuovi dati. Se il modello viene riaddestrato esclusivamente sulle classi appena introdotte, si verifica il Catastrophic Forgetting (CF), fenomeno che consiste nella perdita di accuratezza nel riconoscimento delle classi apprese in precedenza. D’altro canto, riaddestrare il modello sulle classi nuove e passate può essere molto oneroso in termini di tempo e costo computazionale. Per ovviare a tali limitazioni, la ricerca ha prodotto degli algoritmi di Class Incremental Learning (CIL), cioè degli approcci che permettono al modello di apprendere un nuovo insieme di classi, mantenendo al contempo le capacità di riconoscimento apprese in precedenza. Questa tesi esplora i principali tipi di algoritmi proposti per sviluppare un’entità in grado di ampliare il numero di classi riconosciute nel tempo. Viene formalizzato il problema del CIL e vengono introdotti i tre tipi di approcci presenti in letteratura: Model-Growth (MG), Fixed-Representation (FR) e Fine-Tuning (FT). Inoltre, per ciascuno di essi, vengono trattati due approcci. Successivamente, i tre tipi vengono messi a confronto sulla base di alcune proprietà. Segue una discussione dei risultati ottenuti dagli esperimenti riportati in letteratura, i quali confermano la validità della teoria. In seguito, vengono presentate delle applicazioni reali del CIL, identificando quale approccio risulta più adatto in ognuna di esse. Inoltre, vengono delineati gli elementi che motivano la scelta per ciascuno degli approcci trattati.