Recognizing objects in images requires complex skills that involve knowledge about the context and the ability to identify the borders of the objects. In computer vision, this task is called semantic segmentation and it pertains to the classification of each pixel in an image. The task is of main importance in many real-life scenarios: in autonomous vehicles, it allows the identification of objects surrounding the vehicle; in medical diagnosis, it improves the ability of early detecting dangerous pathologies and thus to mitigate the risk of serious consequences. In this work, we propose a new ensemble method able to solve the semantic segmentation task. The model is based on convolutional neural networks (CNNs) and transformers. An ensemble uses many different models whose predictions are aggregated to form the output of the ensemble system. The performance and quality of the ensemble prediction are strongly connected with some factors, one of the most important is the diversity among individual models. In our approach, this is enforced by adopting different loss functions and testing different data augmentation. We developed the proposed method by combining DeepLabV3+, HarDNet-MSEG, and Pyramid Vision Transformers. The developed solution was then assessed through an extensive empirical evaluation in five different scenarios: polyp detection, skin detection, leukocytes recognition, environmental microorganism detection, and butterfly recognition. The model provides state-of-the-art results. All resources will be available online at https://github.com/AlbertoFormaggio1/Ensemble-Of-Segmentation.

Riconoscere oggetti all’interno delle immagini richiede delle abilità complesse che richiedono una conoscenza del contesto e la capacità di identificare i bordi degli oggetti stessi. Nel campo della computer vision, questo compito è chiamato segmentazione semantica e riguarda la classificazione di ogni pixel all’interno di un’immagine. Tale compito è di primaria importanza in molti scenari reali: nei veicoli autonomi, dove permette l’identificazione degli oggetti che circondano il veicolo, o nella diagnosi medica, in cui migliora la capacità di identificare patologie pericolose e quindi mitigare il rischio di serie conseguenze. In questo studio, proponiamo un nuovo modello per un multiclassificatore in grado di risolvere il compito di segmentazione semantica. Il modello si basa su reti neurali convoluzionali (CNN) e transformers. Un multiclassificatore usa diversi modelli le cui stime vengono aggregate così da ottenere l’output del sistema di multiclassificazione. Le prestazioni e la qualità delle previsioni dell’ensemble sono fortemente connessi ad alcuni fattori, tra cui il più importante è la diversità tra i singoli modelli. Nell’approccio qui proposto, abbiamo ottenuto questo risultato adottando diverse loss functions e testando con diversi metodi di data augmentation. Abbiamo sviluppato questo metodo combinando DeepLabV3+, HarDNet-MSEG e dei Pyramid Vision Transformers (PVT). La soluzione qui sviluppata è stata poi esaminata mediante un’ampia valutazione empirica in 5 diversi scenari: rilevamento di polipi, rilevamento della pelle, riconoscimento di leucociti, rilevamento di microorganismi e riconoscimento di farfalle. Il modello fornisce dei risultati che sono allo stato dell’arte. Tutte le risorse sono disponibili online all’indirizzo https://github.com/AlbertoFormaggio1/Ensemble-Of-Segmentation.

An empirical study on ensemble of segmentation approaches

FORMAGGIO, ALBERTO
2021/2022

Abstract

Recognizing objects in images requires complex skills that involve knowledge about the context and the ability to identify the borders of the objects. In computer vision, this task is called semantic segmentation and it pertains to the classification of each pixel in an image. The task is of main importance in many real-life scenarios: in autonomous vehicles, it allows the identification of objects surrounding the vehicle; in medical diagnosis, it improves the ability of early detecting dangerous pathologies and thus to mitigate the risk of serious consequences. In this work, we propose a new ensemble method able to solve the semantic segmentation task. The model is based on convolutional neural networks (CNNs) and transformers. An ensemble uses many different models whose predictions are aggregated to form the output of the ensemble system. The performance and quality of the ensemble prediction are strongly connected with some factors, one of the most important is the diversity among individual models. In our approach, this is enforced by adopting different loss functions and testing different data augmentation. We developed the proposed method by combining DeepLabV3+, HarDNet-MSEG, and Pyramid Vision Transformers. The developed solution was then assessed through an extensive empirical evaluation in five different scenarios: polyp detection, skin detection, leukocytes recognition, environmental microorganism detection, and butterfly recognition. The model provides state-of-the-art results. All resources will be available online at https://github.com/AlbertoFormaggio1/Ensemble-Of-Segmentation.
2021
An empirical study on ensemble of segmentation approaches
Riconoscere oggetti all’interno delle immagini richiede delle abilità complesse che richiedono una conoscenza del contesto e la capacità di identificare i bordi degli oggetti stessi. Nel campo della computer vision, questo compito è chiamato segmentazione semantica e riguarda la classificazione di ogni pixel all’interno di un’immagine. Tale compito è di primaria importanza in molti scenari reali: nei veicoli autonomi, dove permette l’identificazione degli oggetti che circondano il veicolo, o nella diagnosi medica, in cui migliora la capacità di identificare patologie pericolose e quindi mitigare il rischio di serie conseguenze. In questo studio, proponiamo un nuovo modello per un multiclassificatore in grado di risolvere il compito di segmentazione semantica. Il modello si basa su reti neurali convoluzionali (CNN) e transformers. Un multiclassificatore usa diversi modelli le cui stime vengono aggregate così da ottenere l’output del sistema di multiclassificazione. Le prestazioni e la qualità delle previsioni dell’ensemble sono fortemente connessi ad alcuni fattori, tra cui il più importante è la diversità tra i singoli modelli. Nell’approccio qui proposto, abbiamo ottenuto questo risultato adottando diverse loss functions e testando con diversi metodi di data augmentation. Abbiamo sviluppato questo metodo combinando DeepLabV3+, HarDNet-MSEG e dei Pyramid Vision Transformers (PVT). La soluzione qui sviluppata è stata poi esaminata mediante un’ampia valutazione empirica in 5 diversi scenari: rilevamento di polipi, rilevamento della pelle, riconoscimento di leucociti, rilevamento di microorganismi e riconoscimento di farfalle. Il modello fornisce dei risultati che sono allo stato dell’arte. Tutte le risorse sono disponibili online all’indirizzo https://github.com/AlbertoFormaggio1/Ensemble-Of-Segmentation.
Ensemble
Segmentation
CNN
Deep Learning
File in questo prodotto:
File Dimensione Formato  
Formaggio_Alberto.pdf

accesso aperto

Dimensione 2.02 MB
Formato Adobe PDF
2.02 MB Adobe PDF Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/32222