Recent breakthroughs in image colorization, especially using diffusion models, transformers, and GANs, have significantly improved the perceptual realism of automatically colorized images. However, these high-capacity models come with a considerable computational cost, limiting their deployment in real-time and resource-constrained environments. The core problem addressed in this thesis is how to achieve the vivid, semantically consistent colorizations of large generative models without incurring their heavy computational burden. To solve this, we propose TrustDistill, a lightweight and modular framework for perceptual image colorization via disagreement-aware multi-teacher distillation. TrustDistill compresses the knowledge from an ensemble of diverse, high-performance teacher models into a compact student network with fewer than 12 million parameters achieving real-time inference on CPUs, <150 ms per image, while retaining high perceptual quality. The methodological foundation of TrustDistill is a disagreement-aware distillation strategy that models pixel-wise trust using two orthogonal uncertainty measures: epistemic uncertainty (inter-teacher perceptual agreement) and aleatoric uncertainty (alignment between teacher outputs and ground truth). These trust signals dynamically modulate a hybrid loss function, adaptively balancing perceptual imitation from teachers with supervised correction from ground truth, allowing the student to learn robustly even in ambiguous or noisy regions. Experimental results on the Landscape Image Colorization Dataset demonstrate that the TrustDistill student model achieves perceptual quality comparable to much larger teacher networks, as reflected by its lowest LPIPS (0.1255) and highest SSIM (0.9511) among all models tested. Furthermore, TrustDistill delivers over 10× faster inference than transformer-based or instance-aware teacher models, making it suitable for deployment on commodity hardware.

I recenti progressi nella colorazione automatica delle immagini, in particolare tramite modelli di diffusione, transformer e GAN, hanno migliorato in modo significativo il realismo percettivo delle immagini colorate automaticamente. Tuttavia, questi modelli ad alta capacità comportano un notevole costo computazionale, limitandone l’adozione in ambienti che richiedono elaborazione in tempo reale o dispongono di risorse limitate. Il problema centrale affrontato in questa tesi è come ottenere colorazioni vivide e semanticamente coerenti, tipiche dei grandi modelli generativi, senza incorrere nel loro pesante onere computazionale. Per risolvere questo problema, proponiamo TrustDistill, un framework leggero e modulare per la colorazione percettiva delle immagini basato su una distillazione multi-insegnante sensibile al disaccordo. TrustDistill comprime la conoscenza di un insieme eterogeneo di modelli insegnanti ad alte prestazioni in una rete studente compatta, con meno di 12 milioni di parametri, in grado di eseguire l’inferenza in tempo reale su CPU (<150 ms per immagine), mantenendo al contempo un’elevata qualità percettiva. Il fondamento metodologico di TrustDistill è una strategia di distillazione che tiene conto del disaccordo tra insegnanti, modellando la fiducia a livello di pixel mediante due misure ortogonali di incertezza: l’incertezza epistemica (accordo percettivo tra insegnanti) e l’incertezza aleatoria (allineamento tra le uscite degli insegnanti e la verità a terra). Questi segnali di fiducia modulano dinamicamente una funzione di perdita ibrida, bilanciando in modo adattivo l’imitazione percettiva degli insegnanti con la correzione supervisionata fornita dalla verità a terra, permettendo così allo studente di apprendere in modo robusto anche in regioni ambigue o rumorose. I risultati sperimentali sul Landscape Image Colorization Dataset dimostrano che il modello studente di TrustDistill raggiunge una qualità percettiva paragonabile a quella di reti insegnanti molto più grandi, come evidenziato dal valore più basso di LPIPS (0,1255) e dal valore più alto di SSIM (0,9511) tra tutti i modelli testati. Inoltre, TrustDistill garantisce un’inferenza oltre 10 volte più veloce rispetto ai modelli insegnanti basati su transformer o instance-aware, rendendolo adatto alla distribuzione su hardware di largo consumo.

Disagreement-Aware Multi-Teacher Distillation for Perceptual Image Colorization

MIRZAZADEH, BAHADOR
2024/2025

Abstract

Recent breakthroughs in image colorization, especially using diffusion models, transformers, and GANs, have significantly improved the perceptual realism of automatically colorized images. However, these high-capacity models come with a considerable computational cost, limiting their deployment in real-time and resource-constrained environments. The core problem addressed in this thesis is how to achieve the vivid, semantically consistent colorizations of large generative models without incurring their heavy computational burden. To solve this, we propose TrustDistill, a lightweight and modular framework for perceptual image colorization via disagreement-aware multi-teacher distillation. TrustDistill compresses the knowledge from an ensemble of diverse, high-performance teacher models into a compact student network with fewer than 12 million parameters achieving real-time inference on CPUs, <150 ms per image, while retaining high perceptual quality. The methodological foundation of TrustDistill is a disagreement-aware distillation strategy that models pixel-wise trust using two orthogonal uncertainty measures: epistemic uncertainty (inter-teacher perceptual agreement) and aleatoric uncertainty (alignment between teacher outputs and ground truth). These trust signals dynamically modulate a hybrid loss function, adaptively balancing perceptual imitation from teachers with supervised correction from ground truth, allowing the student to learn robustly even in ambiguous or noisy regions. Experimental results on the Landscape Image Colorization Dataset demonstrate that the TrustDistill student model achieves perceptual quality comparable to much larger teacher networks, as reflected by its lowest LPIPS (0.1255) and highest SSIM (0.9511) among all models tested. Furthermore, TrustDistill delivers over 10× faster inference than transformer-based or instance-aware teacher models, making it suitable for deployment on commodity hardware.
2024
Disagreement-Aware Multi-Teacher Distillation for Perceptual Image Colorization
I recenti progressi nella colorazione automatica delle immagini, in particolare tramite modelli di diffusione, transformer e GAN, hanno migliorato in modo significativo il realismo percettivo delle immagini colorate automaticamente. Tuttavia, questi modelli ad alta capacità comportano un notevole costo computazionale, limitandone l’adozione in ambienti che richiedono elaborazione in tempo reale o dispongono di risorse limitate. Il problema centrale affrontato in questa tesi è come ottenere colorazioni vivide e semanticamente coerenti, tipiche dei grandi modelli generativi, senza incorrere nel loro pesante onere computazionale. Per risolvere questo problema, proponiamo TrustDistill, un framework leggero e modulare per la colorazione percettiva delle immagini basato su una distillazione multi-insegnante sensibile al disaccordo. TrustDistill comprime la conoscenza di un insieme eterogeneo di modelli insegnanti ad alte prestazioni in una rete studente compatta, con meno di 12 milioni di parametri, in grado di eseguire l’inferenza in tempo reale su CPU (<150 ms per immagine), mantenendo al contempo un’elevata qualità percettiva. Il fondamento metodologico di TrustDistill è una strategia di distillazione che tiene conto del disaccordo tra insegnanti, modellando la fiducia a livello di pixel mediante due misure ortogonali di incertezza: l’incertezza epistemica (accordo percettivo tra insegnanti) e l’incertezza aleatoria (allineamento tra le uscite degli insegnanti e la verità a terra). Questi segnali di fiducia modulano dinamicamente una funzione di perdita ibrida, bilanciando in modo adattivo l’imitazione percettiva degli insegnanti con la correzione supervisionata fornita dalla verità a terra, permettendo così allo studente di apprendere in modo robusto anche in regioni ambigue o rumorose. I risultati sperimentali sul Landscape Image Colorization Dataset dimostrano che il modello studente di TrustDistill raggiunge una qualità percettiva paragonabile a quella di reti insegnanti molto più grandi, come evidenziato dal valore più basso di LPIPS (0,1255) e dal valore più alto di SSIM (0,9511) tra tutti i modelli testati. Inoltre, TrustDistill garantisce un’inferenza oltre 10 volte più veloce rispetto ai modelli insegnanti basati su transformer o instance-aware, rendendolo adatto alla distribuzione su hardware di largo consumo.
KnowledgeDistil
MultiTeacherLearning
ImageColorization
UncertaintyEstimate
ImagePerception
File in questo prodotto:
File Dimensione Formato  
Bahador Mirzazadeh Thesis PDFA.pdf

Accesso riservato

Dimensione 6.87 MB
Formato Adobe PDF
6.87 MB Adobe PDF

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/89833