In a Federated Learning (FL) environment, the limited computational resources of decentralized clients are a key constraint to address. This thesis builds upon the FedPromo framework, which leverages knowledge distillation during pretraining to align lightweight proxy models with large-scale foundation models. While this establishes a shared feature space, the resulting alignment is inherently imperfect due to architectural gaps. This work identifies that standard Federated Averaging (FedAvg) is suboptimal because it fails to mitigate these underlying mismatches, which can lead to performance issues when clients hold heterogeneous data. This work proposes and evaluates novel server-side aggregation strategies that introduce a second knowledge distillation phase. This step is performed on the server after model averaging, with the goal of realigning the proxy encoder's features with the foundation model, using the newly aggregated decoder as a guide. We empirically validate variations of this aggregation-time distillation, demonstrating that a properly stabilized strategy enhances performance. Our results on fine-grained image classification tasks show a measurable improvement in classification accuracy over the FedPromo baseline, enhancing generalization without adding any computational load to the client devices.

In un ambiente di Federated Learning (FL), le limitate risorse computazionali dei client decentralizzati rappresentano un vincolo cruciale. Questa tesi si basa sul framework FedPromo, che sfrutta la Knowledge Distillation durante il pretraining per allineare modelli proxy leggeri a foundation models di larga scala. Sebbene questo stabilisca uno spazio di rappresentazione condiviso, tale allineamento risulta intrinsecamente imperfetto a causa delle differenze architetturali. Questo lavoro evidenzia che lo standard Federated Averaging (FedAvg) non è ottimale poiché non mitiga tali disallineamenti delle feature, con conseguente degrado delle prestazioni quando i client possiedono dati eterogenei. Questo lavoro propone e valuta nuove strategie di aggregazione lato server che introducono una seconda fase di Knowledge Distillation. Questo passaggio viene eseguito sul server dopo l'aggregazione del modello mediante FedAvg, con l'obiettivo di riallineare le rappresentazioni dell'encoder proxy a quelle del foundation model, utilizzando il decoder appena aggregato come guida. Vengono validate empiricamente diverse varianti di questa distillazione in fase di aggregazione, dimostrando che una strategia opportunamente stabilizzata migliora le prestazioni. I risultati su task di classificazione di immagini fine-grained mostrano un incremento misurabile dell'accuratezza rispetto alla baseline FedPromo, migliorando la generalizzazione senza aggiungere carico computazionale aggiuntivo sui dispositivi client.

Federated adaptation of Foundation Models exploiting Features Alignment

BERTIN, FILIPPO
2024/2025

Abstract

In a Federated Learning (FL) environment, the limited computational resources of decentralized clients are a key constraint to address. This thesis builds upon the FedPromo framework, which leverages knowledge distillation during pretraining to align lightweight proxy models with large-scale foundation models. While this establishes a shared feature space, the resulting alignment is inherently imperfect due to architectural gaps. This work identifies that standard Federated Averaging (FedAvg) is suboptimal because it fails to mitigate these underlying mismatches, which can lead to performance issues when clients hold heterogeneous data. This work proposes and evaluates novel server-side aggregation strategies that introduce a second knowledge distillation phase. This step is performed on the server after model averaging, with the goal of realigning the proxy encoder's features with the foundation model, using the newly aggregated decoder as a guide. We empirically validate variations of this aggregation-time distillation, demonstrating that a properly stabilized strategy enhances performance. Our results on fine-grained image classification tasks show a measurable improvement in classification accuracy over the FedPromo baseline, enhancing generalization without adding any computational load to the client devices.
2024
Federated adaptation of Foundation Models exploiting Features Alignment
In un ambiente di Federated Learning (FL), le limitate risorse computazionali dei client decentralizzati rappresentano un vincolo cruciale. Questa tesi si basa sul framework FedPromo, che sfrutta la Knowledge Distillation durante il pretraining per allineare modelli proxy leggeri a foundation models di larga scala. Sebbene questo stabilisca uno spazio di rappresentazione condiviso, tale allineamento risulta intrinsecamente imperfetto a causa delle differenze architetturali. Questo lavoro evidenzia che lo standard Federated Averaging (FedAvg) non è ottimale poiché non mitiga tali disallineamenti delle feature, con conseguente degrado delle prestazioni quando i client possiedono dati eterogenei. Questo lavoro propone e valuta nuove strategie di aggregazione lato server che introducono una seconda fase di Knowledge Distillation. Questo passaggio viene eseguito sul server dopo l'aggregazione del modello mediante FedAvg, con l'obiettivo di riallineare le rappresentazioni dell'encoder proxy a quelle del foundation model, utilizzando il decoder appena aggregato come guida. Vengono validate empiricamente diverse varianti di questa distillazione in fase di aggregazione, dimostrando che una strategia opportunamente stabilizzata migliora le prestazioni. I risultati su task di classificazione di immagini fine-grained mostrano un incremento misurabile dell'accuratezza rispetto alla baseline FedPromo, migliorando la generalizzazione senza aggiungere carico computazionale aggiuntivo sui dispositivi client.
Federated Learning
Features Alignment
Image Classifcation
Computer Vision
Deep Learning
File in questo prodotto:
File Dimensione Formato  
Bertin_Filippo.pdf

embargo fino al 29/05/2027

Dimensione 1.59 MB
Formato Adobe PDF
1.59 MB Adobe PDF

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/98764