The rapid evolution of generative models has led to an increasing capability of generating convincing synthetic speech, posing significant challenges to existing fake speech detection systems. Detectors that perform reliably against current forgeries often struggle to generalize when confronted with newly emerging generation methods, making frequent re-training or adaptation indispensable. However, continual re-training introduces two major concerns: the risk of catastrophic forgetting—a degradation of performance on previously learned data—and the substantial computational cost associated with full model updates. In this work, we propose a forgetting-resilient framework for synthetic speech detection based on the integration of domain translators within a frozen detector architecture. Instead of re-training the detector from scratch, the proposed approach introduces lightweight domain adaptation modules that remap heterogeneous feature spaces from new data distributions into the latent representation of the original model. This traceback conversion allows the model to interpret unseen DeepFake speech within its pre-learned feature space, effectively preserving performance on prior domains while maintaining adaptability to new ones. Comprehensive experiments conducted on multiple datasets demonstrate that the proposed method achieves competitive detection rates against recent DeepFake audio generation techniques, minimizes computational overhead, and significantly reduces catastrophic forgetting when compared to conventional re-training or fine-tuning strategies. These results highlight the potential of feature-space domain translation as a scalable and robust solution for maintaining long-term reliability in fake speech detection systems.

La recente evoluzione dei modelli generativi ha portato alla produzione di tracce vocali sintetiche sempre più realistiche, ponendo sfide significative ai moderni sistemi automatici di rilevamento di tracce generate. I modelli che offrono alta accuratezza nel rilevamento di audio sintetici creati dalle tencologie attuali, perdono efficacia e capacità di generalizzazione di fronte a nuove architetture o algoritmi generativi, rendendo necessario un costante riaddestramento o adattamento dei modelli. Tuttavia, un aggiornamento continuo porta principalmente due conseguenze: il rischio di catastrophic forgetting — ossia un deterioramento delle prestazioni sui dati precedentemente appresi — e l’elevato costo computazionale associato al riaddestramento completo del modello. In questo progetto si propone un framework resiliente al catastrophic forgetting per il rilevamento di tracce vocali sintetiche, basato sull’integrazione di traduttori in grado di passare da un dominio latente all’altro all’interno di un modello, senza che quest’ultimo venga completamente riaddestrato. Nei capitoli che seguono vengono presentati moduli leggeri di domain adaptation che rimappano gli spazi delle caratteristiche eterogenei, provenienti da nuove distribuzioni di dati, nello spazio latente del modello originale. Tale processo di traceback conversion consente al modello di interpretare campioni creati da algoritmi mai visti in precedenza all’interno dello spazio delle caratteristiche già appreso, preservando la struttura del dominio originario e adattandosi, al tempo stesso, ai nuovi contesti. Gli esperimenti condotti su diversi dataset dimostrano che il metodo proposto raggiunge un’accuratezza competitiva nei confronti delle più recenti tecniche di generazione di DeepFake audio, riducendo il costo computazionale e mitigando in modo significativo il fenomeno del catastrophic forgetting rispetto alle strategie tradizionali di riaddestramento o fine-tuning. I risultati ottenuti evidenziano il potenziale della traduzione nello spazio delle caratteristiche come soluzione scalabile e robusta per garantire l’affidabilità a lungo termine dei sistemi di rilevamento di audio sintetici.

Continual Learning Strategies for DeepFake Audio Detection

GOTTARDIS, ENRICO
2024/2025

Abstract

The rapid evolution of generative models has led to an increasing capability of generating convincing synthetic speech, posing significant challenges to existing fake speech detection systems. Detectors that perform reliably against current forgeries often struggle to generalize when confronted with newly emerging generation methods, making frequent re-training or adaptation indispensable. However, continual re-training introduces two major concerns: the risk of catastrophic forgetting—a degradation of performance on previously learned data—and the substantial computational cost associated with full model updates. In this work, we propose a forgetting-resilient framework for synthetic speech detection based on the integration of domain translators within a frozen detector architecture. Instead of re-training the detector from scratch, the proposed approach introduces lightweight domain adaptation modules that remap heterogeneous feature spaces from new data distributions into the latent representation of the original model. This traceback conversion allows the model to interpret unseen DeepFake speech within its pre-learned feature space, effectively preserving performance on prior domains while maintaining adaptability to new ones. Comprehensive experiments conducted on multiple datasets demonstrate that the proposed method achieves competitive detection rates against recent DeepFake audio generation techniques, minimizes computational overhead, and significantly reduces catastrophic forgetting when compared to conventional re-training or fine-tuning strategies. These results highlight the potential of feature-space domain translation as a scalable and robust solution for maintaining long-term reliability in fake speech detection systems.
2024
Continual Learning Strategies for DeepFake Audio Detection
La recente evoluzione dei modelli generativi ha portato alla produzione di tracce vocali sintetiche sempre più realistiche, ponendo sfide significative ai moderni sistemi automatici di rilevamento di tracce generate. I modelli che offrono alta accuratezza nel rilevamento di audio sintetici creati dalle tencologie attuali, perdono efficacia e capacità di generalizzazione di fronte a nuove architetture o algoritmi generativi, rendendo necessario un costante riaddestramento o adattamento dei modelli. Tuttavia, un aggiornamento continuo porta principalmente due conseguenze: il rischio di catastrophic forgetting — ossia un deterioramento delle prestazioni sui dati precedentemente appresi — e l’elevato costo computazionale associato al riaddestramento completo del modello. In questo progetto si propone un framework resiliente al catastrophic forgetting per il rilevamento di tracce vocali sintetiche, basato sull’integrazione di traduttori in grado di passare da un dominio latente all’altro all’interno di un modello, senza che quest’ultimo venga completamente riaddestrato. Nei capitoli che seguono vengono presentati moduli leggeri di domain adaptation che rimappano gli spazi delle caratteristiche eterogenei, provenienti da nuove distribuzioni di dati, nello spazio latente del modello originale. Tale processo di traceback conversion consente al modello di interpretare campioni creati da algoritmi mai visti in precedenza all’interno dello spazio delle caratteristiche già appreso, preservando la struttura del dominio originario e adattandosi, al tempo stesso, ai nuovi contesti. Gli esperimenti condotti su diversi dataset dimostrano che il metodo proposto raggiunge un’accuratezza competitiva nei confronti delle più recenti tecniche di generazione di DeepFake audio, riducendo il costo computazionale e mitigando in modo significativo il fenomeno del catastrophic forgetting rispetto alle strategie tradizionali di riaddestramento o fine-tuning. I risultati ottenuti evidenziano il potenziale della traduzione nello spazio delle caratteristiche come soluzione scalabile e robusta per garantire l’affidabilità a lungo termine dei sistemi di rilevamento di audio sintetici.
DeepFake
Audio
Detection
Deep learning
Continual Learning
File in questo prodotto:
File Dimensione Formato  
Gottardis_Enrico.pdf

embargo fino al 23/10/2026

Dimensione 20.4 MB
Formato Adobe PDF
20.4 MB Adobe PDF

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/95828