Recent improvements in fake audio generation techniques have required further research in the field of audio forgery detection. This work presents a model based on Generative Adversarial Networks (GANs), designed to distinguish between pristine and fake audio samples through a reconstruction-based anomaly detection approach. The proposed architecture comprises three main neural networks: the two standard components of a GAN, namely the generator and the discriminator respectively, and an additional network called the inverse generator, which serves as an encoder. A key aspect of this work is that the training process mainly involves pristine audio samples. The generator (G) is trained to produce realistic and pristine audio, while the discriminator (D) learns to distinguish them from the originals. In the second phase, the inverse generator (IG) gets as input generated realistic samples and maps them into a latent space, minimizing the reconstruction error between these samples and the corresponding outputs produced by the generator. In the end, a fine-tuning phase re-trains the discriminator, where D learns to discriminate between originals and samples regenerated via the pipeline IG + G. The last phase consists of applying machine learning algorithms to perform anomaly detection on features extracted from pristine and fake audio using the trained discriminator. This thesis will describe the model architecture in detail, focusing on the stylistic choices that led to its final version, the training process, and the techniques used to perform the anomaly detection task.
Negli ultimi anni, lo sviluppo di tecniche sempre più sofisticate per la generazione di audio ha evidenziato la necessità di approfondire gli studi e indirizzare la ricerca verso lo sviluppo di nuovi metodi per il rilevamento di audio creati artificialmente. Questa tesi propone un modello basato su una Rete Generativa Avversaria (GAN), concepito per distinguere audio autentici e sintetici mediante un approccio di rilevamento di anomalie basato sulla ricostruzione. L’architettura è composta da tre reti neurali: le due componenti tipiche di una GAN, ovvero il generatore e il discriminatore, e una rete aggiuntiva denominata “encoder", che opera come inverso del generatore. La fase di allenamento del modello coinvolge soprattutto campioni audio reali: il generatore impara a produrre audio tanto più simili a quelli autentici, mentre il discriminatore deve distinguere i campioni generati da quelli originali. In una fase successiva, l’encoder viene addestrato a proiettare i campioni audio reali e quelli prodotti dal generatore in uno spazio latente, che diventerà poi il nuovo spazio di input del generatore stesso; l'obiettivo dell'encoder è quello di minimizzare l’errore di ricostruzione tra gli audio ricevuti in ingresso durante questa fase di allenamento e i corrispondenti output del generatore. In un ulteriore step di training il discriminatore viene ottimizzato usando campioni audio falsi, con l’obiettivo di potenziare la sua capacità di identificare tali audio come anomalie. L’ultima fase consiste nell’usare il discriminatore per estrarre delle features da audio falsi e reali e nell'applicare un classificatore che implementa algoritmi di machine learning su tali rappresentazioni per rilevare gli audio falsi come anomalie. La tesi descrive nel dettaglio l’architettura del modello, con particolare attenzione alle scelte progettuali che ne hanno determinato la versione finale, al processo di addestramento delle reti e alle tecniche impiegate per il rilevamento delle anomalie.
Audio Deepfake Detection using Inverse Generative Adversarial Network
PAMPAGNIN, LEDIA
2024/2025
Abstract
Recent improvements in fake audio generation techniques have required further research in the field of audio forgery detection. This work presents a model based on Generative Adversarial Networks (GANs), designed to distinguish between pristine and fake audio samples through a reconstruction-based anomaly detection approach. The proposed architecture comprises three main neural networks: the two standard components of a GAN, namely the generator and the discriminator respectively, and an additional network called the inverse generator, which serves as an encoder. A key aspect of this work is that the training process mainly involves pristine audio samples. The generator (G) is trained to produce realistic and pristine audio, while the discriminator (D) learns to distinguish them from the originals. In the second phase, the inverse generator (IG) gets as input generated realistic samples and maps them into a latent space, minimizing the reconstruction error between these samples and the corresponding outputs produced by the generator. In the end, a fine-tuning phase re-trains the discriminator, where D learns to discriminate between originals and samples regenerated via the pipeline IG + G. The last phase consists of applying machine learning algorithms to perform anomaly detection on features extracted from pristine and fake audio using the trained discriminator. This thesis will describe the model architecture in detail, focusing on the stylistic choices that led to its final version, the training process, and the techniques used to perform the anomaly detection task.| File | Dimensione | Formato | |
|---|---|---|---|
|
Pampagnin_Ledia.pdf
accesso aperto
Dimensione
1.45 MB
Formato
Adobe PDF
|
1.45 MB | Adobe PDF | Visualizza/Apri |
The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License
https://hdl.handle.net/20.500.12608/95804