The recent diffusion of audio recording devices and synthetic speech synthesis algorithms have fostered the widespread of fake speech signals. Indeed, the rapid evolution of computing facilities and deepfake technologies has allowed the generation of more and more credible synthetic speech audio signals, which can be use maliciously in in several legal and informative processes. Fake human speech recordings have recently proved significantly harmful with respect to misinformation, fake news widespreading distributed through social media platforms, frauds and ID replacement. As a matter of fact, the development of efficient detection algorithms that verify the authenticity and integrity of audio recordings and help human listeners in discriminating fraudulent audio samples from bonafide ones is therefore paramount. In this thesis we propose some methods for synthetic speech detection in audio forensics scenarios. The first approach uses the First Digits (FD) statistics computed on signal transform coefficients to detect peculiar characteristics of a fake audio signal. The second method is based instead on Neural Implicit Representation (NIR). However this thesis represents only a preliminary analysis, which we hope will help widening the perspectives of audio forensic research.

La recente diffusione di dispositivi per la registrazione di audio e di algoritmi di sintesi vocale ha favorito la diffusione di segnali audio falsificati. Infatti, la rapida evoluzione di programmi informatici e di tecnologie deepfake ha consentito la generazione di segnali audio sintetici sempre più credibili, che possono essere utilizzati maliziosamente in diversi processi legali e informativi. Queste registrazioni falsificate del parlato umano si sono recentemente rivelate significativamente dannose perché possono essere utilizzate per la diffusione di notizie false attraverso social media, per commettere frodi e per sostituire o rubare l’identità. È quindi di fondamentale importanza lo sviluppo di efficienti algoritmi di rilevamento che siano in grado di verificare l'autenticità e l'integrità delle registrazioni audio ed aiutino l’uomo a discriminare gli audio falsificati da quelli autentici. In questa tesi vengono proposti alcuni metodi per il rilevamento del parlato sintetico in scenari di audio forense. Il primo approccio utilizza le statistiche First Digits (FD) calcolate sui coefficienti estratti dal segnale per rilevare le caratteristiche peculiari di un audio falsificato. Il secondo metodo si basa invece sulla Neural Implicit Representation (NIR). Tuttavia questa tesi rappresenta solo un'analisi preliminare, che speriamo possa aiutare ad ampliare le prospettive della ricerca audio-forense.

Algoritmi per il rilevamento di audio sintetici

LATORA, FEDERICA
2021/2022

Abstract

The recent diffusion of audio recording devices and synthetic speech synthesis algorithms have fostered the widespread of fake speech signals. Indeed, the rapid evolution of computing facilities and deepfake technologies has allowed the generation of more and more credible synthetic speech audio signals, which can be use maliciously in in several legal and informative processes. Fake human speech recordings have recently proved significantly harmful with respect to misinformation, fake news widespreading distributed through social media platforms, frauds and ID replacement. As a matter of fact, the development of efficient detection algorithms that verify the authenticity and integrity of audio recordings and help human listeners in discriminating fraudulent audio samples from bonafide ones is therefore paramount. In this thesis we propose some methods for synthetic speech detection in audio forensics scenarios. The first approach uses the First Digits (FD) statistics computed on signal transform coefficients to detect peculiar characteristics of a fake audio signal. The second method is based instead on Neural Implicit Representation (NIR). However this thesis represents only a preliminary analysis, which we hope will help widening the perspectives of audio forensic research.
2021
Synthetic speech detection algorithms
La recente diffusione di dispositivi per la registrazione di audio e di algoritmi di sintesi vocale ha favorito la diffusione di segnali audio falsificati. Infatti, la rapida evoluzione di programmi informatici e di tecnologie deepfake ha consentito la generazione di segnali audio sintetici sempre più credibili, che possono essere utilizzati maliziosamente in diversi processi legali e informativi. Queste registrazioni falsificate del parlato umano si sono recentemente rivelate significativamente dannose perché possono essere utilizzate per la diffusione di notizie false attraverso social media, per commettere frodi e per sostituire o rubare l’identità. È quindi di fondamentale importanza lo sviluppo di efficienti algoritmi di rilevamento che siano in grado di verificare l'autenticità e l'integrità delle registrazioni audio ed aiutino l’uomo a discriminare gli audio falsificati da quelli autentici. In questa tesi vengono proposti alcuni metodi per il rilevamento del parlato sintetico in scenari di audio forense. Il primo approccio utilizza le statistiche First Digits (FD) calcolate sui coefficienti estratti dal segnale per rilevare le caratteristiche peculiari di un audio falsificato. Il secondo metodo si basa invece sulla Neural Implicit Representation (NIR). Tuttavia questa tesi rappresenta solo un'analisi preliminare, che speriamo possa aiutare ad ampliare le prospettive della ricerca audio-forense.
Synthetic speech
First digit features
deepfake audio
Neural implicit repr
fake detection
File in questo prodotto:
File Dimensione Formato  
Latora_Federica.pdf

accesso aperto

Dimensione 6.57 MB
Formato Adobe PDF
6.57 MB Adobe PDF Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/36547