Inferenza del dataset da modelli di diffusione generativi

Questa tesi esplora la vulnerabilità dei modelli di intelligenza artificiale, in particolare dei Diffusion Models (DM), rispetto ad uno specifico attacco noto come Membership Inference Attack (MIA). Tali attacchi mirano a determinare se un determinato dato sia stato incluso nel set di addestramento del modello, rivelando potenziali rischi per la privacy. La tesi esplora il funzionamento di questi modelli, ed esamina la letteratura esistente sugli attacchi di inferenza di appartenenza (MIAs) e relative strategie difensive. Tramite il calcolo dell’Errore Quadratico Medio (MSE) tra le immagini pulite dal modello e quelle originali, si riesce, sotto particolari condizioni, a distinguere tra le immagini utilizzate durante l’addestramento e quelle di testing. Viene quindi valutata la performance di un MIA sul dataset di immagini MNIST, che rivela variazioni significative nell’efficacia dell’attacco tra le diverse cifre. Dai risultati emerge che il MIA è più efficace quando il modello è addestrato su un numero limitato di campioni e per un elevato numero di epoche, suggerendo che il modello tende a memorizzare i dati di addestramento piuttosto che generalizzare. Al contrario, con dataset più ampi e meno epoche di addestramento, il modello risulta più resistente agli attacchi di inferenza.

Inferenza del dataset da modelli di diffusione generativi

BERNO, SARA

2023/2024

Abstract

Questa tesi esplora la vulnerabilità dei modelli di intelligenza artificiale, in particolare dei Diffusion Models (DM), rispetto ad uno specifico attacco noto come Membership Inference Attack (MIA). Tali attacchi mirano a determinare se un determinato dato sia stato incluso nel set di addestramento del modello, rivelando potenziali rischi per la privacy. La tesi esplora il funzionamento di questi modelli, ed esamina la letteratura esistente sugli attacchi di inferenza di appartenenza (MIAs) e relative strategie difensive. Tramite il calcolo dell’Errore Quadratico Medio (MSE) tra le immagini pulite dal modello e quelle originali, si riesce, sotto particolari condizioni, a distinguere tra le immagini utilizzate durante l’addestramento e quelle di testing. Viene quindi valutata la performance di un MIA sul dataset di immagini MNIST, che rivela variazioni significative nell’efficacia dell’attacco tra le diverse cifre. Dai risultati emerge che il MIA è più efficace quando il modello è addestrato su un numero limitato di campioni e per un elevato numero di epoche, suggerendo che il modello tende a memorizzare i dati di addestramento piuttosto che generalizzare. Al contrario, con dataset più ampi e meno epoche di addestramento, il modello risulta più resistente agli attacchi di inferenza.

Scheda

Scheda DC

	Facoltà/Dipartimento
	
				Dipartimento di Ingegneria dell'Informazione - DEI
			
	Corso di studio
	
				INGEGNERIA INFORMATICA Laurea di Primo Livello (D.M. 270/2004)
			
	Anno Accademico
	
				2023
			
	Titolo inglese
	
				Dataset inference on generative diffusion models
			
	Parola chiave
	
				data inference
generative AI
diffusion model
deep learning
privacy
			
	Relatore
	
				MILANI, SIMONE
			
	Appare nelle tipologie:
	
				Lauree triennali

File in questo prodotto:

File	Dimensione	Formato
Berno_Sara.pdf accesso aperto Dimensione 5.26 MB Formato Adobe PDF Visualizza/Apri	5.26 MB	Adobe PDF	Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/71282