Natural language processing (NLP) offers powerful tools, such as text suggestions to help users be more efficient or classifiers that categorize documents by their content. These tools are usually powered by machine learning (ML) models that are trained using textual data, such as emails, chats, or medical records, which frequently contain sensitive data or personally identifiable information. Thus, it is important for companies working in this field to assess the risk of customer data leakage and potential privacy breaches. This assessment is also required to proactively comply with data protection laws, such as the General Data Protection Regulation (GDPR), which enforces the need for privacy and demands protection against data breaches. This thesis analyzes some of the major privacy threats that have emerged in recent research work from using ML models in the NLP domain. Particular attention is placed on text representation models, which convert texts into numerical vectors. The objective is to assess whether sensitive information can be inferred simply by accessing vector representations (embeddings) of texts. For this purpose, we first review different text representation approaches, ranging from classical models to more recent ones based on deep learning. We then implement a recently proposed inversion attack and test it against the representation produced by the various models to analyze what type of information can be leaked and under which conditions recovery is possible. Empirical results show that vectors that encode texts can reveal an astonishing amount of sensitive information, potentially compromising user privacy. For example, proper names can be recovered from vectors produced even by the most recent state-of-the-art deep learning models.

Le tecnologie collegate al natural language processing (NLP) offrono potenti strumenti per l'analisi testuale, ad esempio suggeritori automatici per aiutare gli utenti ad essere più efficienti o classificatori che categorizzano i documenti in base al loro contenuto. Questi strumenti sono solitamente alimentati da modelli di machine learning (ML) addestrati su dati testuali come e-mail, chat o cartelle cliniche che spesso possono contenere dati sensibili o informazioni di identificazione personale. Per le aziende che operano in questo settore è quindi importante valutare il rischio di esposizione dei dati dei clienti e di conseguenti potenziali violazioni della privacy. Questa valutazione è necessaria anche per conformarsi in modo proattivo alle leggi sulla protezione dei dati, come il regolamento generale sulla protezione dei dati (GDPR), che impone il rispetto della privacy e la protezione contro le violazioni dei dati. Questa tesi analizza alcune delle principali minacce alla privacy, emerse in recenti lavori di ricerca, derivanti dall'uso di modelli ML in ambito NLP. Particolare attenzione viene posta sui modelli di rappresentazione del testo, che vengono utilizzati per convertire i testi in vettori numerici. L'obiettivo è valutare se le informazioni sensibili possono essere dedotte semplicemente accedendo alle rappresentazioni vettoriali dei testi (embedding). A questo scopo, passiamo prima in rassegna diversi modelli di rappresentazione del testo, dai quelli classici a quelli più recenti basati sul deep learning. Successivamente, implementiamo un attacco di inversione recentemente proposto e applicato contro le rappresentazioni prodotte dai vari modelli, al fine di analizzare quale tipo di informazione può essere trapelata e in quali condizioni è possibile il recupero. I risultati empirici mostrano che i vettori che codificano i testi possono rivelare una quantità sorprendente di informazioni, compromettendo potenzialmente la privacy degli utenti. Ad esempio, nomi propri possono essere recuperati da vettori prodotti anche dai più recenti modelli all'avanguardia basati sul deep learning.

Privacy leakage analysis of text representations for Natural Language Processing

CORÒ, LUCA
2021/2022

Abstract

Natural language processing (NLP) offers powerful tools, such as text suggestions to help users be more efficient or classifiers that categorize documents by their content. These tools are usually powered by machine learning (ML) models that are trained using textual data, such as emails, chats, or medical records, which frequently contain sensitive data or personally identifiable information. Thus, it is important for companies working in this field to assess the risk of customer data leakage and potential privacy breaches. This assessment is also required to proactively comply with data protection laws, such as the General Data Protection Regulation (GDPR), which enforces the need for privacy and demands protection against data breaches. This thesis analyzes some of the major privacy threats that have emerged in recent research work from using ML models in the NLP domain. Particular attention is placed on text representation models, which convert texts into numerical vectors. The objective is to assess whether sensitive information can be inferred simply by accessing vector representations (embeddings) of texts. For this purpose, we first review different text representation approaches, ranging from classical models to more recent ones based on deep learning. We then implement a recently proposed inversion attack and test it against the representation produced by the various models to analyze what type of information can be leaked and under which conditions recovery is possible. Empirical results show that vectors that encode texts can reveal an astonishing amount of sensitive information, potentially compromising user privacy. For example, proper names can be recovered from vectors produced even by the most recent state-of-the-art deep learning models.
2021
Privacy leakage analysis of text representations for Natural Language Processing
Le tecnologie collegate al natural language processing (NLP) offrono potenti strumenti per l'analisi testuale, ad esempio suggeritori automatici per aiutare gli utenti ad essere più efficienti o classificatori che categorizzano i documenti in base al loro contenuto. Questi strumenti sono solitamente alimentati da modelli di machine learning (ML) addestrati su dati testuali come e-mail, chat o cartelle cliniche che spesso possono contenere dati sensibili o informazioni di identificazione personale. Per le aziende che operano in questo settore è quindi importante valutare il rischio di esposizione dei dati dei clienti e di conseguenti potenziali violazioni della privacy. Questa valutazione è necessaria anche per conformarsi in modo proattivo alle leggi sulla protezione dei dati, come il regolamento generale sulla protezione dei dati (GDPR), che impone il rispetto della privacy e la protezione contro le violazioni dei dati. Questa tesi analizza alcune delle principali minacce alla privacy, emerse in recenti lavori di ricerca, derivanti dall'uso di modelli ML in ambito NLP. Particolare attenzione viene posta sui modelli di rappresentazione del testo, che vengono utilizzati per convertire i testi in vettori numerici. L'obiettivo è valutare se le informazioni sensibili possono essere dedotte semplicemente accedendo alle rappresentazioni vettoriali dei testi (embedding). A questo scopo, passiamo prima in rassegna diversi modelli di rappresentazione del testo, dai quelli classici a quelli più recenti basati sul deep learning. Successivamente, implementiamo un attacco di inversione recentemente proposto e applicato contro le rappresentazioni prodotte dai vari modelli, al fine di analizzare quale tipo di informazione può essere trapelata e in quali condizioni è possibile il recupero. I risultati empirici mostrano che i vettori che codificano i testi possono rivelare una quantità sorprendente di informazioni, compromettendo potenzialmente la privacy degli utenti. Ad esempio, nomi propri possono essere recuperati da vettori prodotti anche dai più recenti modelli all'avanguardia basati sul deep learning.
NLP
security
embeddings
privacy
machine learning
File in questo prodotto:
File Dimensione Formato  
Corò_Luca.pdf

accesso aperto

Dimensione 3.29 MB
Formato Adobe PDF
3.29 MB Adobe PDF Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/35514