Demistificare la visualizzazione delle immagini dei malware: migliorare la riproducibilità e la spiegabilità

The persistent increase in malicious files encountered in the digital realm has posed an ongoing obstacle for security researchers from the advent of personal computers to the present day. Malware infection is a threat, particularly in platforms such as Android and Windows. These two OSs represent 64,25% of the whole worldwide consumer market share. Windows specifically, is the most targeted platform. Cyber security researchers have to identify and categorize the malware strains as soon as they are discovered to have a possibility of defending public institutions, business organizations, and ordinary people. In the last few years, an effective way to classify malicious files in their respective families has been the use of neural networks and, in particular, CNNs. The application of neural networks in a delicate field like cyber security brings with it important challenges that can be found in other domains like medicine and autonomous vehicles. Two of the major ones, rarely explored in the literature, are the problem of reproducibility and explainability of the results. In this thesis, we aim to replicate state-of-the-art CNN models from existing literature while employing class activation maps, a powerful and essential tool in the realm of explainability, to provide insightful explanations for their results.

L'aumento persistente dei malware riscontrati nel mondo digitale ha rappresentato un ostacolo continuo per i ricercatori nell'ambito della sicurezza informatica, dall'avvento dei personal computer fino ai giorni nostri. L'infezione da malware rappresenta una minaccia, in particolare nelle piattaforme come Android e Windows. Questi due sistemi operativi rappresentano il 64,25% dell'intera quota di mercato mondiale dei consumatori. In particolare, Windows è la piattaforma più presa di mira. I ricercatori devono identificare e categorizzare i ceppi di malware non appena vengono scoperti, al fine di difendere istituzioni pubbliche, aziende e persone comuni. Negli ultimi anni, un modo efficace per classificare i file maligni nelle rispettive famiglie è stato l'utilizzo di reti neurali e, in particolare, delle CNN (reti neurali convoluzionali). L'applicazione delle reti neurali in un campo delicato come la sicurezza informatica presenta importanti sfide che si possono riscontrare anche in altri settori come la medicina e lo sviluppo di veicoli autonomi. Due delle maggiori sfide, poco esplorate nella letteratura, sono il problema della riproducibilità e dell'interpretabilità dei risultati. In questa tesi, ci proponiamo di replicare modelli di CNN all'avanguardia tratti dalla letteratura esistente, utilizzando contemporaneamente mappe di attivazione di classe (CAM), uno strumento potente ed essenziale nel campo dell'interpretabilità, per fornire spiegazioni dettagliate dei risultati ottenuti.

Demistificare la visualizzazione delle immagini dei malware: migliorare la riproducibilità e la spiegabilità

BROSOLO, MATTEO

2022/2023

Abstract

The persistent increase in malicious files encountered in the digital realm has posed an ongoing obstacle for security researchers from the advent of personal computers to the present day. Malware infection is a threat, particularly in platforms such as Android and Windows. These two OSs represent 64,25% of the whole worldwide consumer market share. Windows specifically, is the most targeted platform. Cyber security researchers have to identify and categorize the malware strains as soon as they are discovered to have a possibility of defending public institutions, business organizations, and ordinary people. In the last few years, an effective way to classify malicious files in their respective families has been the use of neural networks and, in particular, CNNs. The application of neural networks in a delicate field like cyber security brings with it important challenges that can be found in other domains like medicine and autonomous vehicles. Two of the major ones, rarely explored in the literature, are the problem of reproducibility and explainability of the results. In this thesis, we aim to replicate state-of-the-art CNN models from existing literature while employing class activation maps, a powerful and essential tool in the realm of explainability, to provide insightful explanations for their results.

Scheda

Scheda DC

	Facoltà/Dipartimento
	
				Dipartimento di Ingegneria dell'Informazione - DEI
			
	Corso di studio
	
				COMPUTER ENGINEERING Laurea Magistrale (D.M. 270/2004)
			
	Anno Accademico
	
				2022
			
	Titolo inglese
	
				Demystifying Malware Image Visualization: Enhancing Reproducibility and Explainability
			
	Abstract in italiano
	
				L'aumento persistente dei malware riscontrati nel mondo digitale ha rappresentato un ostacolo continuo per i ricercatori nell'ambito della sicurezza informatica, dall'avvento dei personal computer fino ai giorni nostri. L'infezione da malware rappresenta una minaccia, in particolare nelle piattaforme come Android e Windows. Questi due sistemi operativi rappresentano il 64,25% dell'intera quota di mercato mondiale dei consumatori. In particolare, Windows è la piattaforma più presa di mira. I ricercatori devono identificare e categorizzare i ceppi di malware non appena vengono scoperti, al fine di difendere istituzioni pubbliche, aziende e persone comuni. Negli ultimi anni, un modo efficace per classificare i file maligni nelle rispettive famiglie è stato l'utilizzo di reti neurali e, in particolare, delle CNN (reti neurali convoluzionali). L'applicazione delle reti neurali in un campo delicato come la sicurezza informatica presenta importanti sfide che si possono riscontrare anche in altri settori come la medicina e lo sviluppo di veicoli autonomi. Due delle maggiori sfide, poco esplorate nella letteratura, sono il problema della riproducibilità e dell'interpretabilità dei risultati. In questa tesi, ci proponiamo di replicare modelli di CNN all'avanguardia tratti dalla letteratura esistente, utilizzando contemporaneamente mappe di attivazione di classe (CAM), uno strumento potente ed essenziale nel campo dell'interpretabilità, per fornire spiegazioni dettagliate dei risultati ottenuti.
			
	Parola chiave
	
				malware
visualization
reproducibility
explainability
neural networks
			
	Relatore
	
				CONTI, MAURO
			
	Appare nelle tipologie:
	
				Lauree magistrali

File in questo prodotto:

File	Dimensione	Formato
Brosolo_Matteo.pdf Open Access dal 12/10/2024 Dimensione 5.84 MB Formato Adobe PDF Visualizza/Apri	5.84 MB	Adobe PDF	Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/54142