The persistent increase in malicious files encountered in the digital realm has posed an ongoing obstacle for security researchers from the advent of personal computers to the present day. Malware infection is a threat, particularly in platforms such as Android and Windows. These two OSs represent 64,25% of the whole worldwide consumer market share. Windows specifically, is the most targeted platform. Cyber security researchers have to identify and categorize the malware strains as soon as they are discovered to have a possibility of defending public institutions, business organizations, and ordinary people. In the last few years, an effective way to classify malicious files in their respective families has been the use of neural networks and, in particular, CNNs. The application of neural networks in a delicate field like cyber security brings with it important challenges that can be found in other domains like medicine and autonomous vehicles. Two of the major ones, rarely explored in the literature, are the problem of reproducibility and explainability of the results. In this thesis, we aim to replicate state-of-the-art CNN models from existing literature while employing class activation maps, a powerful and essential tool in the realm of explainability, to provide insightful explanations for their results.

L'aumento persistente dei malware riscontrati nel mondo digitale ha rappresentato un ostacolo continuo per i ricercatori nell'ambito della sicurezza informatica, dall'avvento dei personal computer fino ai giorni nostri. L'infezione da malware rappresenta una minaccia, in particolare nelle piattaforme come Android e Windows. Questi due sistemi operativi rappresentano il 64,25% dell'intera quota di mercato mondiale dei consumatori. In particolare, Windows è la piattaforma più presa di mira. I ricercatori devono identificare e categorizzare i ceppi di malware non appena vengono scoperti, al fine di difendere istituzioni pubbliche, aziende e persone comuni. Negli ultimi anni, un modo efficace per classificare i file maligni nelle rispettive famiglie è stato l'utilizzo di reti neurali e, in particolare, delle CNN (reti neurali convoluzionali). L'applicazione delle reti neurali in un campo delicato come la sicurezza informatica presenta importanti sfide che si possono riscontrare anche in altri settori come la medicina e lo sviluppo di veicoli autonomi. Due delle maggiori sfide, poco esplorate nella letteratura, sono il problema della riproducibilità e dell'interpretabilità dei risultati. In questa tesi, ci proponiamo di replicare modelli di CNN all'avanguardia tratti dalla letteratura esistente, utilizzando contemporaneamente mappe di attivazione di classe (CAM), uno strumento potente ed essenziale nel campo dell'interpretabilità, per fornire spiegazioni dettagliate dei risultati ottenuti.

Demistificare la visualizzazione delle immagini dei malware: migliorare la riproducibilità e la spiegabilità

BROSOLO, MATTEO
2022/2023

Abstract

The persistent increase in malicious files encountered in the digital realm has posed an ongoing obstacle for security researchers from the advent of personal computers to the present day. Malware infection is a threat, particularly in platforms such as Android and Windows. These two OSs represent 64,25% of the whole worldwide consumer market share. Windows specifically, is the most targeted platform. Cyber security researchers have to identify and categorize the malware strains as soon as they are discovered to have a possibility of defending public institutions, business organizations, and ordinary people. In the last few years, an effective way to classify malicious files in their respective families has been the use of neural networks and, in particular, CNNs. The application of neural networks in a delicate field like cyber security brings with it important challenges that can be found in other domains like medicine and autonomous vehicles. Two of the major ones, rarely explored in the literature, are the problem of reproducibility and explainability of the results. In this thesis, we aim to replicate state-of-the-art CNN models from existing literature while employing class activation maps, a powerful and essential tool in the realm of explainability, to provide insightful explanations for their results.
2022
Demystifying Malware Image Visualization: Enhancing Reproducibility and Explainability
L'aumento persistente dei malware riscontrati nel mondo digitale ha rappresentato un ostacolo continuo per i ricercatori nell'ambito della sicurezza informatica, dall'avvento dei personal computer fino ai giorni nostri. L'infezione da malware rappresenta una minaccia, in particolare nelle piattaforme come Android e Windows. Questi due sistemi operativi rappresentano il 64,25% dell'intera quota di mercato mondiale dei consumatori. In particolare, Windows è la piattaforma più presa di mira. I ricercatori devono identificare e categorizzare i ceppi di malware non appena vengono scoperti, al fine di difendere istituzioni pubbliche, aziende e persone comuni. Negli ultimi anni, un modo efficace per classificare i file maligni nelle rispettive famiglie è stato l'utilizzo di reti neurali e, in particolare, delle CNN (reti neurali convoluzionali). L'applicazione delle reti neurali in un campo delicato come la sicurezza informatica presenta importanti sfide che si possono riscontrare anche in altri settori come la medicina e lo sviluppo di veicoli autonomi. Due delle maggiori sfide, poco esplorate nella letteratura, sono il problema della riproducibilità e dell'interpretabilità dei risultati. In questa tesi, ci proponiamo di replicare modelli di CNN all'avanguardia tratti dalla letteratura esistente, utilizzando contemporaneamente mappe di attivazione di classe (CAM), uno strumento potente ed essenziale nel campo dell'interpretabilità, per fornire spiegazioni dettagliate dei risultati ottenuti.
malware
visualization
reproducibility
explainability
neural networks
File in questo prodotto:
File Dimensione Formato  
Brosolo_Matteo.pdf

embargo fino al 11/10/2024

Dimensione 5.84 MB
Formato Adobe PDF
5.84 MB Adobe PDF

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/54142