Nell’odierno mondo tecnologico il crimine informatico è il principale problema che affligge in modo trasversale governi, aziende e corporation. Esso introduce una criticità estremamente importante nella gestione delle organizzazioni in quanto spesso la vittima si accorge dell’intrusione solo dopo che il danno è stato fatto. Seguendo le ultime statistiche, nel gennaio del 2019 sono stati registrati 2 milioni di record di dati rubati e nel 2021 i danni causati dai crimini informatici raggiungeranno i 6 trilioni di dollari [1]. Secondo Symantec [2] risulta che il 71% degli attacchi utilizza mail di phishing al fine di ottenere dati riservati o di installare all’interno della macchina della vittima software malevoli che consentano al potenziale attaccante di ottenere informazioni relative a dati riservati. Questa tipologia di attacchi è molto difficile da prevenire in quanto riguarda sopratutto carenze di conoscenza sul corretto utilizzo delle reti da parte degli utenti. Un attacco ben strutturato può avere diverse finalità: dall’installazione di un ransomware, furto di informazioni o creazione di un punto zombie per una botnet. Mentre alcuni attacchi si palesano al momento dell’esecuzione del software malevolo, altri rimangono silenti mantenendo aperta una porta di accesso all’attaccante. Per questo motivo è nata una seriedi approcci per l’identificazione di reti affette da malware, che cercano di risolvere il problema partendo da due presupposti: che l’operatore umano non sia in grado di rilevare il phishing oppure che la rete sia stata già attaccata. Nel panorama della malware detection si possono identificare diversi approcci e quello che verrà affrontato in questo lavoro approfondisce l’uso di una rete neurale LSTM cercando di classificare i semplici nomi di dominio che vengono generati da algoritmi chiamati DGA. Questo perché pur essendo algoritmi che dovrebbero generare casualmente i nomi di dominio, nei sistemi informatici l’entropia è sempre deterministica. Questa classificazione viene fatta analizzando nel dettaglio il livello di embedding che corrisponde al livello nel quale i nomi dominio vengono trasformati in vettori numerici, definiti proprio “embedding”, per essere processati dalla rete neurale. Questo livello può lavorare in due modi differenti, o la matrice di embedding viene ricostruita a partire dai singoli nomi dominio, oppure vengono caricati dei vettori che vengono generati dall’addestramento un’altra rete neurale specifica per questo scopo. Nell’esperimento vengono confrontante le performance della rete neurale “semplice” e pre-addestrata con FastText .

Rilevamento di Malware tramite uso di una rete neurale LSTM con embedding pre-trained

OGHABI, FRANCESCO
2018/2019

Abstract

Nell’odierno mondo tecnologico il crimine informatico è il principale problema che affligge in modo trasversale governi, aziende e corporation. Esso introduce una criticità estremamente importante nella gestione delle organizzazioni in quanto spesso la vittima si accorge dell’intrusione solo dopo che il danno è stato fatto. Seguendo le ultime statistiche, nel gennaio del 2019 sono stati registrati 2 milioni di record di dati rubati e nel 2021 i danni causati dai crimini informatici raggiungeranno i 6 trilioni di dollari [1]. Secondo Symantec [2] risulta che il 71% degli attacchi utilizza mail di phishing al fine di ottenere dati riservati o di installare all’interno della macchina della vittima software malevoli che consentano al potenziale attaccante di ottenere informazioni relative a dati riservati. Questa tipologia di attacchi è molto difficile da prevenire in quanto riguarda sopratutto carenze di conoscenza sul corretto utilizzo delle reti da parte degli utenti. Un attacco ben strutturato può avere diverse finalità: dall’installazione di un ransomware, furto di informazioni o creazione di un punto zombie per una botnet. Mentre alcuni attacchi si palesano al momento dell’esecuzione del software malevolo, altri rimangono silenti mantenendo aperta una porta di accesso all’attaccante. Per questo motivo è nata una seriedi approcci per l’identificazione di reti affette da malware, che cercano di risolvere il problema partendo da due presupposti: che l’operatore umano non sia in grado di rilevare il phishing oppure che la rete sia stata già attaccata. Nel panorama della malware detection si possono identificare diversi approcci e quello che verrà affrontato in questo lavoro approfondisce l’uso di una rete neurale LSTM cercando di classificare i semplici nomi di dominio che vengono generati da algoritmi chiamati DGA. Questo perché pur essendo algoritmi che dovrebbero generare casualmente i nomi di dominio, nei sistemi informatici l’entropia è sempre deterministica. Questa classificazione viene fatta analizzando nel dettaglio il livello di embedding che corrisponde al livello nel quale i nomi dominio vengono trasformati in vettori numerici, definiti proprio “embedding”, per essere processati dalla rete neurale. Questo livello può lavorare in due modi differenti, o la matrice di embedding viene ricostruita a partire dai singoli nomi dominio, oppure vengono caricati dei vettori che vengono generati dall’addestramento un’altra rete neurale specifica per questo scopo. Nell’esperimento vengono confrontante le performance della rete neurale “semplice” e pre-addestrata con FastText .
2018
2019-12-17
Malware detection using LSTM deep neural network with pre-trained embeddings
File in questo prodotto:
File Dimensione Formato  
tesiFInale.pdf

Open Access dal 17/12/2021

Descrizione: Tesi
Dimensione 1.78 MB
Formato Adobe PDF
1.78 MB Adobe PDF Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12075/6184