Rilevamento di Malware tramite uso di una rete neurale LSTM con embedding pre-trained

Nell’odierno mondo tecnologico il crimine informatico è il principale problema che affligge in modo trasversale governi, aziende e corporation. Esso introduce una criticità estremamente importante nella gestione delle organizzazioni in quanto spesso la vittima si accorge dell’intrusione solo dopo che il danno è stato fatto. Seguendo le ultime statistiche, nel gennaio del 2019 sono stati registrati 2 milioni di record di dati rubati e nel 2021 i danni causati dai crimini informatici raggiungeranno i 6 trilioni di dollari [1]. Secondo Symantec [2] risulta che il 71% degli attacchi utilizza mail di phishing al fine di ottenere dati riservati o di installare all’interno della macchina della vittima software malevoli che consentano al potenziale attaccante di ottenere informazioni relative a dati riservati. Questa tipologia di attacchi è molto difficile da prevenire in quanto riguarda sopratutto carenze di conoscenza sul corretto utilizzo delle reti da parte degli utenti. Un attacco ben strutturato può avere diverse finalità: dall’installazione di un ransomware, furto di informazioni o creazione di un punto zombie per una botnet. Mentre alcuni attacchi si palesano al momento dell’esecuzione del software malevolo, altri rimangono silenti mantenendo aperta una porta di accesso all’attaccante. Per questo motivo è nata una seriedi approcci per l’identificazione di reti affette da malware, che cercano di risolvere il problema partendo da due presupposti: che l’operatore umano non sia in grado di rilevare il phishing oppure che la rete sia stata già attaccata. Nel panorama della malware detection si possono identificare diversi approcci e quello che verrà affrontato in questo lavoro approfondisce l’uso di una rete neurale LSTM cercando di classificare i semplici nomi di dominio che vengono generati da algoritmi chiamati DGA. Questo perché pur essendo algoritmi che dovrebbero generare casualmente i nomi di dominio, nei sistemi informatici l’entropia è sempre deterministica. Questa classificazione viene fatta analizzando nel dettaglio il livello di embedding che corrisponde al livello nel quale i nomi dominio vengono trasformati in vettori numerici, definiti proprio “embedding”, per essere processati dalla rete neurale. Questo livello può lavorare in due modi differenti, o la matrice di embedding viene ricostruita a partire dai singoli nomi dominio, oppure vengono caricati dei vettori che vengono generati dall’addestramento un’altra rete neurale specifica per questo scopo. Nell’esperimento vengono confrontante le performance della rete neurale “semplice” e pre-addestrata con FastText .

Rilevamento di Malware tramite uso di una rete neurale LSTM con embedding pre-trained

OGHABI, FRANCESCO

2018/2019

Abstract

Nell’odierno mondo tecnologico il crimine informatico è il principale problema che affligge in modo trasversale governi, aziende e corporation. Esso introduce una criticità estremamente importante nella gestione delle organizzazioni in quanto spesso la vittima si accorge dell’intrusione solo dopo che il danno è stato fatto. Seguendo le ultime statistiche, nel gennaio del 2019 sono stati registrati 2 milioni di record di dati rubati e nel 2021 i danni causati dai crimini informatici raggiungeranno i 6 trilioni di dollari [1]. Secondo Symantec [2] risulta che il 71% degli attacchi utilizza mail di phishing al fine di ottenere dati riservati o di installare all’interno della macchina della vittima software malevoli che consentano al potenziale attaccante di ottenere informazioni relative a dati riservati. Questa tipologia di attacchi è molto difficile da prevenire in quanto riguarda sopratutto carenze di conoscenza sul corretto utilizzo delle reti da parte degli utenti. Un attacco ben strutturato può avere diverse finalità: dall’installazione di un ransomware, furto di informazioni o creazione di un punto zombie per una botnet. Mentre alcuni attacchi si palesano al momento dell’esecuzione del software malevolo, altri rimangono silenti mantenendo aperta una porta di accesso all’attaccante. Per questo motivo è nata una seriedi approcci per l’identificazione di reti affette da malware, che cercano di risolvere il problema partendo da due presupposti: che l’operatore umano non sia in grado di rilevare il phishing oppure che la rete sia stata già attaccata. Nel panorama della malware detection si possono identificare diversi approcci e quello che verrà affrontato in questo lavoro approfondisce l’uso di una rete neurale LSTM cercando di classificare i semplici nomi di dominio che vengono generati da algoritmi chiamati DGA. Questo perché pur essendo algoritmi che dovrebbero generare casualmente i nomi di dominio, nei sistemi informatici l’entropia è sempre deterministica. Questa classificazione viene fatta analizzando nel dettaglio il livello di embedding che corrisponde al livello nel quale i nomi dominio vengono trasformati in vettori numerici, definiti proprio “embedding”, per essere processati dalla rete neurale. Questo livello può lavorare in due modi differenti, o la matrice di embedding viene ricostruita a partire dai singoli nomi dominio, oppure vengono caricati dei vettori che vengono generati dall’addestramento un’altra rete neurale specifica per questo scopo. Nell’esperimento vengono confrontante le performance della rete neurale “semplice” e pre-addestrata con FastText .

Scheda breve

Scheda completa

Scheda completa (DC)

	Facoltà/Dipartimento
	
				Dipartimento Ingegneria dell'Informazione
			
	Corso di studio
	
				INGEGNERIA INFORMATICA E DELL'AUTOMAZIONE
			
	Anno Accademico
	
				2018
			
	Data dell'esame finale
	
				2019-12-17
			
	Titolo inglese
	
				Malware detection using LSTM deep neural network with pre-trained embeddings
			
	Relatore
	
				CUCCHIARELLI, ALESSANDRO
			
	Correlatore
	
				MORBIDONI, CHRISTIAN
			
	Appare nelle tipologie:
	
				Laurea specialistica, magistrale, ciclo unico

File in questo prodotto:

File	Dimensione	Formato
tesiFInale.pdf Open Access dal 17/12/2021 Descrizione: Tesi Dimensione 1.78 MB Formato Adobe PDF Visualizza/Apri	1.78 MB	Adobe PDF	Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12075/6184

UNITesiUniversità Politecnica delle Marche