Rilevamento non supervisionato di malware basato su DGA: test con il dataset AmritaDGA

I malware sono software dannosi e possono creare gravi problemi ai sistemi che colpiscono. Ne esistono di moltissime tipologie e con l’avanzare dello sviluppo di internet e la crescita degli utenti collegati sono sempre più stati usati per scopi di lucro. Gli attacchi da malware possono presentarsi in maniera più o meno eclatante, infatti su un computer potrebbe essere in esecuzione un malware di cui non conosciamo nemmeno l’esistenza. Molte famiglie di malware hanno bisogno di stabilire una connessione con un server C&C (command and control) per operare e per fare ciò hanno bisogno di un nome di dominio che identifichi tale server. Per evitare di essere rilevati, questi server usano nomi di dominio che cambiano periodicamente generati da un algoritmo di tipo DGA (Domain generation algorithm). Lo scopo della nostra ricerca sarà proprio quello di riuscire a distinguere i nomi di dominio generati da questi algoritmi da quelli normali e per farlo useremo delle tecniche di intelligenza artificiale. Per questo scopo sono già stati applicati numerosi metodi, dalle tecniche di Machine Learning più tradizionali alle più recenti tecniche di Deep Learning. Noi ci concentreremo proprio su quest’ultime e in particolare il nostro obiettivo sarà quello di usare tecniche di apprendimento non supervisionato. Ciò significa che per addestrare la nostra rete neurale non dovremo etichettare i nomi di dominio e non avremo bisogno di nomi di dominio generati da algoritmi ma solo di quelli legittimi. Questo sarà un grande vantaggio dato che i primi sono molto più difficili da reperire. Il tipo di rete neurale che useremo in particolare è chiamato autocodificatore (autoencoder) e per rappresentare i nostri nomi di dominio proveremo a usare diverse tecniche di embedding basate su n-grammi, senza ricorrere all’estrazione esplicita di feature. Alla fine valuteremo i risultati dei nostri esperimenti e ne discuteremo.

Rilevamento non supervisionato di malware basato su DGA: test con il dataset AmritaDGA

MALPIEDI, RICCARDO

2021/2022

Abstract

I malware sono software dannosi e possono creare gravi problemi ai sistemi che colpiscono. Ne esistono di moltissime tipologie e con l’avanzare dello sviluppo di internet e la crescita degli utenti collegati sono sempre più stati usati per scopi di lucro. Gli attacchi da malware possono presentarsi in maniera più o meno eclatante, infatti su un computer potrebbe essere in esecuzione un malware di cui non conosciamo nemmeno l’esistenza. Molte famiglie di malware hanno bisogno di stabilire una connessione con un server C&C (command and control) per operare e per fare ciò hanno bisogno di un nome di dominio che identifichi tale server. Per evitare di essere rilevati, questi server usano nomi di dominio che cambiano periodicamente generati da un algoritmo di tipo DGA (Domain generation algorithm). Lo scopo della nostra ricerca sarà proprio quello di riuscire a distinguere i nomi di dominio generati da questi algoritmi da quelli normali e per farlo useremo delle tecniche di intelligenza artificiale. Per questo scopo sono già stati applicati numerosi metodi, dalle tecniche di Machine Learning più tradizionali alle più recenti tecniche di Deep Learning. Noi ci concentreremo proprio su quest’ultime e in particolare il nostro obiettivo sarà quello di usare tecniche di apprendimento non supervisionato. Ciò significa che per addestrare la nostra rete neurale non dovremo etichettare i nomi di dominio e non avremo bisogno di nomi di dominio generati da algoritmi ma solo di quelli legittimi. Questo sarà un grande vantaggio dato che i primi sono molto più difficili da reperire. Il tipo di rete neurale che useremo in particolare è chiamato autocodificatore (autoencoder) e per rappresentare i nostri nomi di dominio proveremo a usare diverse tecniche di embedding basate su n-grammi, senza ricorrere all’estrazione esplicita di feature. Alla fine valuteremo i risultati dei nostri esperimenti e ne discuteremo.

Scheda breve

Scheda completa

Scheda completa (DC)

	Facoltà/Dipartimento
	
				Dipartimento Ingegneria dell'Informazione
			
	Corso di studio
	
				INGEGNERIA INFORMATICA E DELL'AUTOMAZIONE
			
	Anno Accademico
	
				2021
			
	Data dell'esame finale
	
				2022-10-27
			
	Titolo inglese
	
				DGA-based malware unsupervised detection: test with AmritaDGA dataset
			
	Relatore
	
				SPALAZZI, LUCA
			
	Correlatore
	
				CUCCHIARELLI, ALESSANDRO
			
	Appare nelle tipologie:
	
				Laurea triennale, diploma universitario

File in questo prodotto:

File	Dimensione	Formato
Malpiedi_tesi_definitivo.pdf accesso aperto Descrizione: Tesi di Malpiedi Riccardo Dimensione 1.18 MB Formato Adobe PDF Visualizza/Apri	1.18 MB	Adobe PDF	Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12075/10891

UNITesiUniversità Politecnica delle Marche