Quello che si studia in questa tesi è l'utilizzo di reti neurali che utilizzano un metodo di vettorizzazione dei dati (embedding) pre-addestrato, in modo da dare una base concettuale specifica al classificatore. In modo specifico viene testato l'embedding ELMo (Embeddings from Language Models) che si basa sulla vettorizzazione delle parole basandosi sul contesto di queste. Oltre a questo il lavoro verte sulla configurazione di queste reti in sistemi in cui vengono combinate per poterne incrementare le prestazioni. Tutto con lo scopo di classificare i nomi di dominio generati dai DGA (Domain Generation Algorithm) utilizzati dalle Botnet (reti di PC infetti usate con scopi criminali) per camuffare gli indirizzi del loro centro di controllo. In conclusione si constata un miglioramento delle prestazioni nell'utilizzo di un sistema ibrido che combina tre reti differenti (ognuna utilizza un embedding diverso), la prima che opera una classificazione binaria e le altre due , in parallelo tra loro, che si occupano della classificazione multiclasse in modo da distinguere anche quale sia la famiglia di DGA utilizzata.

Un sistema a classificatori multipli basato su pre-trained embeddings per il riconoscimento di DGA

CERIONI, COSTANTINO
2019/2020

Abstract

Quello che si studia in questa tesi è l'utilizzo di reti neurali che utilizzano un metodo di vettorizzazione dei dati (embedding) pre-addestrato, in modo da dare una base concettuale specifica al classificatore. In modo specifico viene testato l'embedding ELMo (Embeddings from Language Models) che si basa sulla vettorizzazione delle parole basandosi sul contesto di queste. Oltre a questo il lavoro verte sulla configurazione di queste reti in sistemi in cui vengono combinate per poterne incrementare le prestazioni. Tutto con lo scopo di classificare i nomi di dominio generati dai DGA (Domain Generation Algorithm) utilizzati dalle Botnet (reti di PC infetti usate con scopi criminali) per camuffare gli indirizzi del loro centro di controllo. In conclusione si constata un miglioramento delle prestazioni nell'utilizzo di un sistema ibrido che combina tre reti differenti (ognuna utilizza un embedding diverso), la prima che opera una classificazione binaria e le altre due , in parallelo tra loro, che si occupano della classificazione multiclasse in modo da distinguere anche quale sia la famiglia di DGA utilizzata.
2019
2020-07-18
Multiple classifier system based on pre-trained embeddings for DGA detection
File in questo prodotto:
File Dimensione Formato  
Tesi Magistrale - Cerioni Costantino matricola 1081178.pdf

Open Access dal 18/07/2022

Dimensione 3.57 MB
Formato Adobe PDF
3.57 MB Adobe PDF Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12075/3098