This thesis focuses on the comparative analysis of feature selection techniques for malware classification based on machine learning. With the proliferation of cyber threats, the application of machine learning techniques for malware detection has shown promising potential in addressing digital security challenges. However, proper feature selection is crucial for achieving accurate results. This research proposes a comparative analysis of filter, embedded, wrapped, and hybrid feature selection techniques using well-known malware datasets (UNSW-NB15 and TON_IoT). The goal is to identify the most effective technique for improving the accuracy and efficiency of malware classification models. The results demonstrate that accurate feature selection plays a crucial role in the effectiveness of classification models. The examined techniques have shown improvements in model performance by reducing computational complexity and providing greater precision in detecting malicious software. However, performance depends on the specific dataset used and the available computational resources. It is essential to carefully consider these factors when selecting the most suitable technique. This research provides an overview of feature selection techniques for malware classification, highlighting their strengths and limitations.

La presente tesi si focalizza sull'analisi comparativa delle tecniche di feature selection per la classificazione di malware basata su machine learning. Con il proliferare delle minacce informatiche, l'implementazione di tecniche di machine learning per la rivelazione di malware ha dimostrato di offrire un approccio promettente per affrontare le sfide della sicurezza digitale. Tuttavia, una corretta selezione delle caratteristiche (features) da utilizzare è cruciale per ottenere risultati accurati. Questa ricerca propone un'analisi comparativa delle tecniche di feature selection filter, embedded, wrapped e ibride, utilizzando dataset noti di malware (UNSW-NB15 e TON_IoT). L'obiettivo è identificare la tecnica più efficace per migliorare la precisione e l'efficienza dei modelli di classificazione di malware. I risultati mostrano che la selezione accurata delle caratteristiche gioca un ruolo cruciale nell'efficacia dei modelli di classificazione. Le tecniche esaminate hanno dimostrato di migliorare le performance dei modelli, riducendo la complessità computazionale e fornendo una maggiore precisione nella rilevazione di software dannosi. Tuttavia, le prestazioni dipendono dal tipo di dataset utilizzato e dalle risorse computazionali disponibili. È fondamentale considerare attentamente questi fattori nella scelta della tecnica più appropriata. Questa ricerca fornisce una panoramica delle tecniche di feature selection per la classificazione di malware, evidenziandone i punti di forza e le limitazioni.

Analisi comparativa di tecniche di feature selection per la classificazione di malware basata su machine learning

RUPOLI, ENRICO
2022/2023

Abstract

This thesis focuses on the comparative analysis of feature selection techniques for malware classification based on machine learning. With the proliferation of cyber threats, the application of machine learning techniques for malware detection has shown promising potential in addressing digital security challenges. However, proper feature selection is crucial for achieving accurate results. This research proposes a comparative analysis of filter, embedded, wrapped, and hybrid feature selection techniques using well-known malware datasets (UNSW-NB15 and TON_IoT). The goal is to identify the most effective technique for improving the accuracy and efficiency of malware classification models. The results demonstrate that accurate feature selection plays a crucial role in the effectiveness of classification models. The examined techniques have shown improvements in model performance by reducing computational complexity and providing greater precision in detecting malicious software. However, performance depends on the specific dataset used and the available computational resources. It is essential to carefully consider these factors when selecting the most suitable technique. This research provides an overview of feature selection techniques for malware classification, highlighting their strengths and limitations.
2022
2023-07-13
Comparative analysis of feature selection techniques for machine learning-based malware classification
La presente tesi si focalizza sull'analisi comparativa delle tecniche di feature selection per la classificazione di malware basata su machine learning. Con il proliferare delle minacce informatiche, l'implementazione di tecniche di machine learning per la rivelazione di malware ha dimostrato di offrire un approccio promettente per affrontare le sfide della sicurezza digitale. Tuttavia, una corretta selezione delle caratteristiche (features) da utilizzare è cruciale per ottenere risultati accurati. Questa ricerca propone un'analisi comparativa delle tecniche di feature selection filter, embedded, wrapped e ibride, utilizzando dataset noti di malware (UNSW-NB15 e TON_IoT). L'obiettivo è identificare la tecnica più efficace per migliorare la precisione e l'efficienza dei modelli di classificazione di malware. I risultati mostrano che la selezione accurata delle caratteristiche gioca un ruolo cruciale nell'efficacia dei modelli di classificazione. Le tecniche esaminate hanno dimostrato di migliorare le performance dei modelli, riducendo la complessità computazionale e fornendo una maggiore precisione nella rilevazione di software dannosi. Tuttavia, le prestazioni dipendono dal tipo di dataset utilizzato e dalle risorse computazionali disponibili. È fondamentale considerare attentamente questi fattori nella scelta della tecnica più appropriata. Questa ricerca fornisce una panoramica delle tecniche di feature selection per la classificazione di malware, evidenziandone i punti di forza e le limitazioni.
File in questo prodotto:
File Dimensione Formato  
Enrico Rupoli Tesi LM.pdf

embargo fino al 12/07/2025

Dimensione 3.14 MB
Formato Adobe PDF
3.14 MB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12075/13588