Difesa Collaborativa Basata su Fiducia tramite Federated NIDS con IP2Vec, Differential Privacy e Homomorphic Encryption

In the context of neural networks (NNs), approaches such as Federated Learning (FL) enable collaboration among multiple entities during the training phase, achieving improvements through the sharing of model updates rather than original data. Advanced techniques such as Homomorphic Encryption (HE) and Differential Privacy (DP) provide additional layers of protection: HE ensures protection during both transmission and computation by allowing computations to be performed directly on encrypted data, so that neither servers nor intermediate entities can access the shared information, whereas DP guarantees output protection against inference by introducing controlled noise into the data or into query results, preventing third parties from inferring sensitive information about the individuals or entities involved. Together with integrity and availability, confidentiality represents a central topic in cybersecurity. Typically, confidentiality is achieved through access control authorizing the reading of data. Today, it is even necessary to evaluate the implications of indirect access to data through inference on aggregated outputs. HE makes it possible to obtain encrypted aggregated results starting from encrypted data. DP formally limits the extent to which any single cleartext datum can be re-identified from the aggregated result. As a case study, the training of a neural network within a federated scenario is considered. For reasons of opportunity, the application domain of the NN is leveraged to further investigate more traditional security topics, aiming at the prototyping of a classic network monitoring system, namely a Network Intrusion Detection System (NIDS), using advanced techniques such as PCA, Hyperband, and IP2VEC. This choice appears consistent with the logic of modern defense architectures, which cannot dispense with the use of Unified Threat Management (UTM) models, where intelligence sharing is a priority. Cooperation no longer takes place solely through the exchange of signatures or indicators of compromise, but through the mutual sharing of learned knowledge, resulting in a form of collective defense. The research proposes a modular and reproducible pipeline for NIDS built on the CIC-IDS-2018 dataset, selected for its application relevance but characterized by strong variability in class distribution and by known biases and labeling errors, which are treated as an operational constraint in the evaluation. To mitigate redundancies and noise, dimensionality reduction is applied via Principal Component Analysis to select the most significant features, while to address the combinatorial complexity introduced by permutations of IP addresses, ports, and protocols, an embedding based on skip-gram of flow 5-tuples is generated according to the IP2Vec approach \cite{Ring2017IP2VEC}. The resulting representation is used as input for final hyperparameter tuning through Hyperband and for reference training on a Multi-Layer Perceptron with four hidden layers, a methodological choice inspired by Liu et al. \cite{liu2022error} that balances reproducibility and expressive capacity. The experimental scheme includes pair-wise comparisons between a centralized scenario and distributed scenarios, structured to isolate specific contributions: the cost of decentralization (A vs B), the overhead and degradation introduced by homomorphic encryption (B vs C), the privacy–utility trade-off of Differential Privacy (B vs D), and the DP–HE interaction (B vs E). The results correlate utility metrics and operational metrics to quantify the trade-offs among privacy, accuracy, and implementation costs in distributed NIDS contexts, providing experimental artifacts for traceability and recommendations for future developments and scalability studies.

Nel contesto delle NN approcci come il Federated Learning (FL) consentono la collaborazione tra più entità in fase di training per migliorare tramite la condivisione di aggiornamenti di modello piuttosto che dei dati originali. Tecniche avanzate come l'Homomorphic Encryption (HE) e la Differential Privacy (DP) offrono ulteriori livelli di protezione: La HE garantisce protezione durante transito e calcolo permettendo di eseguire calcoli direttamente sui dati cifrati, così che né server né entità intermedie possano accedere alle informazioni condivise, mentre la DP garantisce protezione in output contro le inferenze introducendo un rumore controllato nei dati o nei risultati delle query, impedendo a terzi di inferire informazioni sensibili sugli individui o sulle entità coinvolte. Insieme ad integrità e disponibilità la confidenzialità rappresenta un tema centrale della cybersecurity. Tipicamente la confidenzialità è soddisfatta tramite controllo degli accessi autorizzati a leggere i dati. Oggi è opportuno addirittura valutare implicazioni di accessi indiretti ai dati per mezzo di inferenza su output aggregati. HE consente di ottenere risultati aggregati cifrati a partire da dati cifrati. DP limita formalmente quanto ogni singolo dato in chiaro possa essere re-identificato a partire dal risultato aggregato. Come caso di studio viene considerato il training di una rete neurale all'interno di uno scenario federato. Per questioni di opportunità si sfrutterà il dominio di applicazione della NN per approfondire tematiche di sicurezza più tradizionali mirando alla prototipazione di un classico apparato di monitoraggio delle reti un Network Intrusion Detection System (NIDS) utilizzando tecniche avanzate come PCA, Hyperband, IP2VEC. Questa scelta appare coerente con la logica delle moderne architetture di difesa che non possono prescindere dall'impiego di modelli di Unified Threat Management (UTM), dove lo scambio di intelligence è prioritario. La cooperazione non avviene più soltanto tramite scambio di signature o indicatori di compromissione, ma attraverso la mutua condivisione di conoscenza appresa, dando seguito a una forma di difesa collettiva. La ricerca propone una pipeline modulare e riproducibile per NIDS costruita sul dataset CIC-IDS-2018, selezionato per la sua rilevanza applicativa ma caratterizzato da forte variabilità di distribuzione delle classi e da noti bias ed errori di labeling che vengono trattati come vincolo operativo nella valutazione. Per mitigare ridondanze e rumore si applica una riduzione dimensionale tramite Principal Component Analysis per selezionare le feature più significative, mentre per affrontare la complessità combinatoria introdotta dalle permutazioni di IP, porte e protocolli si genera un embedding basato su skip-gram delle 5-tuple di flusso secondo l'approccio IP2Vec \cite{Ring2017IP2VEC}. La rappresentazione risultante viene impiegata come input per il tuning finale degli iperparametri mediante Hyperband e per il training di riferimento su un Multi-Layer Perceptron a quattro hidden layer, scelta metodologica ispirata a Liu et al. \cite{liu2022error} che bilancia riproducibilità e capacità espressiva. Lo schema sperimentale prevede confronti pair-wise tra uno scenario centralizzato e scenari distribuiti, strutturati in modo da isolare specifici contributi: il costo della decentralizzazione (A vs B), l’overhead e la degradazione introdotti dalla cifratura homomorfica (B vs C), il trade-off privacy–utility di Differential Privacy (B vs D) e l’interazione DP–HE (B vs E). I risultati correlano metriche di utilità e metriche operative per quantificare i compromessi tra privacy, accuratezza e costi implementativi in contesti NIDS distribuiti, fornendo artefatti sperimentali per la tracciabilità e raccomandazioni per futuri sviluppi e studi di scalabilità.