Una delle attuali sfide del Machine Learning è ottenere modelli dalle dimensioni ridotte, ma che abbiano prestazioni comparabili a quelle di modelli più complessi. L'obiettivo di questa Tesi è quello di analizzare gli effetti della Knowledge Distillation (KD) su una serie di modelli per la generazione di segnali audio. Scopo ultimo di questa Tesi è quindi di dimostrare l'efficacia della KD, implementando modelli dalle dimensioni ridotte, ma con prestazioni elevate. La Knowledge Distillation è una forma di compressione dei modelli, in cui un modello teacher viene utilizzato per addestrare un modello student di dimensioni ridotte, con l'obiettivo di eguagliare o addirittura superare le prestazioni del teacher. Sono stati implementati 3 tipi di modelli teacher, ognuno dei quali corrisponde ad un decoder DDSP che controlla un sintetizzatore Harmonic-plus-Noise: un GRUdecoder basato su reti ricorrenti; un TCNdecoder basato su reti convolutive; un S4decoder basato su reti a spazio di stato. Sono state eseguite due tipologie di esperimenti al fine di analizzare l'efficacia della Knowledge Distillation, sia quando lo student corrisponde ad una versione ridotta del teacher, sia quando corrisponde ad un modello con architettura differente. Nella prima serie di esperimenti ognuno dei tre modelli teacher è stato ridotto per un fattore pari a ∼10 e ∼100, ottenendo un totale di sei modelli student di dimensioni ridotte. Nella seconda serie di esperimenti, come modello student è stato utilizzato il DDX7, un decoder DDSP di piccole dimensioni che controlla un sintetizzatore FM.

Knowledge Distillation di modelli neurali per la generazione di segnali audio

GIUDICI, GREGORIO ANDREA
2022/2023

Abstract

Una delle attuali sfide del Machine Learning è ottenere modelli dalle dimensioni ridotte, ma che abbiano prestazioni comparabili a quelle di modelli più complessi. L'obiettivo di questa Tesi è quello di analizzare gli effetti della Knowledge Distillation (KD) su una serie di modelli per la generazione di segnali audio. Scopo ultimo di questa Tesi è quindi di dimostrare l'efficacia della KD, implementando modelli dalle dimensioni ridotte, ma con prestazioni elevate. La Knowledge Distillation è una forma di compressione dei modelli, in cui un modello teacher viene utilizzato per addestrare un modello student di dimensioni ridotte, con l'obiettivo di eguagliare o addirittura superare le prestazioni del teacher. Sono stati implementati 3 tipi di modelli teacher, ognuno dei quali corrisponde ad un decoder DDSP che controlla un sintetizzatore Harmonic-plus-Noise: un GRUdecoder basato su reti ricorrenti; un TCNdecoder basato su reti convolutive; un S4decoder basato su reti a spazio di stato. Sono state eseguite due tipologie di esperimenti al fine di analizzare l'efficacia della Knowledge Distillation, sia quando lo student corrisponde ad una versione ridotta del teacher, sia quando corrisponde ad un modello con architettura differente. Nella prima serie di esperimenti ognuno dei tre modelli teacher è stato ridotto per un fattore pari a ∼10 e ∼100, ottenendo un totale di sei modelli student di dimensioni ridotte. Nella seconda serie di esperimenti, come modello student è stato utilizzato il DDX7, un decoder DDSP di piccole dimensioni che controlla un sintetizzatore FM.
2022
2023-10-19
Knowledge Distillation of neural models for audio signal generation
File in questo prodotto:
File Dimensione Formato  
Tesi_Magistrale___Gregorio_Andrea_Giudici.pdf

embargo fino al 18/10/2025

Descrizione: File pdf/a contenente la Tesi, comprensiva di Frontespizio non firmato
Dimensione 3.63 MB
Formato Adobe PDF
3.63 MB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12075/15165