Una delle attuali sfide del Machine Learning è ottenere modelli dalle dimensioni ridotte, ma che abbiano prestazioni comparabili a quelle di modelli più complessi. L'obiettivo di questa Tesi è quello di analizzare gli effetti della Knowledge Distillation (KD) su una serie di modelli per la generazione di segnali audio. Scopo ultimo di questa Tesi è quindi di dimostrare l'efficacia della KD, implementando modelli dalle dimensioni ridotte, ma con prestazioni elevate. La Knowledge Distillation è una forma di compressione dei modelli, in cui un modello teacher viene utilizzato per addestrare un modello student di dimensioni ridotte, con l'obiettivo di eguagliare o addirittura superare le prestazioni del teacher. Sono stati implementati 3 tipi di modelli teacher, ognuno dei quali corrisponde ad un decoder DDSP che controlla un sintetizzatore Harmonic-plus-Noise: un GRUdecoder basato su reti ricorrenti; un TCNdecoder basato su reti convolutive; un S4decoder basato su reti a spazio di stato. Sono state eseguite due tipologie di esperimenti al fine di analizzare l'efficacia della Knowledge Distillation, sia quando lo student corrisponde ad una versione ridotta del teacher, sia quando corrisponde ad un modello con architettura differente. Nella prima serie di esperimenti ognuno dei tre modelli teacher è stato ridotto per un fattore pari a ∼10 e ∼100, ottenendo un totale di sei modelli student di dimensioni ridotte. Nella seconda serie di esperimenti, come modello student è stato utilizzato il DDX7, un decoder DDSP di piccole dimensioni che controlla un sintetizzatore FM.
Knowledge Distillation di modelli neurali per la generazione di segnali audio
GIUDICI, GREGORIO ANDREA
2022/2023
Abstract
Una delle attuali sfide del Machine Learning è ottenere modelli dalle dimensioni ridotte, ma che abbiano prestazioni comparabili a quelle di modelli più complessi. L'obiettivo di questa Tesi è quello di analizzare gli effetti della Knowledge Distillation (KD) su una serie di modelli per la generazione di segnali audio. Scopo ultimo di questa Tesi è quindi di dimostrare l'efficacia della KD, implementando modelli dalle dimensioni ridotte, ma con prestazioni elevate. La Knowledge Distillation è una forma di compressione dei modelli, in cui un modello teacher viene utilizzato per addestrare un modello student di dimensioni ridotte, con l'obiettivo di eguagliare o addirittura superare le prestazioni del teacher. Sono stati implementati 3 tipi di modelli teacher, ognuno dei quali corrisponde ad un decoder DDSP che controlla un sintetizzatore Harmonic-plus-Noise: un GRUdecoder basato su reti ricorrenti; un TCNdecoder basato su reti convolutive; un S4decoder basato su reti a spazio di stato. Sono state eseguite due tipologie di esperimenti al fine di analizzare l'efficacia della Knowledge Distillation, sia quando lo student corrisponde ad una versione ridotta del teacher, sia quando corrisponde ad un modello con architettura differente. Nella prima serie di esperimenti ognuno dei tre modelli teacher è stato ridotto per un fattore pari a ∼10 e ∼100, ottenendo un totale di sei modelli student di dimensioni ridotte. Nella seconda serie di esperimenti, come modello student è stato utilizzato il DDX7, un decoder DDSP di piccole dimensioni che controlla un sintetizzatore FM.File | Dimensione | Formato | |
---|---|---|---|
Tesi_Magistrale___Gregorio_Andrea_Giudici.pdf
embargo fino al 18/10/2025
Descrizione: File pdf/a contenente la Tesi, comprensiva di Frontespizio non firmato
Dimensione
3.63 MB
Formato
Adobe PDF
|
3.63 MB | Adobe PDF |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.12075/15165