Knowledge Distillation di modelli neurali per la generazione di segnali audio

Una delle attuali sfide del Machine Learning è ottenere modelli dalle dimensioni ridotte, ma che abbiano prestazioni comparabili a quelle di modelli più complessi. L'obiettivo di questa Tesi è quello di analizzare gli effetti della Knowledge Distillation (KD) su una serie di modelli per la generazione di segnali audio. Scopo ultimo di questa Tesi è quindi di dimostrare l'efficacia della KD, implementando modelli dalle dimensioni ridotte, ma con prestazioni elevate. La Knowledge Distillation è una forma di compressione dei modelli, in cui un modello teacher viene utilizzato per addestrare un modello student di dimensioni ridotte, con l'obiettivo di eguagliare o addirittura superare le prestazioni del teacher. Sono stati implementati 3 tipi di modelli teacher, ognuno dei quali corrisponde ad un decoder DDSP che controlla un sintetizzatore Harmonic-plus-Noise: un GRUdecoder basato su reti ricorrenti; un TCNdecoder basato su reti convolutive; un S4decoder basato su reti a spazio di stato. Sono state eseguite due tipologie di esperimenti al fine di analizzare l'efficacia della Knowledge Distillation, sia quando lo student corrisponde ad una versione ridotta del teacher, sia quando corrisponde ad un modello con architettura differente. Nella prima serie di esperimenti ognuno dei tre modelli teacher è stato ridotto per un fattore pari a ∼10 e ∼100, ottenendo un totale di sei modelli student di dimensioni ridotte. Nella seconda serie di esperimenti, come modello student è stato utilizzato il DDX7, un decoder DDSP di piccole dimensioni che controlla un sintetizzatore FM.

Knowledge Distillation di modelli neurali per la generazione di segnali audio

GIUDICI, GREGORIO ANDREA

2022/2023

Abstract

Una delle attuali sfide del Machine Learning è ottenere modelli dalle dimensioni ridotte, ma che abbiano prestazioni comparabili a quelle di modelli più complessi. L'obiettivo di questa Tesi è quello di analizzare gli effetti della Knowledge Distillation (KD) su una serie di modelli per la generazione di segnali audio. Scopo ultimo di questa Tesi è quindi di dimostrare l'efficacia della KD, implementando modelli dalle dimensioni ridotte, ma con prestazioni elevate. La Knowledge Distillation è una forma di compressione dei modelli, in cui un modello teacher viene utilizzato per addestrare un modello student di dimensioni ridotte, con l'obiettivo di eguagliare o addirittura superare le prestazioni del teacher. Sono stati implementati 3 tipi di modelli teacher, ognuno dei quali corrisponde ad un decoder DDSP che controlla un sintetizzatore Harmonic-plus-Noise: un GRUdecoder basato su reti ricorrenti; un TCNdecoder basato su reti convolutive; un S4decoder basato su reti a spazio di stato. Sono state eseguite due tipologie di esperimenti al fine di analizzare l'efficacia della Knowledge Distillation, sia quando lo student corrisponde ad una versione ridotta del teacher, sia quando corrisponde ad un modello con architettura differente. Nella prima serie di esperimenti ognuno dei tre modelli teacher è stato ridotto per un fattore pari a ∼10 e ∼100, ottenendo un totale di sei modelli student di dimensioni ridotte. Nella seconda serie di esperimenti, come modello student è stato utilizzato il DDX7, un decoder DDSP di piccole dimensioni che controlla un sintetizzatore FM.

Scheda breve

Scheda completa

Scheda completa (DC)

	Facoltà/Dipartimento
	
				Dipartimento Ingegneria dell'Informazione
			
	Corso di studio
	
				INGEGNERIA ELETTRONICA
			
	Anno Accademico
	
				2022
			
	Data dell'esame finale
	
				2023-10-19
			
	Titolo inglese
	
				Knowledge Distillation of neural models for audio signal generation
			
	Relatore
	
				SQUARTINI, STEFANO
			
	Correlatore
	
				GABRIELLI, LEONARDO
CASPE, FRANCO
			
	Appare nelle tipologie:
	
				Laurea specialistica, magistrale, ciclo unico

File in questo prodotto:

File	Dimensione	Formato
Tesi_Magistrale___Gregorio_Andrea_Giudici.pdf embargo fino al 18/10/2025 Descrizione: File pdf/a contenente la Tesi, comprensiva di Frontespizio non firmato Dimensione 3.63 MB Formato Adobe PDF	3.63 MB	Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12075/15165

UNITesiUniversità Politecnica delle Marche