Classificazione di eventi sonori tramite Graph Neural Networks

Il riconoscimento di eventi sonori (SED, Sound Event Detection) ed il riconoscimento vocale (Speech Recognition) sono campi di ricerca particolarmente attivi sui quali si è concentrata l’attenzione della comunità scientifica, in misura sempre crescente negli anni recenti, anche per merito dello sviluppo di tecniche di apprendimento automatico che fanno uso di Reti Neurali Artificiali. I sistemi SED allo stato dell’arte riescono a superare le capacità di riconoscimento dell’uomo, per cui vengono applicati in numerosi contesti, dai dispositivi indossabili, ai supporti per soggetti con deficit uditivi (HCI, Human-Computer Interfaces), ai sistemi di sorveglianza e monitoraggio in condizioni “sfavorevoli” come ad esempio ambienti densamente popolati o zone difficilmente accessibili all’uomo. Li troviamo in ambiti di crescente interesse come l’Internet Of Things, la domotica, la guida autonoma di autoveicoli o, per fare un esempio ancora più vicino al presente, nei personal assistant: Google Home, Amazon Alexa, Apple Siri e Microsoft Cortana. Il processo di riconoscimento ha come scopo l’identificazione e la collocazione nel tempo di un determinato evento, attraverso la determinazione dell’istante di inizio (on-set), di fine (off-set) e della durata. Nelle situazioni reali spesso le sorgenti sonore si sovrappongono o sono circondate da fonti di rumore e la natura additiva del segnale audio rende molto più difficile discriminare l’evento di interesse. Dopo uno studio sulle tecniche più consolidate di Machine Learning applicate al riconoscimento di segnali audio, in questo lavoro di tesi è stato proposto e valutato un metodo innovativo di traduzione del segnale sonoro in forma di grafo, passando attraverso la rappresentazione in spettrogrammi ed utilizzando concetti di Image Processing. È stata quindi applicata una tecnica di apprendimento supervisionato mediante reti Graph Neural Networks. Tali strutture hanno avuto un veloce sviluppo negli anni recenti nell’analisi di dati strutturati in forma di grafo, e anche se è disponibile un discreto numero di dataset di benchmark, raramente sono state utilizzate nel campo dell’Audio Processing a causa della difficoltà di tradurre in un grafo le informazioni contenute in un segnale sonoro. L’efficacia del metodo proposto è stata valutata su un problema di classificazione con due differenti dataset, uno di comandi vocali (Google Speech Command) e l’altro di suoni ambientali (Urbansound 8k), operando sia sull’intera durata dell’evento che su finestre temporali ridotte. Infine il classificatore GNN è stato utilizzato in combinazione ad una tecnica classica, tramite learning multimodale Late Fusion.

Classificazione di eventi sonori tramite Graph Neural Networks

AIRONI, CARLO

2019/2020

Abstract

Il riconoscimento di eventi sonori (SED, Sound Event Detection) ed il riconoscimento vocale (Speech Recognition) sono campi di ricerca particolarmente attivi sui quali si è concentrata l’attenzione della comunità scientifica, in misura sempre crescente negli anni recenti, anche per merito dello sviluppo di tecniche di apprendimento automatico che fanno uso di Reti Neurali Artificiali. I sistemi SED allo stato dell’arte riescono a superare le capacità di riconoscimento dell’uomo, per cui vengono applicati in numerosi contesti, dai dispositivi indossabili, ai supporti per soggetti con deficit uditivi (HCI, Human-Computer Interfaces), ai sistemi di sorveglianza e monitoraggio in condizioni “sfavorevoli” come ad esempio ambienti densamente popolati o zone difficilmente accessibili all’uomo. Li troviamo in ambiti di crescente interesse come l’Internet Of Things, la domotica, la guida autonoma di autoveicoli o, per fare un esempio ancora più vicino al presente, nei personal assistant: Google Home, Amazon Alexa, Apple Siri e Microsoft Cortana. Il processo di riconoscimento ha come scopo l’identificazione e la collocazione nel tempo di un determinato evento, attraverso la determinazione dell’istante di inizio (on-set), di fine (off-set) e della durata. Nelle situazioni reali spesso le sorgenti sonore si sovrappongono o sono circondate da fonti di rumore e la natura additiva del segnale audio rende molto più difficile discriminare l’evento di interesse. Dopo uno studio sulle tecniche più consolidate di Machine Learning applicate al riconoscimento di segnali audio, in questo lavoro di tesi è stato proposto e valutato un metodo innovativo di traduzione del segnale sonoro in forma di grafo, passando attraverso la rappresentazione in spettrogrammi ed utilizzando concetti di Image Processing. È stata quindi applicata una tecnica di apprendimento supervisionato mediante reti Graph Neural Networks. Tali strutture hanno avuto un veloce sviluppo negli anni recenti nell’analisi di dati strutturati in forma di grafo, e anche se è disponibile un discreto numero di dataset di benchmark, raramente sono state utilizzate nel campo dell’Audio Processing a causa della difficoltà di tradurre in un grafo le informazioni contenute in un segnale sonoro. L’efficacia del metodo proposto è stata valutata su un problema di classificazione con due differenti dataset, uno di comandi vocali (Google Speech Command) e l’altro di suoni ambientali (Urbansound 8k), operando sia sull’intera durata dell’evento che su finestre temporali ridotte. Infine il classificatore GNN è stato utilizzato in combinazione ad una tecnica classica, tramite learning multimodale Late Fusion.

Scheda breve

Scheda completa

Scheda completa (DC)

	Facoltà/Dipartimento
	
				Dipartimento Ingegneria dell'Informazione
			
	Corso di studio
	
				INGEGNERIA ELETTRONICA
			
	Anno Accademico
	
				2019
			
	Data dell'esame finale
	
				2020-07-16
			
	Titolo inglese
	
				Graph Neural Networks based method for acoustic event classification
			
	Relatore
	
				SQUARTINI, STEFANO
			
	Appare nelle tipologie:
	
				Laurea specialistica, magistrale, ciclo unico

File in questo prodotto:

File	Dimensione	Formato
Tesi_Aironi_2020.pdf Open Access dal 16/07/2022 Descrizione: Tesi CLASSIFICAZIONE DI EVENTI SONORI TRAMITE GRAPH NEURAL NETWORKS Dimensione 6.67 MB Formato Adobe PDF Visualizza/Apri	6.67 MB	Adobe PDF	Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12075/3688

UNITesiUniversità Politecnica delle Marche