Il riconoscimento di eventi sonori (SED, Sound Event Detection) ed il riconoscimento vocale (Speech Recognition) sono campi di ricerca particolarmente attivi sui quali si è concentrata l’attenzione della comunità scientifica, in misura sempre crescente negli anni recenti, anche per merito dello sviluppo di tecniche di apprendimento automatico che fanno uso di Reti Neurali Artificiali. I sistemi SED allo stato dell’arte riescono a superare le capacità di riconoscimento dell’uomo, per cui vengono applicati in numerosi contesti, dai dispositivi indossabili, ai supporti per soggetti con deficit uditivi (HCI, Human-Computer Interfaces), ai sistemi di sorveglianza e monitoraggio in condizioni “sfavorevoli” come ad esempio ambienti densamente popolati o zone difficilmente accessibili all’uomo. Li troviamo in ambiti di crescente interesse come l’Internet Of Things, la domotica, la guida autonoma di autoveicoli o, per fare un esempio ancora più vicino al presente, nei personal assistant: Google Home, Amazon Alexa, Apple Siri e Microsoft Cortana. Il processo di riconoscimento ha come scopo l’identificazione e la collocazione nel tempo di un determinato evento, attraverso la determinazione dell’istante di inizio (on-set), di fine (off-set) e della durata. Nelle situazioni reali spesso le sorgenti sonore si sovrappongono o sono circondate da fonti di rumore e la natura additiva del segnale audio rende molto più difficile discriminare l’evento di interesse. Dopo uno studio sulle tecniche più consolidate di Machine Learning applicate al riconoscimento di segnali audio, in questo lavoro di tesi è stato proposto e valutato un metodo innovativo di traduzione del segnale sonoro in forma di grafo, passando attraverso la rappresentazione in spettrogrammi ed utilizzando concetti di Image Processing. È stata quindi applicata una tecnica di apprendimento supervisionato mediante reti Graph Neural Networks. Tali strutture hanno avuto un veloce sviluppo negli anni recenti nell’analisi di dati strutturati in forma di grafo, e anche se è disponibile un discreto numero di dataset di benchmark, raramente sono state utilizzate nel campo dell’Audio Processing a causa della difficoltà di tradurre in un grafo le informazioni contenute in un segnale sonoro. L’efficacia del metodo proposto è stata valutata su un problema di classificazione con due differenti dataset, uno di comandi vocali (Google Speech Command) e l’altro di suoni ambientali (Urbansound 8k), operando sia sull’intera durata dell’evento che su finestre temporali ridotte. Infine il classificatore GNN è stato utilizzato in combinazione ad una tecnica classica, tramite learning multimodale Late Fusion.
Classificazione di eventi sonori tramite Graph Neural Networks
AIRONI, CARLO
2019/2020
Abstract
Il riconoscimento di eventi sonori (SED, Sound Event Detection) ed il riconoscimento vocale (Speech Recognition) sono campi di ricerca particolarmente attivi sui quali si è concentrata l’attenzione della comunità scientifica, in misura sempre crescente negli anni recenti, anche per merito dello sviluppo di tecniche di apprendimento automatico che fanno uso di Reti Neurali Artificiali. I sistemi SED allo stato dell’arte riescono a superare le capacità di riconoscimento dell’uomo, per cui vengono applicati in numerosi contesti, dai dispositivi indossabili, ai supporti per soggetti con deficit uditivi (HCI, Human-Computer Interfaces), ai sistemi di sorveglianza e monitoraggio in condizioni “sfavorevoli” come ad esempio ambienti densamente popolati o zone difficilmente accessibili all’uomo. Li troviamo in ambiti di crescente interesse come l’Internet Of Things, la domotica, la guida autonoma di autoveicoli o, per fare un esempio ancora più vicino al presente, nei personal assistant: Google Home, Amazon Alexa, Apple Siri e Microsoft Cortana. Il processo di riconoscimento ha come scopo l’identificazione e la collocazione nel tempo di un determinato evento, attraverso la determinazione dell’istante di inizio (on-set), di fine (off-set) e della durata. Nelle situazioni reali spesso le sorgenti sonore si sovrappongono o sono circondate da fonti di rumore e la natura additiva del segnale audio rende molto più difficile discriminare l’evento di interesse. Dopo uno studio sulle tecniche più consolidate di Machine Learning applicate al riconoscimento di segnali audio, in questo lavoro di tesi è stato proposto e valutato un metodo innovativo di traduzione del segnale sonoro in forma di grafo, passando attraverso la rappresentazione in spettrogrammi ed utilizzando concetti di Image Processing. È stata quindi applicata una tecnica di apprendimento supervisionato mediante reti Graph Neural Networks. Tali strutture hanno avuto un veloce sviluppo negli anni recenti nell’analisi di dati strutturati in forma di grafo, e anche se è disponibile un discreto numero di dataset di benchmark, raramente sono state utilizzate nel campo dell’Audio Processing a causa della difficoltà di tradurre in un grafo le informazioni contenute in un segnale sonoro. L’efficacia del metodo proposto è stata valutata su un problema di classificazione con due differenti dataset, uno di comandi vocali (Google Speech Command) e l’altro di suoni ambientali (Urbansound 8k), operando sia sull’intera durata dell’evento che su finestre temporali ridotte. Infine il classificatore GNN è stato utilizzato in combinazione ad una tecnica classica, tramite learning multimodale Late Fusion.File | Dimensione | Formato | |
---|---|---|---|
Tesi_Aironi_2020.pdf
Open Access dal 16/07/2022
Descrizione: Tesi CLASSIFICAZIONE DI EVENTI SONORI TRAMITE GRAPH NEURAL NETWORKS
Dimensione
6.67 MB
Formato
Adobe PDF
|
6.67 MB | Adobe PDF | Visualizza/Apri |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.12075/3688