Questo lavoro di tesi si basa sull’utilizzo di un robot sociale per l’identificazione di persone in un ambiente domestico tramite l’elaborazione di segnali audio registrati da microfoni collocati sulla testa del robot. A tal fine è stata calcolata l’incertezza di misura con la quale gli algoritmi di processamento dei segnali audio SRP, MUSIC, CSSM, TOPS, WAVES sono in grado di localizzare, stimando la direzione di arrivo del suono, la persona che sta parlando nella traccia audio. In questo lavoro si è utilizzato il robot Misty II. Dotato di tre microfoni omnidirezionali a campo lontano Misty II ha consentito di eseguire le registrazioni di tracce audio che riproducono una voce umana. Le registrazioni sono state condotte sia in ambiente reale, nella stanza Q185_012 dell’Università Politecnica delle Marche, sia in un ambiente controllato, la camera semi anecoica presente nella stessa struttura dell’ambiente reale, e sono state eseguite in diverse condizioni di prova al fine di riprodurre condizioni riscontrabili in un reale ambiente domestico. I segnali audio registrati nelle condizioni descritte nel capitolo 2 sono stati processati dagli algoritmi SRP, MUSIC, CSSM, TOPS, WAVES, già presenti in letteratura, ai quali è stato aggiunto un sistema implementato ad hoc nel quale si è effettuato un pre-processing dei segnali audio atto a rimuovere le componenti del segnale non contenenti la voce umana nel dominio del tempo e della frequenza. Le stime sull’angolo di arrivo del suono ottenute dopo l’elaborazione del segnale audio con gli algoritmi e con il sistema di pre-processing sono state confrontate con i valori noti di queste ottenuti sviluppando un protocollo di misura, così da valutare l’incertezza dell’intero sistema testato nelle diverse condizioni di prova. A seguito dei risultati ottenuti si è concluso che l’algoritmo che ha esibito la minore incertezza è stato, con un valore medio della confidenza statistica con fattore di copertura due pari al 6,17%, l’SRP quando questo è stato applicato ad un segnale audio che ha subito in pre-processing una segmentazione temporale atta a rimuovere gli istanti temporali in cui non risulta presente nell’audio considerato la voce umana.

Valutazione dell'accuratezza di algoritmi di processamento di segnali audio nel supportare l'interazione tra l'uomo e robot

PIACENTE, AGOSTINO
2020/2021

Abstract

Questo lavoro di tesi si basa sull’utilizzo di un robot sociale per l’identificazione di persone in un ambiente domestico tramite l’elaborazione di segnali audio registrati da microfoni collocati sulla testa del robot. A tal fine è stata calcolata l’incertezza di misura con la quale gli algoritmi di processamento dei segnali audio SRP, MUSIC, CSSM, TOPS, WAVES sono in grado di localizzare, stimando la direzione di arrivo del suono, la persona che sta parlando nella traccia audio. In questo lavoro si è utilizzato il robot Misty II. Dotato di tre microfoni omnidirezionali a campo lontano Misty II ha consentito di eseguire le registrazioni di tracce audio che riproducono una voce umana. Le registrazioni sono state condotte sia in ambiente reale, nella stanza Q185_012 dell’Università Politecnica delle Marche, sia in un ambiente controllato, la camera semi anecoica presente nella stessa struttura dell’ambiente reale, e sono state eseguite in diverse condizioni di prova al fine di riprodurre condizioni riscontrabili in un reale ambiente domestico. I segnali audio registrati nelle condizioni descritte nel capitolo 2 sono stati processati dagli algoritmi SRP, MUSIC, CSSM, TOPS, WAVES, già presenti in letteratura, ai quali è stato aggiunto un sistema implementato ad hoc nel quale si è effettuato un pre-processing dei segnali audio atto a rimuovere le componenti del segnale non contenenti la voce umana nel dominio del tempo e della frequenza. Le stime sull’angolo di arrivo del suono ottenute dopo l’elaborazione del segnale audio con gli algoritmi e con il sistema di pre-processing sono state confrontate con i valori noti di queste ottenuti sviluppando un protocollo di misura, così da valutare l’incertezza dell’intero sistema testato nelle diverse condizioni di prova. A seguito dei risultati ottenuti si è concluso che l’algoritmo che ha esibito la minore incertezza è stato, con un valore medio della confidenza statistica con fattore di copertura due pari al 6,17%, l’SRP quando questo è stato applicato ad un segnale audio che ha subito in pre-processing una segmentazione temporale atta a rimuovere gli istanti temporali in cui non risulta presente nell’audio considerato la voce umana.
2020
2021-10-26
Accuracy evaluation of audio signal processing to support interaction between a person and a mobile robot
File in questo prodotto:
File Dimensione Formato  
tesi.pdf

Open Access dal 27/10/2023

Dimensione 1.82 MB
Formato Adobe PDF
1.82 MB Adobe PDF Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12075/371