Controllo Vocale di Robot Collaborativi tramite Deep Learning On-Device: Integrazione di Whisper e Protocollo RMI

This thesis describes the development and validation of a voice control system for the FANUC CRX-10iA/L collaborative robot, leveraging advanced Automatic Speech Recognition (ASR) technologies and direct communication with the controller via the proprietary Remote Motion Interface (RMI) protocol. The work analyzes the system's architectural evolution, starting from an exploratory phase based on the Modbus TCP/IP protocol—highlighting its limitations for dynamic control, such as variable latency, inefficient polling mechanisms, and fragile synchronization—leading to the definitive solution based on RMI, which proved to be more suitable for real-time industrial scenarios. The final system allows the operator to issue commands in Italian using natural language expressions; these commands are captured via microphone, transcribed using the optimized Whisper Large-v3 model, interpreted by a regex-based parsing engine, and finally translated into motion instructions transmitted to the controller via TCP/IP. The modular software architecture, developed in Python, incorporates advanced error handling, end-effector (gripper) synchronization, operational sequence persistence, and Voice Activity Detection (VAD) to ensure robustness in noisy industrial environments. The implementation of GPU acceleration and quantization techniques enabled transcription latencies compatible with fluid human-machine interaction while maintaining high ASR accuracy, comparable to state-of-the-art benchmarks, even on consumer-grade hardware. The system was validated through an experimental campaign of pick-and-place cycles under realistic operating conditions at the I-Labs laboratory. The results demonstrate the effective end-to-end integration of the voice control pipeline, resilience to intermittent communication errors, and the suitability of the proposed solution as an innovative Human-Machine Interface (HMI) for collaborative robotics.

La presente tesi descrive lo sviluppo e la validazione di un sistema di controllo vocale per robot industriale collaborativo FANUC CRX-10iA/L, basato su tecnologie avanzate di riconoscimento vocale automatico (ASR) e su comunicazione diretta con il controllore mediante protocollo proprietario Remote Motion Interface (RMI). Il lavoro analizza l’evoluzione architetturale del sistema a partire da una fase esplorativa iniziale basata su protocollo MODBUS TCP/IP, evidenziandone le limitazioni per applicazioni di controllo dinamico (latenza variabile, meccanismi di polling inefficienti e sincronizzazione fragile), fino alla soluzione definitiva basata su RMI, maggiormente adatta a scenari industriali real-time. Il sistema finale consente all’operatore di impartire comandi vocali in lingua italiana utilizzando espressioni di linguaggio naturale, che vengono acquisite tramite microfono, trascritte mediante modello Whisper large-v3 ottimizzato, interpretate da un motore di parsing basato su espressioni regolari e infine tradotte in istruzioni RMI inviate al controllore via rete TCP/IP. L’architettura software, sviluppata in linguaggio Python, è modulare e include meccanismi avanzati di gestione degli errori, sincronizzazione del controllo periferico (pinza), persistenza delle sequenze operative e rilevamento automatico dell’attività vocale, al fine di garantire robustezza e affidabilità in ambienti industriali rumorosi. L’impiego di ottimizzazioni GPU e tecniche di quantizzazione consente di ottenere latenze di trascrizione compatibili con l’interazione operatore, mantenendo un’elevata accuratezza ASR secondo benchmark di letteratura, anche su hardware di classe consumer. Il sistema è stato validato attraverso una campagna sperimentale di cicli pickand-place comandati vocalmente in condizioni operative realistiche presso il laboratorio I-Labs, dimostrando l’efficace integrazione end-to-end della pipeline di controllo vocale, la robustezza a errori di comunicazione intermittenti e l’idoneità della soluzione proposta per applicazioni di interfaccia uomo-macchina in ambito di robotica collaborativa.