Progettazione di un'architettura software per l'analisi dei dati nell'Industria 4.0

In the field of modern industrial machinery, the process of data retrieval and analysis from on-board sensors is a crucial aspect of monitoring, maintenance, and optimization of production processes. This thesis focuses on the design and implementation of a software architecture based on a series of tools, each of them covering a specific role, in order to manage the flow of sensor data of the host company. The system is integrated into an existing infrastructure, modifying it where necessary in order to satisfy new-found reliability and scalability requirements. The infrastructure receives data in CSV format via HTTP POST requests and then sends it to a queue system, which sorts it into an Extract, Transform, Load (ETL) process. The data is then cleaned, standardized, and saved in a Data Warehouse. The data is then utilized by various analysis algorithms to extract relevant information and perform predictive analyses on the health of the machines using machine learning models. A major part of the work mainly involves researching the best tools for each task, analyzing stateof- the-art technologies, and evaluating the strengths and weaknesses of each solution. Another fundamental aspect of the architecture is data flow optimization: to this end, estimates have been run on current data loads to determine the minimum and maximum throughput requirements that the architecture must be able to handle, along with some techniques to improve it when possible. Finally, some work has been done on a proof-of-concept system for executing natural language queries on the data stored in the Data Warehouse, leveraging locally run Large Language Models. To achieve this, it’s been decided to harness the strengths of a multiagent paradigm, experimenting with the cutting-edge standard called Model Context Protocol, developed specifically to facilitate an ecosystem of interoperable and scalable agents.

Nell’ambito delle moderne macchine industriali, la raccolta e l’analisi dei dati provenienti dai sensori on-board rappresentano un aspetto fondamentale per il monitoraggio, la manutenzione e l’ottimizzazione dei processi produttivi. Questa tesi si concentra sulla progettazione ed implementazione di un’architettura software basata su una serie di strumenti, ognuno dei quali ha un ruolo specifico, ed operanti al fine di gestire il flusso dei dati sensoristici dell’azienda ospite. Il sistema è integrato all’interno di un’infrastruttura già esistente, andando a modificarla ove necessario per soddisfare i nuovi requisiti di affidabilità e scalabilità. L’infrastruttura riceve dati in formato CSV tramite richieste HTTP POST per poi inviarle ad un sistema di code, che si occupa di smistarle ad un processo di Extract, Transform, Load (ETL). I dati vengono quindi puliti, standardizzati e salvati in un Data Warehouse. I dati sono poi affidati a diversi algoritmi di analisi per estrarre informazioni rilevanti e per effettuare analisi predittive sullo stato di salute delle macchine tramite modelli di machine learning. Il lavoro svolto comprende principalmente la ricerca di strumenti adatti per ogni compito, analizzando lo stato dell’arte e valutando i punti di forza e le debolezze di ogni soluzione. Un altro aspetto fondamentale per la progettazione dell’architettura è l’ottimizzazione del flusso dei dati: per questo motivo è stato stimato ed analizzato il carico dati attuale per determinare i requisiti minimi e massimi di throughput che l’architettura deve essere in grado di gestire, oltre ad alcune tecniche per migliorarlo quando possibile. Come ultima funzionalità, è stato implementato un proof-of-concept per eseguire query in linguaggio naturale sui dati salvati nel Data Warehouse, sfruttando alcuni Large Language Model eseguiti localmente. Per fare ciò si è pensato di adottare un sistema basato sul paradigma multi-agente, sperimentando con lo standard all’avanguardia chiamato Model Context Protocol, sviluppato appositamente per garantire un ecosistema di agenti interoperabili e scalabili.