Analisi predittiva di variabili energetiche e ambientali nel settore siderurgico tramite algoritmi di Machine Learning

The growing importance of sustainability and data-driven decision-making has led to increasing interest in the application of predictive analytics within energy-intensive industries. This thesis explores the use of Machine Learning techniques in the steel manufacturing sector, aiming to predict three key operational and environmental variables: energy consumption (Usage_kWh), production load (Load_Type), and CO₂ emissions. Through the implementation of twelve predictive models, covering both classification and regression tasks, this work investigates the performance of different algorithms, including Decision Tree, Random Forest, Naive Bayes, Gradient Boosted Trees, and Support Vector Machine. The experiments were conducted using the RapidMiner platform and structured according to a modular and replicable pipeline, including data pre-processing, feature selection, parameter tuning, and 10-fold cross-validation. Each variable was analyzed under both unbalanced and balanced data conditions, to evaluate the effect of class distribution on model performance. Gradient Boosted Trees consistently achieved the best results across most scenarios, demonstrating both predictive accuracy and robustness. However, extremely high accuracy or R² values observed in some cases (particularly on CO₂ and Usage_kWh) require careful interpretation, as they may signal overfitting. Limitations of the work include computational constraints and the use of a single dataset, suggesting the need for further testing on heterogeneous data sources. Future developments may include model integration into real-time systems, adaptive learning, scenario simulation, and the generation of composite sustainability indicators.

La crescente attenzione verso la sostenibilità e l’adozione di approcci decisionali basati sui dati ha alimentato l’interesse per l’applicazione dell’analisi predittiva nelle industrie ad alta intensità energetica. Questa tesi si concentra sull’utilizzo di tecniche di Machine Learning nel settore siderurgico, con l’obiettivo di prevedere tre variabili operative e ambientali chiave: il consumo energetico (Usage_kWh), il carico produttivo (Load_Type) e le emissioni di CO₂. Sono stati sviluppati dodici modelli predittivi, suddivisi tra task di classificazione e regressione, utilizzando diversi algoritmi tra cui Decision Tree, Random Forest, Naive Bayes, Gradient Boosted Trees e Support Vector Machine. Gli esperimenti sono stati condotti sulla piattaforma RapidMiner, seguendo una pipeline modulare e replicabile che comprende: pre-elaborazione dei dati, selezione delle feature, ottimizzazione degli iperparametri e validazione incrociata a 10 fold. Per ciascuna variabile target, sono stati utilizzati sia dataset sbilanciati che bilanciati, al fine di valutare l’impatto della distribuzione delle classi sulle prestazioni predittive. Nel complesso, i Gradient Boosted Trees si sono dimostrati i modelli più efficaci, offrendo buoni livelli di accuratezza e robustezza. Tuttavia, i valori molto elevati di accuratezza e R² osservati in alcuni esperimenti, in particolare su CO₂ e Usage_kWh, richiedono una valutazione critica per escludere fenomeni di overfitting. Tra i limiti principali del lavoro si evidenziano le restrizioni computazionali e l’impiego di un singolo dataset, che ne limitano la generalizzabilità. Gli sviluppi futuri potranno includere: l’integrazione dei modelli in sistemi real-time, l’adozione di tecniche di apprendimento adattivo, la simulazione di scenari what-if e la costruzione di indicatori compositi di sostenibilità.