Sustainable forest management requires accurate and timely monitoring tools for mapping harvesting activities. This thesis develops and critically evaluates a supervised classification pipeline for identifying harvested forest areas, based on the analysis of medium (Sentinel-2) and high (PlanetScope) spatial resolution optical satellite time series. The analysis focuses on high-impact events, such as coppice cutting and sanitation felling following bark beetle outbreaks, where the spectral change signal is most pronounced. A preliminary exploratory analysis highlighted the significant difficulties in reliably detecting selective logging in high forests, leading to their exclusion from the modeling phase. The methodological core of this research lies in the systematic comparison of four different feature engineering strategies. Two approaches are based on aggregate statistics computed within defined temporal windows (adjacent or seasonally comparable), while the other two leverage the dynamics of the entire time series through dimensionality reduction techniques (univariate and multivariate FPCA) to generate compact and informative representations of the spectral trajectories. For each strategy, the performance of six different machine learning algorithms was evaluated using a rigorous spatial group cross-validation (GroupKFold) procedure. The results demonstrate the clear superiority of features derived from functional analysis, enabling models, particularly Support Vector Machine and Gradient Boosting, to achieve significantly higher balanced accuracy scores. These approaches proved more effective in discriminating among the different post-harvest land cover classes (bare soil, sparse vegetation, residual trees, and forest tracks). However, a generalization test on stable forest areas, external to the training dataset, revealed overfitting across all developed models. The primary cause was identified as the composition of the training dataset, which lacks negative samples, thereby preventing the models from learning the concept of stability. This work, therefore, establishes a complete performance baseline, highlighting the potential of functional data analysis techniques while also defining the critical limitations of the current approach. It underscores the imperative need to build larger, more balanced training datasets for the development of operationally reliable monitoring systems.

La gestione sostenibile delle risorse forestali richiede strumenti di monitoraggio accurati e tempestivi per la mappatura degli interventi di taglio. Questa tesi sviluppa e valuta criticamente una pipeline di classificazione supervisionata per l'identificazione di aree forestali soggette a taglio, basata sull'analisi di serie temporali satellitari ottiche a media (Sentinel-2) e alta (PlanetScope) risoluzione spaziale. L'analisi si concentra su interventi ad alto impatto, quali il taglio ceduo e le utilizzazioni sanitarie a seguito di attacchi di bostrico tipografo, per i quali il segnale di cambiamento spettrale è più pronunciato. Un'analisi esplorativa preliminare ha infatti evidenziato le significative difficoltà nel rilevare in modo affidabile i tagli selettivi in boschi di alto fusto, portando alla loro esclusione dalla fase di modellazione. Il nucleo metodologico della ricerca risiede nel confronto sistematico di quattro diverse strategie di feature engineering. Due approcci si basano su statistiche aggregate calcolate in finestre temporali definite (adiacenti o stagionalmente comparabili), mentre gli altri due sfruttano la dinamica dell'intera serie temporale tramite tecniche di riduzione di dimensionalità (FPCA univariata e multivariata) per generare rappresentazioni compatte e informative delle traiettorie spettrali. Le performance di sei diversi algoritmi di machine learning sono state valutate per ciascuna strategia tramite una rigorosa procedura di cross-validation spaziale a gruppi (GroupKFold). I risultati dimostrano una netta superiorità delle feature derivate dall'analisi funzionale, che permettono ai modelli, in particolare Support Vector Machine e Gradient Boosting, di raggiungere una balanced accuracy più elevata. Questi approcci si sono rivelati più efficaci nel discriminare le diverse classi di copertura del suolo post-intervento (suolo nudo, scarsa vegetazione, alberi, pista forestale). Tuttavia, un test di generalizzazione condotto su aree forestali stabili, esterne al dataset di addestramento, ha rivelato un fenomeno di overfitting per tutti i modelli sviluppati. La causa principale è stata identificata nella composizione del dataset di training, privo di esempi negativi, che ha impedito ai modelli di apprendere il concetto di stabilità. Il lavoro stabilisce quindi una completa baseline di performance, evidenziando il potenziale delle tecniche di analisi funzionale e, al contempo, definendo i limiti critici dell'approccio attuale, sottolineando la necessità imprescindibile di costruire dataset di addestramento più ampi e bilanciati per lo sviluppo di sistemi di monitoraggio operativamente affidabili.

Analisi delle dinamiche forestali tramite serie temporali satellitari Sentinel-2 e PlanetScope: classificazione delle aree sottoposte a taglio

BARTOLINI, NICOLÒ
2024/2025

Abstract

Sustainable forest management requires accurate and timely monitoring tools for mapping harvesting activities. This thesis develops and critically evaluates a supervised classification pipeline for identifying harvested forest areas, based on the analysis of medium (Sentinel-2) and high (PlanetScope) spatial resolution optical satellite time series. The analysis focuses on high-impact events, such as coppice cutting and sanitation felling following bark beetle outbreaks, where the spectral change signal is most pronounced. A preliminary exploratory analysis highlighted the significant difficulties in reliably detecting selective logging in high forests, leading to their exclusion from the modeling phase. The methodological core of this research lies in the systematic comparison of four different feature engineering strategies. Two approaches are based on aggregate statistics computed within defined temporal windows (adjacent or seasonally comparable), while the other two leverage the dynamics of the entire time series through dimensionality reduction techniques (univariate and multivariate FPCA) to generate compact and informative representations of the spectral trajectories. For each strategy, the performance of six different machine learning algorithms was evaluated using a rigorous spatial group cross-validation (GroupKFold) procedure. The results demonstrate the clear superiority of features derived from functional analysis, enabling models, particularly Support Vector Machine and Gradient Boosting, to achieve significantly higher balanced accuracy scores. These approaches proved more effective in discriminating among the different post-harvest land cover classes (bare soil, sparse vegetation, residual trees, and forest tracks). However, a generalization test on stable forest areas, external to the training dataset, revealed overfitting across all developed models. The primary cause was identified as the composition of the training dataset, which lacks negative samples, thereby preventing the models from learning the concept of stability. This work, therefore, establishes a complete performance baseline, highlighting the potential of functional data analysis techniques while also defining the critical limitations of the current approach. It underscores the imperative need to build larger, more balanced training datasets for the development of operationally reliable monitoring systems.
2024
2025-10-17
Analysis of forest dynamics through Sentinel-2 and PlanetScope satellite time series: classification of harvested areas
La gestione sostenibile delle risorse forestali richiede strumenti di monitoraggio accurati e tempestivi per la mappatura degli interventi di taglio. Questa tesi sviluppa e valuta criticamente una pipeline di classificazione supervisionata per l'identificazione di aree forestali soggette a taglio, basata sull'analisi di serie temporali satellitari ottiche a media (Sentinel-2) e alta (PlanetScope) risoluzione spaziale. L'analisi si concentra su interventi ad alto impatto, quali il taglio ceduo e le utilizzazioni sanitarie a seguito di attacchi di bostrico tipografo, per i quali il segnale di cambiamento spettrale è più pronunciato. Un'analisi esplorativa preliminare ha infatti evidenziato le significative difficoltà nel rilevare in modo affidabile i tagli selettivi in boschi di alto fusto, portando alla loro esclusione dalla fase di modellazione. Il nucleo metodologico della ricerca risiede nel confronto sistematico di quattro diverse strategie di feature engineering. Due approcci si basano su statistiche aggregate calcolate in finestre temporali definite (adiacenti o stagionalmente comparabili), mentre gli altri due sfruttano la dinamica dell'intera serie temporale tramite tecniche di riduzione di dimensionalità (FPCA univariata e multivariata) per generare rappresentazioni compatte e informative delle traiettorie spettrali. Le performance di sei diversi algoritmi di machine learning sono state valutate per ciascuna strategia tramite una rigorosa procedura di cross-validation spaziale a gruppi (GroupKFold). I risultati dimostrano una netta superiorità delle feature derivate dall'analisi funzionale, che permettono ai modelli, in particolare Support Vector Machine e Gradient Boosting, di raggiungere una balanced accuracy più elevata. Questi approcci si sono rivelati più efficaci nel discriminare le diverse classi di copertura del suolo post-intervento (suolo nudo, scarsa vegetazione, alberi, pista forestale). Tuttavia, un test di generalizzazione condotto su aree forestali stabili, esterne al dataset di addestramento, ha rivelato un fenomeno di overfitting per tutti i modelli sviluppati. La causa principale è stata identificata nella composizione del dataset di training, privo di esempi negativi, che ha impedito ai modelli di apprendere il concetto di stabilità. Il lavoro stabilisce quindi una completa baseline di performance, evidenziando il potenziale delle tecniche di analisi funzionale e, al contempo, definendo i limiti critici dell'approccio attuale, sottolineando la necessità imprescindibile di costruire dataset di addestramento più ampi e bilanciati per lo sviluppo di sistemi di monitoraggio operativamente affidabili.
File in questo prodotto:
File Dimensione Formato  
Tesi_Magistrale_NBartolini_PDFA.pdf

accesso aperto

Dimensione 12.27 MB
Formato Adobe PDF
12.27 MB Adobe PDF Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12075/23237