Inflammatory Bowel Disease (IBD), represent a group of disorders characterized by chronic inflammation of the gastrointestinal tract. The two most prevalent and clinically significant forms are Ulcerative Colitis (UC) and Crohn’s Disease (CD). Although the etiology of IBD is not yet fully understood, significant progress has been made in recent years in understanding the environmental and lifestyle factors that may contribute to disease onset, as well as in the development of targeted therapeutic approaches. Moreover, the diagnosis of these conditions is complex and not always immediate, requiring careful analysis of clinical, laboratory, endoscopic, and histological data to reach an accurate assessment. If diagnosis is delayed relative to symptom onset, it may lead to more severe manifestations and complicate the achievement of remission. Given the invasive nature of endoscopic and histological examinations, the analysis of clinical and laboratory data plays a fundamental role in the early identification of diagnostic patterns. In this context, the development and use of Clinical Decision Support Systems (CDSS), often employing machine learning (ML) techniques, represents a crucial step in supporting the diagnosis of this condition. The aim of this work is to develop an ML-based approach using laboratory and metabolomic profile data capable of automatically discriminating between IBD patients (recently diagnosed and treatment-naïve) and healthy individuals, identifying diagnostic patterns distinctive of IBD presence. To this end, supervised machine learning models were employed, developed using Orange Data Mining software. Prior to this phase, the dataset underwent preprocessing in RStudio, including data cleaning and normalization. The results show that, based on serum metabolites, distinguishing between diseased and healthy subjects is possible, yielding excellent values for the area under the ROC curve (AUC: 0.95), as well as for accuracy (0.90), precision (0.90), and specificity (0.88). Subsequently, using the same type of data, the study explored the possibility of differentiating between the two main forms of IBD, UC and CD, obtaining values of AUC: 0.62, CA: 0.59, Prec: 0.59, and Spec: 0.55. However, definitive confirmation of its effectiveness will require external validation using an independent database, which is essential to verify its actual reliability.

Le Malattie Infiammatorie Croniche Intestinali (MICI), note anche come IBD (Inflammatory Bowel Disease), rappresentano un gruppo di patologie caratterizzate da una infiammazione cronica del tratto gastrointestinale. Le due forme più diffuse e rilevanti sono la rettocolite ulcerosa (Ulcerative Colitis, UC) e il morbo di Crohn (Crohn’s Disease, CD). Sebbene non ci sia ancora una comprensione chiara circa l’eziologia delle IBD, negli ultimi anni sono stati compiuti notevoli progressi nella comprensione dei fattori ambientali e di stile di vita che possono favorire l’insorgenza della patologia, e nello sviluppo di metodi terapeutici mirati. Inoltre, la diagnosi di queste patologie è complessa e non sempre immediata, vede necessaria l’attenta analisi di dati clinici, laboratoristici, endoscopici e istologici per giungere a una valutazione accurata, che, qualora fosse formulata con eccessivo ritardo rispetto all’insorgenza dei sintomi, può favorire una sintomatologia più severa e complicare la remissione. Essendo gli esami endoscopici e istologici invasivi, l’analisi dei dati clinici e di laboratorio assume un ruolo fondamentale nell’individuare precocemente un pattern diagnostico. A tale scopo lo sviluppo e l’utilizzo di strumenti di supporto alle decisioni cliniche (CDSS), che spesso fanno uso di tecniche di machine learning (ML), rappresenta un passo di cruciale importanza per il supporto alla diagnosi di questa patologia. Questo lavoro ha l’obiettivo di sviluppare un approccio di ML basato su dati laboratoristici e di profili metabolomici, in grado di discriminare in maniera automatica pazienti affetti da IBD (appena diagnosticati e senza alcun piano terapeutico) da individui sani identificando pattern diagnostici distintivi della presenza di IBD. Per tale scopo sono stati impiegati modelli di apprendimento automatico supervisionato, sviluppati tramite il software Orange Data Mining. Prima di questa fase, il dataset è stato sottoposto a un processo di preelaborazione attraverso RStudio, che ha previsto operazioni di pulizia dei dati e normalizzazione. I risultati ottenuti evidenziano che, sulla base dei metaboliti sierici, operare una distinzione tra pazienti malati e sani è possibile, riportando valori ottimi per l’area sotto la curva ROC (AUC: 0.95), nonché di accuratezza (0.90), precisione (0.90) e specificità (0.88). Successivamente, partendo dalla stessa tipologia di dato, il lavoro ha esplorato la possibilità di distinguere le due forme principali di IBD, UC e CD portando a valori di AUC:0.62, di CA: 0.59, di Prec: 0.59 e di Spec: 0.55. Tuttavia, la conferma definitiva della sua efficacia richiederà una validazione esterna tramite un database indipendente, fondamentale per verificarne l’effettiva affidabilità.

Sviluppo di un approccio di Machine Learning basato su profili metabolomici per la classificazione di Malattie Infiammatorie Croniche Intestinali

CARBONARI, ILARIA
2024/2025

Abstract

Inflammatory Bowel Disease (IBD), represent a group of disorders characterized by chronic inflammation of the gastrointestinal tract. The two most prevalent and clinically significant forms are Ulcerative Colitis (UC) and Crohn’s Disease (CD). Although the etiology of IBD is not yet fully understood, significant progress has been made in recent years in understanding the environmental and lifestyle factors that may contribute to disease onset, as well as in the development of targeted therapeutic approaches. Moreover, the diagnosis of these conditions is complex and not always immediate, requiring careful analysis of clinical, laboratory, endoscopic, and histological data to reach an accurate assessment. If diagnosis is delayed relative to symptom onset, it may lead to more severe manifestations and complicate the achievement of remission. Given the invasive nature of endoscopic and histological examinations, the analysis of clinical and laboratory data plays a fundamental role in the early identification of diagnostic patterns. In this context, the development and use of Clinical Decision Support Systems (CDSS), often employing machine learning (ML) techniques, represents a crucial step in supporting the diagnosis of this condition. The aim of this work is to develop an ML-based approach using laboratory and metabolomic profile data capable of automatically discriminating between IBD patients (recently diagnosed and treatment-naïve) and healthy individuals, identifying diagnostic patterns distinctive of IBD presence. To this end, supervised machine learning models were employed, developed using Orange Data Mining software. Prior to this phase, the dataset underwent preprocessing in RStudio, including data cleaning and normalization. The results show that, based on serum metabolites, distinguishing between diseased and healthy subjects is possible, yielding excellent values for the area under the ROC curve (AUC: 0.95), as well as for accuracy (0.90), precision (0.90), and specificity (0.88). Subsequently, using the same type of data, the study explored the possibility of differentiating between the two main forms of IBD, UC and CD, obtaining values of AUC: 0.62, CA: 0.59, Prec: 0.59, and Spec: 0.55. However, definitive confirmation of its effectiveness will require external validation using an independent database, which is essential to verify its actual reliability.
2024
2025-12-12
Development of a Machine Learning approach based on metabolomic profiles for the classification of Inflammatory Bowel Diseases
Le Malattie Infiammatorie Croniche Intestinali (MICI), note anche come IBD (Inflammatory Bowel Disease), rappresentano un gruppo di patologie caratterizzate da una infiammazione cronica del tratto gastrointestinale. Le due forme più diffuse e rilevanti sono la rettocolite ulcerosa (Ulcerative Colitis, UC) e il morbo di Crohn (Crohn’s Disease, CD). Sebbene non ci sia ancora una comprensione chiara circa l’eziologia delle IBD, negli ultimi anni sono stati compiuti notevoli progressi nella comprensione dei fattori ambientali e di stile di vita che possono favorire l’insorgenza della patologia, e nello sviluppo di metodi terapeutici mirati. Inoltre, la diagnosi di queste patologie è complessa e non sempre immediata, vede necessaria l’attenta analisi di dati clinici, laboratoristici, endoscopici e istologici per giungere a una valutazione accurata, che, qualora fosse formulata con eccessivo ritardo rispetto all’insorgenza dei sintomi, può favorire una sintomatologia più severa e complicare la remissione. Essendo gli esami endoscopici e istologici invasivi, l’analisi dei dati clinici e di laboratorio assume un ruolo fondamentale nell’individuare precocemente un pattern diagnostico. A tale scopo lo sviluppo e l’utilizzo di strumenti di supporto alle decisioni cliniche (CDSS), che spesso fanno uso di tecniche di machine learning (ML), rappresenta un passo di cruciale importanza per il supporto alla diagnosi di questa patologia. Questo lavoro ha l’obiettivo di sviluppare un approccio di ML basato su dati laboratoristici e di profili metabolomici, in grado di discriminare in maniera automatica pazienti affetti da IBD (appena diagnosticati e senza alcun piano terapeutico) da individui sani identificando pattern diagnostici distintivi della presenza di IBD. Per tale scopo sono stati impiegati modelli di apprendimento automatico supervisionato, sviluppati tramite il software Orange Data Mining. Prima di questa fase, il dataset è stato sottoposto a un processo di preelaborazione attraverso RStudio, che ha previsto operazioni di pulizia dei dati e normalizzazione. I risultati ottenuti evidenziano che, sulla base dei metaboliti sierici, operare una distinzione tra pazienti malati e sani è possibile, riportando valori ottimi per l’area sotto la curva ROC (AUC: 0.95), nonché di accuratezza (0.90), precisione (0.90) e specificità (0.88). Successivamente, partendo dalla stessa tipologia di dato, il lavoro ha esplorato la possibilità di distinguere le due forme principali di IBD, UC e CD portando a valori di AUC:0.62, di CA: 0.59, di Prec: 0.59 e di Spec: 0.55. Tuttavia, la conferma definitiva della sua efficacia richiederà una validazione esterna tramite un database indipendente, fondamentale per verificarne l’effettiva affidabilità.
File in questo prodotto:
File Dimensione Formato  
tesi_IC.pdf

embargo fino al 11/12/2028

Dimensione 1.1 MB
Formato Adobe PDF
1.1 MB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12075/24599