In the current context of COVID-19 pneumonia diagnosis, imaging techniques have become increasingly important. Lung Ultrasound (LUS), in particular, is advantageous due to its cost-effectiveness, safety, and non-invasive nature. In this setting, the Italian COVID-19 Lung Ultrasound (ICLUS) dataset, provided by the Trento Ultrasound Laboratory (ULTRa), features a four-level severity scoring system. This thesis explores the applicability and effectiveness of Transformer-based visual models in classifying COVID-19 severity levels, comparing them with the reference Convolutional Neural Network (CNN), ResNet50. The focus is on two approaches: using a pure attention model called Shifted Window Transformer (Swin), based solely on Multi-Head Self Attention (MSA) without convolutions; and creating a hybrid model named Bottleneck Transformer Network (BoTNet) by integrating MSA into a convolutional backbone. The research aims to determine which approach is more effective for classifying ICLUS ultrasound images, considering accuracy and model generalizability. It also tackles the challenges of limited data availability, evaluating the use of transfer learning to optimize Swin model training and improve its performance. The comparison results of the models trained from scratch show that the hybrid BoTNet50 outperforms ResNet50 in terms of performance, demonstrating greater efficacy and consistency in ultrasound image classification, achieving an F1-Score of 0.6025 compared to 0.5896. In contrast, Swin did not achieve competitive results when trained from scratch on this dataset, with an F1-Score of 0.4682. However, it improved significantly with transfer learning, achieving an F1-Score of 0.6513 and surpassing ResNet50 on all metrics. An ablation study, conducted by freezing certain layers during Swin model training, revealed that performance comparable to a fully trained model can be achieved with significantly reduced computational complexity, even when compared to ResNet50. Finally, Grad-CAM analysis showed Swin’s greater sensitivity in detecting complex structures than ResNet50 and its ability to focus on broader contexts, capturing spatial relationships between more diversified artifacts located in different areas of the image.

Nell’attuale contesto della diagnosi medica della polmonite da COVID-19, le tecniche di imaging hanno acquisito un ruolo di primaria importanza. L’ecografia polmonare (Lung Ultrasound - LUS) in particolare, presenta una serie di vantaggi in quanto economica, sicura e non invasiva. In questo ambito, il dataset di ecografie polmonari Italian COVID-19 Lung Ultrasound (ICLUS), fornito dal Laboratorio di Ultrasonografia di Trento (ULTRa), presenta un sistema di punteggio a 4 livelli di gravità della patologia. Tramite l’utilizzo di tale dataset, questa tesi esplora l’applicabilità e l’efficacia dei modelli visuali basati su metodologie Transformer nel contesto della classificazione del grado di gravità della malattia COVID-19, confrontandoli con la Rete Neurale Convoluzionale (CNN) di riferimento, ResNet50. L’attenzione si concentra su due approcci principali: il primo consiste nell’utilizzo di un modello pure attention chiamato Shifted Window Transformer (Swin), basato esclusivamente su meccanismi di Multi-Head Self Attention (MSA) senza convoluzioni; il secondo prevede l’integrazione dell’MSA all’interno di una backbone convoluzionale per creare un modello ibrido chiamato Bottleneck Transformer Network (BoTNet). Lo scopo della ricerca è anche di determinare quale di questi approcci sia più efficace per il compito di classificazione e affronta le sfide poste dalla limitata disponibilità di dati nel dataset, valutando l’impiego del transfer learning come soluzione per ottimizzare l’addestramento del modello Swin e migliorare le performance. I risultati del confronto tra i modelli addestrati da zero evidenziano che il modello ibrido BoTNet50 è in grado di superare in termini di prestazioni la ResNet50, mostrando una maggiore efficacia e consistenza nella classificazione delle immagini ecografiche, ottenendo un F1-Score di 0.6025 contro 0.5896. In confronto, il modello Swin non ha ottenuto risultati competitivi quando addestrato da zero su questo dataset, raggiungendo un F1-score di 0.4682. Tuttavia, è migliorato significativamente con l’impiego del transfer learning, riuscendo a raggiungere un F1-score di 0.6513 e superando ResNet50 su tutte le metriche. Durante lo studio di ablazione effettuato bloccando in fase di addestramento la conoscenza di particolari strati del modello Swin pre-allenato, è emerso che è possibile raggiungere prestazioni paragonabili a quelle ottenute con un modello completamente addestrato, con una complessità computazionale significativamente ridotta, anche rispetto a ResNet50. Infine, l’analisi delle Grad-CAM ha mostrato una maggiore sensibilità del Swin nel rilevare strutture complesse rispetto a ResNet50 e la capacità di porre l’attenzione a contesti più ampi, catturando le relazioni spaziali tra artefatti maggiormente diversificati e posizionati in varie aree dell’immagine.

Un approccio automatizzato basato su Vision Transformer per la valutazione ecografica del Covid-19

MELNIC, ANDRIAN
2022/2023

Abstract

In the current context of COVID-19 pneumonia diagnosis, imaging techniques have become increasingly important. Lung Ultrasound (LUS), in particular, is advantageous due to its cost-effectiveness, safety, and non-invasive nature. In this setting, the Italian COVID-19 Lung Ultrasound (ICLUS) dataset, provided by the Trento Ultrasound Laboratory (ULTRa), features a four-level severity scoring system. This thesis explores the applicability and effectiveness of Transformer-based visual models in classifying COVID-19 severity levels, comparing them with the reference Convolutional Neural Network (CNN), ResNet50. The focus is on two approaches: using a pure attention model called Shifted Window Transformer (Swin), based solely on Multi-Head Self Attention (MSA) without convolutions; and creating a hybrid model named Bottleneck Transformer Network (BoTNet) by integrating MSA into a convolutional backbone. The research aims to determine which approach is more effective for classifying ICLUS ultrasound images, considering accuracy and model generalizability. It also tackles the challenges of limited data availability, evaluating the use of transfer learning to optimize Swin model training and improve its performance. The comparison results of the models trained from scratch show that the hybrid BoTNet50 outperforms ResNet50 in terms of performance, demonstrating greater efficacy and consistency in ultrasound image classification, achieving an F1-Score of 0.6025 compared to 0.5896. In contrast, Swin did not achieve competitive results when trained from scratch on this dataset, with an F1-Score of 0.4682. However, it improved significantly with transfer learning, achieving an F1-Score of 0.6513 and surpassing ResNet50 on all metrics. An ablation study, conducted by freezing certain layers during Swin model training, revealed that performance comparable to a fully trained model can be achieved with significantly reduced computational complexity, even when compared to ResNet50. Finally, Grad-CAM analysis showed Swin’s greater sensitivity in detecting complex structures than ResNet50 and its ability to focus on broader contexts, capturing spatial relationships between more diversified artifacts located in different areas of the image.
2022
2024-02-16
An automated vision transformer approach for Covid-19 ultrasound assessment
Nell’attuale contesto della diagnosi medica della polmonite da COVID-19, le tecniche di imaging hanno acquisito un ruolo di primaria importanza. L’ecografia polmonare (Lung Ultrasound - LUS) in particolare, presenta una serie di vantaggi in quanto economica, sicura e non invasiva. In questo ambito, il dataset di ecografie polmonari Italian COVID-19 Lung Ultrasound (ICLUS), fornito dal Laboratorio di Ultrasonografia di Trento (ULTRa), presenta un sistema di punteggio a 4 livelli di gravità della patologia. Tramite l’utilizzo di tale dataset, questa tesi esplora l’applicabilità e l’efficacia dei modelli visuali basati su metodologie Transformer nel contesto della classificazione del grado di gravità della malattia COVID-19, confrontandoli con la Rete Neurale Convoluzionale (CNN) di riferimento, ResNet50. L’attenzione si concentra su due approcci principali: il primo consiste nell’utilizzo di un modello pure attention chiamato Shifted Window Transformer (Swin), basato esclusivamente su meccanismi di Multi-Head Self Attention (MSA) senza convoluzioni; il secondo prevede l’integrazione dell’MSA all’interno di una backbone convoluzionale per creare un modello ibrido chiamato Bottleneck Transformer Network (BoTNet). Lo scopo della ricerca è anche di determinare quale di questi approcci sia più efficace per il compito di classificazione e affronta le sfide poste dalla limitata disponibilità di dati nel dataset, valutando l’impiego del transfer learning come soluzione per ottimizzare l’addestramento del modello Swin e migliorare le performance. I risultati del confronto tra i modelli addestrati da zero evidenziano che il modello ibrido BoTNet50 è in grado di superare in termini di prestazioni la ResNet50, mostrando una maggiore efficacia e consistenza nella classificazione delle immagini ecografiche, ottenendo un F1-Score di 0.6025 contro 0.5896. In confronto, il modello Swin non ha ottenuto risultati competitivi quando addestrato da zero su questo dataset, raggiungendo un F1-score di 0.4682. Tuttavia, è migliorato significativamente con l’impiego del transfer learning, riuscendo a raggiungere un F1-score di 0.6513 e superando ResNet50 su tutte le metriche. Durante lo studio di ablazione effettuato bloccando in fase di addestramento la conoscenza di particolari strati del modello Swin pre-allenato, è emerso che è possibile raggiungere prestazioni paragonabili a quelle ottenute con un modello completamente addestrato, con una complessità computazionale significativamente ridotta, anche rispetto a ResNet50. Infine, l’analisi delle Grad-CAM ha mostrato una maggiore sensibilità del Swin nel rilevare strutture complesse rispetto a ResNet50 e la capacità di porre l’attenzione a contesti più ampi, catturando le relazioni spaziali tra artefatti maggiormente diversificati e posizionati in varie aree dell’immagine.
File in questo prodotto:
File Dimensione Formato  
tesi-melnic-1098384.pdf

accesso aperto

Dimensione 9.36 MB
Formato Adobe PDF
9.36 MB Adobe PDF Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12075/16579