Miglioramento delle performance di addestramento di un Vision Transformer attraverso approcci di Reinforcement Learning

Negli ultimi anni si è assistito ad un'enorme evoluzione dell'Intelligenza Artificiale grazie all'introduzione dei transformer. Tale rete neurale è nata nell'ambito del Natural Language Processing ed è stata, poi, utilizzata anche nella Computer Vision, con il nome di Vision Transformer (ViT). Una delle principali problematiche di questa architettura riguarda la complessità temporale, la quale cresce quadraticamente rispetto al numero di patch in cui viene divisa l'immagine in input. In questo progetto di tesi si vuole proporre un approccio basato sul Deep Q-Learning capace di diminuire la complessità temporale dei ViT mantenendone inalterate le prestazioni. Il framework da noi proposto fa uso di un agente che si interfaccia con un environment, il quale fornisce l'attention score associato alle immagini in input. L'agente, una volta osservato lo stato corrente, restituisce una lista di patch che vengono utilizzate per l'allenamento del ViT. Al termine dell'allenamento, l'agente riceve un reward basato su una combinazione di training loss e numero di patch scelte.

Miglioramento delle performance di addestramento di un Vision Transformer attraverso approcci di Reinforcement Learning

TRAINI, DAVIDE

2022/2023

Abstract

Negli ultimi anni si è assistito ad un'enorme evoluzione dell'Intelligenza Artificiale grazie all'introduzione dei transformer. Tale rete neurale è nata nell'ambito del Natural Language Processing ed è stata, poi, utilizzata anche nella Computer Vision, con il nome di Vision Transformer (ViT). Una delle principali problematiche di questa architettura riguarda la complessità temporale, la quale cresce quadraticamente rispetto al numero di patch in cui viene divisa l'immagine in input. In questo progetto di tesi si vuole proporre un approccio basato sul Deep Q-Learning capace di diminuire la complessità temporale dei ViT mantenendone inalterate le prestazioni. Il framework da noi proposto fa uso di un agente che si interfaccia con un environment, il quale fornisce l'attention score associato alle immagini in input. L'agente, una volta osservato lo stato corrente, restituisce una lista di patch che vengono utilizzate per l'allenamento del ViT. Al termine dell'allenamento, l'agente riceve un reward basato su una combinazione di training loss e numero di patch scelte.

Scheda breve

Scheda completa

Scheda completa (DC)

	Facoltà/Dipartimento
	
				Dipartimento Ingegneria dell'Informazione
			
	Corso di studio
	
				INGEGNERIA INFORMATICA E DELL'AUTOMAZIONE
			
	Anno Accademico
	
				2022
			
	Data dell'esame finale
	
				2023-10-20
			
	Titolo inglese
	
				Improving the training performance of a Vision Transformer through Reinforcement Learning approaches
			
	Relatore
	
				URSINO, DOMENICO
			
	Correlatore
	
				VIRGILI, LUCA
CAUTERUCCIO, FRANCESCO
			
	Appare nelle tipologie:
	
				Laurea specialistica, magistrale, ciclo unico

File in questo prodotto:

File	Dimensione	Formato
Tesi_Magistrale.pdf accesso aperto Descrizione: Documento di Tesi Dimensione 1.08 MB Formato Adobe PDF Visualizza/Apri	1.08 MB	Adobe PDF	Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12075/15272

UNITesiUniversità Politecnica delle Marche