Negli ultimi anni si è assistito ad un'enorme evoluzione dell'Intelligenza Artificiale grazie all'introduzione dei transformer. Tale rete neurale è nata nell'ambito del Natural Language Processing ed è stata, poi, utilizzata anche nella Computer Vision, con il nome di Vision Transformer (ViT). Una delle principali problematiche di questa architettura riguarda la complessità temporale, la quale cresce quadraticamente rispetto al numero di patch in cui viene divisa l'immagine in input. In questo progetto di tesi si vuole proporre un approccio basato sul Deep Q-Learning capace di diminuire la complessità temporale dei ViT mantenendone inalterate le prestazioni. Il framework da noi proposto fa uso di un agente che si interfaccia con un environment, il quale fornisce l'attention score associato alle immagini in input. L'agente, una volta osservato lo stato corrente, restituisce una lista di patch che vengono utilizzate per l'allenamento del ViT. Al termine dell'allenamento, l'agente riceve un reward basato su una combinazione di training loss e numero di patch scelte.

Miglioramento delle performance di addestramento di un Vision Transformer attraverso approcci di Reinforcement Learning

TRAINI, DAVIDE
2022/2023

Abstract

Negli ultimi anni si è assistito ad un'enorme evoluzione dell'Intelligenza Artificiale grazie all'introduzione dei transformer. Tale rete neurale è nata nell'ambito del Natural Language Processing ed è stata, poi, utilizzata anche nella Computer Vision, con il nome di Vision Transformer (ViT). Una delle principali problematiche di questa architettura riguarda la complessità temporale, la quale cresce quadraticamente rispetto al numero di patch in cui viene divisa l'immagine in input. In questo progetto di tesi si vuole proporre un approccio basato sul Deep Q-Learning capace di diminuire la complessità temporale dei ViT mantenendone inalterate le prestazioni. Il framework da noi proposto fa uso di un agente che si interfaccia con un environment, il quale fornisce l'attention score associato alle immagini in input. L'agente, una volta osservato lo stato corrente, restituisce una lista di patch che vengono utilizzate per l'allenamento del ViT. Al termine dell'allenamento, l'agente riceve un reward basato su una combinazione di training loss e numero di patch scelte.
2022
2023-10-20
Improving the training performance of a Vision Transformer through Reinforcement Learning approaches
File in questo prodotto:
File Dimensione Formato  
Tesi_Magistrale.pdf

accesso aperto

Descrizione: Documento di Tesi
Dimensione 1.08 MB
Formato Adobe PDF
1.08 MB Adobe PDF Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12075/15272