Negli ultimi anni si è assistito ad un'enorme evoluzione dell'Intelligenza Artificiale grazie all'introduzione dei transformer. Tale rete neurale è nata nell'ambito del Natural Language Processing ed è stata, poi, utilizzata anche nella Computer Vision, con il nome di Vision Transformer (ViT). Una delle principali problematiche di questa architettura riguarda la complessità temporale, la quale cresce quadraticamente rispetto al numero di patch in cui viene divisa l'immagine in input. In questo progetto di tesi si vuole proporre un approccio basato sul Deep Q-Learning capace di diminuire la complessità temporale dei ViT mantenendone inalterate le prestazioni. Il framework da noi proposto fa uso di un agente che si interfaccia con un environment, il quale fornisce l'attention score associato alle immagini in input. L'agente, una volta osservato lo stato corrente, restituisce una lista di patch che vengono utilizzate per l'allenamento del ViT. Al termine dell'allenamento, l'agente riceve un reward basato su una combinazione di training loss e numero di patch scelte.
Miglioramento delle performance di addestramento di un Vision Transformer attraverso approcci di Reinforcement Learning
TRAINI, DAVIDE
2022/2023
Abstract
Negli ultimi anni si è assistito ad un'enorme evoluzione dell'Intelligenza Artificiale grazie all'introduzione dei transformer. Tale rete neurale è nata nell'ambito del Natural Language Processing ed è stata, poi, utilizzata anche nella Computer Vision, con il nome di Vision Transformer (ViT). Una delle principali problematiche di questa architettura riguarda la complessità temporale, la quale cresce quadraticamente rispetto al numero di patch in cui viene divisa l'immagine in input. In questo progetto di tesi si vuole proporre un approccio basato sul Deep Q-Learning capace di diminuire la complessità temporale dei ViT mantenendone inalterate le prestazioni. Il framework da noi proposto fa uso di un agente che si interfaccia con un environment, il quale fornisce l'attention score associato alle immagini in input. L'agente, una volta osservato lo stato corrente, restituisce una lista di patch che vengono utilizzate per l'allenamento del ViT. Al termine dell'allenamento, l'agente riceve un reward basato su una combinazione di training loss e numero di patch scelte.File | Dimensione | Formato | |
---|---|---|---|
Tesi_Magistrale.pdf
accesso aperto
Descrizione: Documento di Tesi
Dimensione
1.08 MB
Formato
Adobe PDF
|
1.08 MB | Adobe PDF | Visualizza/Apri |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.12075/15272