I Large Language Model rappresentano una rivoluzione nel campo del Natural Language Processing, offrendo soluzioni avanzate che consentono alle macchine di comprendere, generare e interagire con il linguaggio umano. Tuttavia, l’adattamento di questi modelli a lingue e dialetti caratterizzati da scarsità di risorse rappresenta una sfida ancora aperta. Questa tesi si inserisce in questo panorama esplorando il caso del dialetto fermano, utilizzato come esempio rappresentativo per valutare le potenzialità degli LLM in contesti linguistici poco rappresentati. Grazie alla costruzione di un dataset dialettale specifico e allo sviluppo di pipeline per il fine-tuning e la valutazione, la ricerca si è focalizzata su tre task distinti: generazione di testo, Target Word Prediction e Target Word Selection. I risultati ottenuti offrono uno spunto critico sui limiti attuali degli LLM nel comprendere e adattarsi a contesti dialettali, proponendo al contempo strategie di ottimizzazione e possibili applicazioni pratiche per la preservazione e valorizzazione di lingue e dialetti sottorappresentati.
Fine-tuning di un Large Language Model per la definizione di un chatbot capace di operare in un dialetto marchigiano.
PISTAGNESI, LAURA
2023/2024
Abstract
I Large Language Model rappresentano una rivoluzione nel campo del Natural Language Processing, offrendo soluzioni avanzate che consentono alle macchine di comprendere, generare e interagire con il linguaggio umano. Tuttavia, l’adattamento di questi modelli a lingue e dialetti caratterizzati da scarsità di risorse rappresenta una sfida ancora aperta. Questa tesi si inserisce in questo panorama esplorando il caso del dialetto fermano, utilizzato come esempio rappresentativo per valutare le potenzialità degli LLM in contesti linguistici poco rappresentati. Grazie alla costruzione di un dataset dialettale specifico e allo sviluppo di pipeline per il fine-tuning e la valutazione, la ricerca si è focalizzata su tre task distinti: generazione di testo, Target Word Prediction e Target Word Selection. I risultati ottenuti offrono uno spunto critico sui limiti attuali degli LLM nel comprendere e adattarsi a contesti dialettali, proponendo al contempo strategie di ottimizzazione e possibili applicazioni pratiche per la preservazione e valorizzazione di lingue e dialetti sottorappresentati.File | Dimensione | Formato | |
---|---|---|---|
Tesi-Laura Pistagnesi.pdf
embargo fino al 09/06/2026
Dimensione
2.05 MB
Formato
Adobe PDF
|
2.05 MB | Adobe PDF |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.12075/20172