I Large Language Model rappresentano una rivoluzione nel campo del Natural Language Processing, offrendo soluzioni avanzate che consentono alle macchine di comprendere, generare e interagire con il linguaggio umano. Tuttavia, l’adattamento di questi modelli a lingue e dialetti caratterizzati da scarsità di risorse rappresenta una sfida ancora aperta. Questa tesi si inserisce in questo panorama esplorando il caso del dialetto fermano, utilizzato come esempio rappresentativo per valutare le potenzialità degli LLM in contesti linguistici poco rappresentati. Grazie alla costruzione di un dataset dialettale specifico e allo sviluppo di pipeline per il fine-tuning e la valutazione, la ricerca si è focalizzata su tre task distinti: generazione di testo, Target Word Prediction e Target Word Selection. I risultati ottenuti offrono uno spunto critico sui limiti attuali degli LLM nel comprendere e adattarsi a contesti dialettali, proponendo al contempo strategie di ottimizzazione e possibili applicazioni pratiche per la preservazione e valorizzazione di lingue e dialetti sottorappresentati.

Fine-tuning di un Large Language Model per la definizione di un chatbot capace di operare in un dialetto marchigiano.

PISTAGNESI, LAURA
2023/2024

Abstract

I Large Language Model rappresentano una rivoluzione nel campo del Natural Language Processing, offrendo soluzioni avanzate che consentono alle macchine di comprendere, generare e interagire con il linguaggio umano. Tuttavia, l’adattamento di questi modelli a lingue e dialetti caratterizzati da scarsità di risorse rappresenta una sfida ancora aperta. Questa tesi si inserisce in questo panorama esplorando il caso del dialetto fermano, utilizzato come esempio rappresentativo per valutare le potenzialità degli LLM in contesti linguistici poco rappresentati. Grazie alla costruzione di un dataset dialettale specifico e allo sviluppo di pipeline per il fine-tuning e la valutazione, la ricerca si è focalizzata su tre task distinti: generazione di testo, Target Word Prediction e Target Word Selection. I risultati ottenuti offrono uno spunto critico sui limiti attuali degli LLM nel comprendere e adattarsi a contesti dialettali, proponendo al contempo strategie di ottimizzazione e possibili applicazioni pratiche per la preservazione e valorizzazione di lingue e dialetti sottorappresentati.
2023
2024-12-06
Fine-tuning a Large Language Model to define a chatbot capable of operating in a Marche dialect.
File in questo prodotto:
File Dimensione Formato  
Tesi-Laura Pistagnesi.pdf

embargo fino al 09/06/2026

Dimensione 2.05 MB
Formato Adobe PDF
2.05 MB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12075/20172