Fine-tuning di un Large Language Model per la definizione di un chatbot capace di operare in un dialetto marchigiano.

I Large Language Model rappresentano una rivoluzione nel campo del Natural Language Processing, offrendo soluzioni avanzate che consentono alle macchine di comprendere, generare e interagire con il linguaggio umano. Tuttavia, l’adattamento di questi modelli a lingue e dialetti caratterizzati da scarsità di risorse rappresenta una sfida ancora aperta. Questa tesi si inserisce in questo panorama esplorando il caso del dialetto fermano, utilizzato come esempio rappresentativo per valutare le potenzialità degli LLM in contesti linguistici poco rappresentati. Grazie alla costruzione di un dataset dialettale specifico e allo sviluppo di pipeline per il fine-tuning e la valutazione, la ricerca si è focalizzata su tre task distinti: generazione di testo, Target Word Prediction e Target Word Selection. I risultati ottenuti offrono uno spunto critico sui limiti attuali degli LLM nel comprendere e adattarsi a contesti dialettali, proponendo al contempo strategie di ottimizzazione e possibili applicazioni pratiche per la preservazione e valorizzazione di lingue e dialetti sottorappresentati.

Fine-tuning di un Large Language Model per la definizione di un chatbot capace di operare in un dialetto marchigiano.

PISTAGNESI, LAURA

2023/2024

Abstract

I Large Language Model rappresentano una rivoluzione nel campo del Natural Language Processing, offrendo soluzioni avanzate che consentono alle macchine di comprendere, generare e interagire con il linguaggio umano. Tuttavia, l’adattamento di questi modelli a lingue e dialetti caratterizzati da scarsità di risorse rappresenta una sfida ancora aperta. Questa tesi si inserisce in questo panorama esplorando il caso del dialetto fermano, utilizzato come esempio rappresentativo per valutare le potenzialità degli LLM in contesti linguistici poco rappresentati. Grazie alla costruzione di un dataset dialettale specifico e allo sviluppo di pipeline per il fine-tuning e la valutazione, la ricerca si è focalizzata su tre task distinti: generazione di testo, Target Word Prediction e Target Word Selection. I risultati ottenuti offrono uno spunto critico sui limiti attuali degli LLM nel comprendere e adattarsi a contesti dialettali, proponendo al contempo strategie di ottimizzazione e possibili applicazioni pratiche per la preservazione e valorizzazione di lingue e dialetti sottorappresentati.

Scheda breve

Scheda completa

Scheda completa (DC)

	Facoltà/Dipartimento
	
				Dipartimento Ingegneria dell'Informazione
			
	Corso di studio
	
				INGEGNERIA INFORMATICA E DELL'AUTOMAZIONE
			
	Anno Accademico
	
				2023
			
	Data dell'esame finale
	
				2024-12-06
			
	Titolo inglese
	
				Fine-tuning a Large Language Model to define a chatbot capable of operating in a Marche dialect.
			
	Relatore
	
				URSINO, DOMENICO
			
	Correlatore
	
				MARCHETTI, MICHELE
VIRGILI, LUCA
			
	Appare nelle tipologie:
	
				Laurea specialistica, magistrale, ciclo unico

File in questo prodotto:

File	Dimensione	Formato
Tesi-Laura Pistagnesi.pdf Open Access dal 10/06/2026 Dimensione 2.05 MB Formato Adobe PDF Visualizza/Apri	2.05 MB	Adobe PDF	Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12075/20172

UNITesiUniversità Politecnica delle Marche