PROGETTAZIONE E IMPLEMENTAZIONE DI UN SISTEMA RAG BASATO SU LLM OPEN-SOURCE PER LA DOCUMENTAZIONE FUNZIONALE ONLINE DI UN ERP

La crescente complessità dei sistemi ERP e l'elevato volume della relativa documentazione tecnica rendono sempre più difficile accedere rapidamente alle informazioni necessarie. La presente tesi ha come obiettivo principale il fine-tuning di un Large Language Model (LLM) open-source, tramite tecniche di Parameter-Efficient Fine-Tuning (PEFT/LoRA), per ottimizzare il retrieval semantico e la consultazione intelligente della documentazione funzionale della piattaforma Zucchetti Infinity. A tal fine, viene sviluppata una pipeline completa che comprende il pre-processing dei documenti, la loro segmentazione in unità informative e la costruzione di un dataset supervisionato mediante Apache Spark per l'addestramento del modello, così da adattare lo spazio vettoriale dell'LLM al dominio ERP. Successivamente, viene implementata una pipeline di Retrieval-Augmented Generation (RAG) che combina il retriever fine-tuned ed un LLM generativo. Infine, lo spazio vettoriale personalizzato ed il sistema RAG vengono valutati tramite metriche intrinseche ed estrinseche.

PROGETTAZIONE E IMPLEMENTAZIONE DI UN SISTEMA RAG BASATO SU LLM OPEN-SOURCE PER LA DOCUMENTAZIONE FUNZIONALE ONLINE DI UN ERP

SANTARELLI, DIEGO

2024/2025

Abstract

La crescente complessità dei sistemi ERP e l'elevato volume della relativa documentazione tecnica rendono sempre più difficile accedere rapidamente alle informazioni necessarie. La presente tesi ha come obiettivo principale il fine-tuning di un Large Language Model (LLM) open-source, tramite tecniche di Parameter-Efficient Fine-Tuning (PEFT/LoRA), per ottimizzare il retrieval semantico e la consultazione intelligente della documentazione funzionale della piattaforma Zucchetti Infinity. A tal fine, viene sviluppata una pipeline completa che comprende il pre-processing dei documenti, la loro segmentazione in unità informative e la costruzione di un dataset supervisionato mediante Apache Spark per l'addestramento del modello, così da adattare lo spazio vettoriale dell'LLM al dominio ERP. Successivamente, viene implementata una pipeline di Retrieval-Augmented Generation (RAG) che combina il retriever fine-tuned ed un LLM generativo. Infine, lo spazio vettoriale personalizzato ed il sistema RAG vengono valutati tramite metriche intrinseche ed estrinseche.

Scheda breve

Scheda completa

Scheda completa (DC)

	Facoltà/Dipartimento
	
				Dipartimento Ingegneria dell'Informazione
			
	Corso di studio
	
				INGEGNERIA INFORMATICA E DELL'AUTOMAZIONE
			
	Anno Accademico
	
				2024
			
	Data dell'esame finale
	
				2025-12-05
			
	Titolo inglese
	
				DESIGN AND IMPLEMENTATION OF AN OPEN-SOURCE LLM-BASED RAG SYSTEM FOR ONLINE FUNCTIONAL DOCUMENTATION OF AN ERP
			
	Relatore
	
				URSINO, DOMENICO
			
	Correlatore
	
				ESPOSTO, LUCA
			
	Appare nelle tipologie:
	
				Laurea specialistica, magistrale, ciclo unico

File in questo prodotto:

File	Dimensione	Formato
Tesi_Magistrale_Santarelli_Diego_PDFA.pdf embargo fino al 08/06/2027 Descrizione: Documento di tesi Diego Santarelli Dimensione 5.82 MB Formato Adobe PDF	5.82 MB	Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12075/24326

UNITesiUniversità Politecnica delle Marche