La crescente complessità dei sistemi ERP e l'elevato volume della relativa documentazione tecnica rendono sempre più difficile accedere rapidamente alle informazioni necessarie. La presente tesi ha come obiettivo principale il fine-tuning di un Large Language Model (LLM) open-source, tramite tecniche di Parameter-Efficient Fine-Tuning (PEFT/LoRA), per ottimizzare il retrieval semantico e la consultazione intelligente della documentazione funzionale della piattaforma Zucchetti Infinity. A tal fine, viene sviluppata una pipeline completa che comprende il pre-processing dei documenti, la loro segmentazione in unità informative e la costruzione di un dataset supervisionato mediante Apache Spark per l'addestramento del modello, così da adattare lo spazio vettoriale dell'LLM al dominio ERP. Successivamente, viene implementata una pipeline di Retrieval-Augmented Generation (RAG) che combina il retriever fine-tuned ed un LLM generativo. Infine, lo spazio vettoriale personalizzato ed il sistema RAG vengono valutati tramite metriche intrinseche ed estrinseche.
PROGETTAZIONE E IMPLEMENTAZIONE DI UN SISTEMA RAG BASATO SU LLM OPEN-SOURCE PER LA DOCUMENTAZIONE FUNZIONALE ONLINE DI UN ERP
SANTARELLI, DIEGO
2024/2025
Abstract
La crescente complessità dei sistemi ERP e l'elevato volume della relativa documentazione tecnica rendono sempre più difficile accedere rapidamente alle informazioni necessarie. La presente tesi ha come obiettivo principale il fine-tuning di un Large Language Model (LLM) open-source, tramite tecniche di Parameter-Efficient Fine-Tuning (PEFT/LoRA), per ottimizzare il retrieval semantico e la consultazione intelligente della documentazione funzionale della piattaforma Zucchetti Infinity. A tal fine, viene sviluppata una pipeline completa che comprende il pre-processing dei documenti, la loro segmentazione in unità informative e la costruzione di un dataset supervisionato mediante Apache Spark per l'addestramento del modello, così da adattare lo spazio vettoriale dell'LLM al dominio ERP. Successivamente, viene implementata una pipeline di Retrieval-Augmented Generation (RAG) che combina il retriever fine-tuned ed un LLM generativo. Infine, lo spazio vettoriale personalizzato ed il sistema RAG vengono valutati tramite metriche intrinseche ed estrinseche.| File | Dimensione | Formato | |
|---|---|---|---|
|
Tesi_Magistrale_Santarelli_Diego_PDFA.pdf
embargo fino al 08/06/2027
Descrizione: Documento di tesi Diego Santarelli
Dimensione
5.82 MB
Formato
Adobe PDF
|
5.82 MB | Adobe PDF |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.12075/24326