In recent years, the advent of artificial intelligence has revolutionized the field of Natural Language Processing, largely due to the emergence of Large Language Models (LLMs). These models have opened up new possibilities across various areas of computer science. This work focuses on topic modeling by comparing two innovative LLM-based approaches capable of synthesizing large volumes of textual data and extracting key information. The first approach, TopicGPT, performs topic modeling by leveraging the generative capabilities of models like ChatGPT through a fully prompt-driven pipeline. The second approach, developed as part of this work, adopts a hybrid system that combines BERT for clustering, LlamaIndex for extracting the most representative sentences, and Llama2 for generating the final topic labels. Both approaches were applied to a dataset consisting of thousands of documents with known thematic labels (Ground Truth), in order to assess their accuracy. Performance was evaluated using quantitative clustering metrics as well as manual qualitative assessments. The results highlight distinct strengths in each system: TopicGPT generally performs better in terms of interpretability and output quality, whereas the hybrid approach offers greater flexibility and control, though with somewhat lower qualitative performance.

Negli ultimi anni, grazie all'avvento dell'intelligenza artificale, i Large Language Models (LLM) hanno rivoluzionato il campo del Natural Language Processing aprendo nuove prospettive in numerosi ambiti dell’informatica. Questo lavoro si focalizza sul topic modeling proponendo un confronto tra due approcci innovativi basati su LLM in grado di sintetizzare grandi volumi di dati testuali ed estrarne le informazioni principali. Il primo approccio, TopicGPT, esegue topic modeling sfruttando le capacità generative di modelli come ChatGPT attraverso una pipeline interamente guidata dai prompt. Il secondo invece, sviluppato all'interno di questo lavoro, adotta un sistema ibrido composto da BERT per la suddivisione in cluster, LlamaIndex per l’estrazione delle frasi rappresentative più importanti, e Llama2 per la generazione delle etichette finali. Entrambi gli approcci sono stati applicati a un dataset composto da migliaia di documenti con etichette tematiche note (Ground Truth), al fine di valutarne la veridicità. Le prestazioni sono state analizzate utilizzando metriche quantitative di clustering e valutazioni qualitative manuali. I risultati mostrano come i due sistemi presentino punti di forza differenti: TopicGPT risulta generalmente migliore per interpretabilità e qualità, mentre l’approccio ibrido risulta più flessibile e controllabile, ma con prestazioni inferiori sul piano qualitativo.

Confronto tra strumenti basati su LLM per la modellazione tematica di raccolte di documenti

ORTOLANI, MICHELE
2024/2025

Abstract

In recent years, the advent of artificial intelligence has revolutionized the field of Natural Language Processing, largely due to the emergence of Large Language Models (LLMs). These models have opened up new possibilities across various areas of computer science. This work focuses on topic modeling by comparing two innovative LLM-based approaches capable of synthesizing large volumes of textual data and extracting key information. The first approach, TopicGPT, performs topic modeling by leveraging the generative capabilities of models like ChatGPT through a fully prompt-driven pipeline. The second approach, developed as part of this work, adopts a hybrid system that combines BERT for clustering, LlamaIndex for extracting the most representative sentences, and Llama2 for generating the final topic labels. Both approaches were applied to a dataset consisting of thousands of documents with known thematic labels (Ground Truth), in order to assess their accuracy. Performance was evaluated using quantitative clustering metrics as well as manual qualitative assessments. The results highlight distinct strengths in each system: TopicGPT generally performs better in terms of interpretability and output quality, whereas the hybrid approach offers greater flexibility and control, though with somewhat lower qualitative performance.
2024
2025-07-11
Comparison of LLM-based tools for topic modeling of document collections
Negli ultimi anni, grazie all'avvento dell'intelligenza artificale, i Large Language Models (LLM) hanno rivoluzionato il campo del Natural Language Processing aprendo nuove prospettive in numerosi ambiti dell’informatica. Questo lavoro si focalizza sul topic modeling proponendo un confronto tra due approcci innovativi basati su LLM in grado di sintetizzare grandi volumi di dati testuali ed estrarne le informazioni principali. Il primo approccio, TopicGPT, esegue topic modeling sfruttando le capacità generative di modelli come ChatGPT attraverso una pipeline interamente guidata dai prompt. Il secondo invece, sviluppato all'interno di questo lavoro, adotta un sistema ibrido composto da BERT per la suddivisione in cluster, LlamaIndex per l’estrazione delle frasi rappresentative più importanti, e Llama2 per la generazione delle etichette finali. Entrambi gli approcci sono stati applicati a un dataset composto da migliaia di documenti con etichette tematiche note (Ground Truth), al fine di valutarne la veridicità. Le prestazioni sono state analizzate utilizzando metriche quantitative di clustering e valutazioni qualitative manuali. I risultati mostrano come i due sistemi presentino punti di forza differenti: TopicGPT risulta generalmente migliore per interpretabilità e qualità, mentre l’approccio ibrido risulta più flessibile e controllabile, ma con prestazioni inferiori sul piano qualitativo.
File in questo prodotto:
File Dimensione Formato  
Tesi_magistrale_a.pdf

accesso aperto

Descrizione: Tesi
Dimensione 9.97 MB
Formato Adobe PDF
9.97 MB Adobe PDF Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12075/22679