Natural Language Processing is a branch of artificial intelligence that can provide computers with the ability to process text and words spoken in natural language natural language, making them capable of learning and deriving meaning from it. In today's digital environment, the large amount of data available has encouraged the development of intelligent applications capable of performing complex tasks that require specific language processing techniques. The objective of the following work is to realize classification models capable of of recognizing human emotions in textual content from social networks and written in the Italian language. The experimental phase starts from a preliminary exploratory and descriptive analysis, with the intent of verifying the goodness of the dataset and identifying any hidden patterns and relationships in the data. Then follows the implementation of unsupervised techniques such as Word2Vec, a model capable of taking a word and returning a numeric vector associated with the word itself, so as to learn associations between words and identify a level of similarity semantics. We conclude the analysis by using clustering techniques to group the word embeddings obtained with Word2Vec. The supervised analysis develops two emotion classifiers through two different pre-trained models, GPT-3 and Google BERT. Both are deep learning models designed to process natural language but they differ in some aspects and for that reason they are being compared. At the end of the experimental phase, it can be confirmed that both classifiers achieve high performance in the test data, with accuracy levels of 90% with GPT-3 and 89% with BERT.

Il Natural Language Processing è una branca dell’intelligenza artificiale in grado di fornire ai computer l’abilità di elaborare il testo e le parole pronunciate in linguaggio naturale, rendendoli capaci di apprendere e ricavare significato da esso. Nel contesto digitale attuale, la grande mole di dati a disposizione ha favorito lo sviluppo di applicazioni intelligenti in grado di compiere attività complesse che richiedono specifiche tecniche di elaborazione del linguaggio. L’obiettivo del seguente lavoro consiste nel realizzare modelli di classificazione in grado di riconoscere le emozioni umane in contenuti testuali provenienti da social network e scritti in lingua italiana. La fase sperimentale parte da un’analisi preliminare esplorativa e descrittiva, con l’intento di verificare la bontà del dataset e individuare eventuali pattern e relazioni nascoste nei dati. Segue poi l’implementazione di tecniche unsupervised come Word2Vec, un modello in grado di prendere una parola e restituire un vettore numerico associato alla parola stessa, così da apprendere le associazioni tra parole e identificare un livello di somiglianza semantica. Si conclude l’analisi mediante l’utilizzo di tecniche di clustering per raggruppare i word embedding ottenuti con Word2Vec. L’analisi supervised sviluppa due classificatori delle emozioni tramite due differenti modelli pre-allenati, GPT-3 e Google BERT. Entrambi sono modelli di deep learning progettati per elaborare il linguaggio naturale ma differiscono sotto alcuni aspetti e per tale motivo sono messi a confronto. Al termine della fase sperimentale, è possibile confermare che entrambi i classificatori raggiungono performance elevate nei dati di test, con livelli di accuracy pari a 90% con GPT-3 e 89% con BERT.

Sviluppo di modelli per l'emotion recognition di testi in lingua italiana

RIDOLFI, LORENZO
2021/2022

Abstract

Natural Language Processing is a branch of artificial intelligence that can provide computers with the ability to process text and words spoken in natural language natural language, making them capable of learning and deriving meaning from it. In today's digital environment, the large amount of data available has encouraged the development of intelligent applications capable of performing complex tasks that require specific language processing techniques. The objective of the following work is to realize classification models capable of of recognizing human emotions in textual content from social networks and written in the Italian language. The experimental phase starts from a preliminary exploratory and descriptive analysis, with the intent of verifying the goodness of the dataset and identifying any hidden patterns and relationships in the data. Then follows the implementation of unsupervised techniques such as Word2Vec, a model capable of taking a word and returning a numeric vector associated with the word itself, so as to learn associations between words and identify a level of similarity semantics. We conclude the analysis by using clustering techniques to group the word embeddings obtained with Word2Vec. The supervised analysis develops two emotion classifiers through two different pre-trained models, GPT-3 and Google BERT. Both are deep learning models designed to process natural language but they differ in some aspects and for that reason they are being compared. At the end of the experimental phase, it can be confirmed that both classifiers achieve high performance in the test data, with accuracy levels of 90% with GPT-3 and 89% with BERT.
2021
2023-02-10
Development of models for emotion recognition of Italian texts
Il Natural Language Processing è una branca dell’intelligenza artificiale in grado di fornire ai computer l’abilità di elaborare il testo e le parole pronunciate in linguaggio naturale, rendendoli capaci di apprendere e ricavare significato da esso. Nel contesto digitale attuale, la grande mole di dati a disposizione ha favorito lo sviluppo di applicazioni intelligenti in grado di compiere attività complesse che richiedono specifiche tecniche di elaborazione del linguaggio. L’obiettivo del seguente lavoro consiste nel realizzare modelli di classificazione in grado di riconoscere le emozioni umane in contenuti testuali provenienti da social network e scritti in lingua italiana. La fase sperimentale parte da un’analisi preliminare esplorativa e descrittiva, con l’intento di verificare la bontà del dataset e individuare eventuali pattern e relazioni nascoste nei dati. Segue poi l’implementazione di tecniche unsupervised come Word2Vec, un modello in grado di prendere una parola e restituire un vettore numerico associato alla parola stessa, così da apprendere le associazioni tra parole e identificare un livello di somiglianza semantica. Si conclude l’analisi mediante l’utilizzo di tecniche di clustering per raggruppare i word embedding ottenuti con Word2Vec. L’analisi supervised sviluppa due classificatori delle emozioni tramite due differenti modelli pre-allenati, GPT-3 e Google BERT. Entrambi sono modelli di deep learning progettati per elaborare il linguaggio naturale ma differiscono sotto alcuni aspetti e per tale motivo sono messi a confronto. Al termine della fase sperimentale, è possibile confermare che entrambi i classificatori raggiungono performance elevate nei dati di test, con livelli di accuracy pari a 90% con GPT-3 e 89% con BERT.
File in questo prodotto:
File Dimensione Formato  
Development of models for emotion recognition in italian text.pdf

accesso aperto

Descrizione: Tesi di laurea
Dimensione 1.99 MB
Formato Adobe PDF
1.99 MB Adobe PDF Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12075/11847