La rapida integrazione dell’Intelligenza Artificiale (IA) in tutti i settori della vita quotidiana ha generato una crescente fiducia dell’uomo nelle sue potenzialità. Tuttavia, i modelli possono esprimere con elevata certezza risposte errate, un fenomeno noto come “illusione della confidenza". Questa tesi esplora la disconnessione tra fiducia umana e auto-confidenza della macchina, evidenziando la necessità di strumenti oggettivi. Il lavoro analizza comparativamente modelli linguistici open-source (Qwen3, Llama3.2, Gemma3) su benchmark (MMLU, ARC), esaminando accuratezza e calibrazione. L’obiettivo è fornire una comprensione critica della relazione tra competenza e confidenza, sottolineando il ruolo cruciale dei benchmark nello sviluppo responsabile dell’IA.
L'ILLUSIONE DELLA CONFIDENZA: L'ARCHITETTURA DELLA CONVINZIONE OLTRE LA PROBABILITÀ. Analisi Comparativa e Valutazione delle Prestazioni di Modelli Linguistici Open-Source su Benchmark di Conoscenza e Ragionamento
SEVERINI, LORENZO
2024/2025
Abstract
La rapida integrazione dell’Intelligenza Artificiale (IA) in tutti i settori della vita quotidiana ha generato una crescente fiducia dell’uomo nelle sue potenzialità. Tuttavia, i modelli possono esprimere con elevata certezza risposte errate, un fenomeno noto come “illusione della confidenza". Questa tesi esplora la disconnessione tra fiducia umana e auto-confidenza della macchina, evidenziando la necessità di strumenti oggettivi. Il lavoro analizza comparativamente modelli linguistici open-source (Qwen3, Llama3.2, Gemma3) su benchmark (MMLU, ARC), esaminando accuratezza e calibrazione. L’obiettivo è fornire una comprensione critica della relazione tra competenza e confidenza, sottolineando il ruolo cruciale dei benchmark nello sviluppo responsabile dell’IA.| File | Dimensione | Formato | |
|---|---|---|---|
|
Frontespizio.pdf
accesso aperto
Dimensione
220.7 kB
Formato
Adobe PDF
|
220.7 kB | Adobe PDF | Visualizza/Apri |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.12075/23675