top of page

Perché l’AI mente (e continuerà a farlo finché non cambiamo le regole): un nuovo paper di Open AI lo spiega

Uno dei problemi più discussi nell’uso dei grandi modelli linguistici (LLM) è quello delle allucinazioni: risposte apparentemente plausibili, spesso articolate con sicurezza, ma di fatto errate. Nonostante i progressi nella ricerca, anche i modelli di ultima generazione come GPT-4 o DeepSeek continuano a produrre queste risposte spurie.


Un recente paper di Adam Tauman Kalai (OpenAI), Ofir Nachum (OpenAI), Santosh S. Vempala (Georgia Tech) ed Edwin Zhang (OpenAI) (“Why Language Models Hallucinate”, 2025) affronta il fenomeno con un approccio statistico e teorico, mostrando che le allucinazioni non sono misteriosi incidenti del sistema, ma errori strutturali legati al modo in cui i modelli vengono addestrati e valutati.


La natura delle allucinazioni: quando tirare a indovinare è meglio che astenersi


Gli autori definiscono le allucinazioni come un caso particolare di plausible falsehoods: falsità plausibili che emergono perché il modello è spinto a produrre sempre un output, anche in condizioni di incertezza. Questa spinta è profondamente radicata nel processo di training e nell’attuale cultura della valutazione dei modelli.

Il paragone con un esame a scelta multipla è illuminante. Uno studente che non conosce la risposta a una domanda può:

  • ammettere la propria ignoranza e lasciare la casella in bianco, ottenendo zero punti;

  • oppure indovinare, con la possibilità di guadagnare punti.

I modelli linguistici, proprio come gli studenti, apprendono che conviene indovinare piuttosto che astenersi. Da qui nasce una delle dinamiche più perverse delle allucinazioni.



Errori nel pretraining: un’inevitabilità statistica

Durante il pretraining, il modello impara una distribuzione di probabilità sul linguaggio a partire da enormi quantità di testo. Anche assumendo dati perfetti, il processo non può evitare errori, perché il problema di generare output validi è più difficile del problema di classificare output validi/invalidi.

Gli autori formalizzano questa idea attraverso la riduzione dal problema di Is-It-Valid (IIV) classification al problema di generazione. Se definiamo un insieme di stringhe plausibili X, con un sottoinsieme di stringhe valide V⊆X e un sottoinsieme di errori E=X\V, allora il tasso di errore di un modello base p^​ è dato da:


ree

Il risultato cruciale è che il tasso di errore della generazione è almeno il doppio del tasso di errore della classificazione IIV, come espresso nel paper:


ree

Questo implica che, anche in condizioni ideali, i modelli di linguaggio sono destinati a commettere errori: non si tratta di un problema di implementazione, ma di una conseguenza matematica della natura del compito.


Errori persistenti nel post-training

Se il pretraining spiega perché gli errori nascono, il post-training spiega perché non spariscono.

Le tecniche di reinforcement learning from human feedback (RLHF) e metodi analoghi dovrebbero in teoria ridurre le allucinazioni, incoraggiando i modelli a dare risposte corrette o prudenti. Tuttavia, nella pratica, le metriche dominanti nei benchmark (accuratezza, pass-rate, exact-match) continuano a penalizzare l’astensione.

Come notano gli autori, questo crea una sorta di “epidemia” di penalizzazione dell’incertezza: un modello che risponde sempre, anche quando non sa, supera spesso un modello che ammette i propri limiti. Le leaderboard che guidano la competizione tra sistemi AI rinforzano quindi il comportamento di “bluff”.


I fattori alla base delle allucinazioni

Le cause delle allucinazioni non si esauriscono nell’indovinare sotto incertezza. Il paper evidenzia una pluralità di fattori:

  • Arbitrarietà dei dati: informazioni non regolari, come compleanni o titoli di tesi, che non possono essere apprese se non per memorizzazione diretta.

  • Modelli poveri: quando l’architettura non è in grado di rappresentare certe funzioni, come nel caso dei trigrammi incapaci di catturare dipendenze di lungo raggio.

  • Distribution shift: discrepanze tra i dati di training e quelli di test, che portano i modelli a fallire su input “fuori distribuzione”.

  • GIGO (Garbage In, Garbage Out): la bassa qualità dei dati di addestramento si traduce direttamente in errori di generazione.

Inoltre, gli autori collegano le allucinazioni a concetti classici della teoria dell’apprendimento come la dimensione VC (Vapnik e Chervonenkis, 1971), che quantifica la complessità delle funzioni che un modello può apprendere. In particolare, fatti arbitrari e randomizzati hanno alta complessità e dunque portano a errori inevitabili.


Una proposta di riforma: cambiare le metriche di valutazione


La tesi più forte del paper è che, per ridurre le allucinazioni, non basta migliorare gli algoritmi: occorre ripensare come valutiamo i modelli.

In particolare, gli autori propongono:

  • penalizzare in misura maggiore gli errori sicuri rispetto alle risposte caute;

  • premiare risposte come “non lo so” (IDK) quando appropriate;

  • introdurre soglie di confidenza esplicite nelle valutazioni, analoghe a quelle usate in alcuni esami standardizzati, dove rispondere a caso è penalizzante più del lasciare vuoto.


Un’idea correlata è quella della behavioral calibration: il modello dovrebbe essere valutato non solo sulla correttezza, ma anche sulla sua capacità di astenersi quando la probabilità di avere ragione è troppo bassa.


Implicazioni e prospettive

Questo approccio ribalta la prospettiva dominante. Le allucinazioni non sono più viste come difetti occasionali da correggere con patch tecniche, ma come fenomeni strutturali prodotti da incentivi sbagliati.

Correggere questi incentivi – modificando i benchmark e le leaderboard – significherebbe incoraggiare i modelli a essere onesti piuttosto che a bluffare. In termini pratici, si tratterebbe di spostare la cultura dell’AI da un paradigma “da test a crocette” a un paradigma più vicino alla scienza: meglio ammettere l’incertezza che inventare una risposta falsa.


So what...

Il paper di Kalai, Nachum, Vempala e Zhang fornisce un quadro teorico convincente: le allucinazioni non sono anomalie misteriose, ma un sottoprodotto naturale del training e della valutazione dei modelli linguistici.

Cambiare i benchmark significa cambiare il comportamento dei modelli. Una volta che le regole premieranno la trasparenza piuttosto che l’arroganza, sarà possibile costruire sistemi di intelligenza artificiale più affidabili, capaci di dire “non lo so” e, proprio per questo, degni di maggiore fiducia.

 
 
 

Commenti


bottom of page