Quando bluffare conviene: allucinazioni e incentivi nei Large Language Model
Quando bluffare conviene: allucinazioni e incentivi nei Large Language Model
Abstract: I modelli linguistici di grandi dimensioni producono risposte sempre più convincenti e plausibili, rendendo i loro errori difficili da riconoscere e potenzialmente pericolosi.
Le cosiddette allucinazioni non rappresentano un’anomalia accidentale, ma una conseguenza strutturale dei meccanismi probabilistici dei modelli e, soprattutto, degli incentivi che ne governano la valutazione. La maggior parte dei benchmark premiano la risposta ad ogni costo e penalizzano l’astensione, istituzionalizzando di fatto l’errore.
Attraverso il concetto di calibrazione viene mostrato come l’errore non sia necessariamente un difetto da eliminare, ma il prezzo inevitabile di un modello che riflette onestamente l’incertezza dei dati, evidenziando come modelli eccessivamente prudenti risultino tanto problematici quando quelli eccessivamente audaci.
Ne deriva la necessità di abbandonare gli attuali criteri di valutazione a favore di criteri flessibili, contestuali e calibrati in base agli ambiti applicativi e alle conseguenze dell’errore.
Governare l’intelligenza artificiale non significa eliminare l’incertezza, ma renderla riconoscibile, misurabile e adeguata al contesto: è in questa consapevolezza che si gioca la differenza tra un uso maturo dell’IA e una delega acritica alle sue apparenze di competenza.
I limiti dei modelli all’origine delle allucinazioni
Il noto critico dei modelli linguistici di grandi dimensioni (LLM) non risiede tanto nella possibilità che possano commettere errori, quanto nella natura degli errori che producono. Le cosiddette allucinazioni non si manifestano come risposte grossolanamente errate, ma come affermazioni plausibili, convincenti e spesso ben argomentate, che tuttavia non sono veritiere. Si tratta di errori di merito, legati a fatti rari, arbitrari o privi di uno schema ricorrente: informazioni che compaiono poche volte nei dati di addestramento e che, proprio per questo motivo, sono difficili da prevedere. In assenza di sufficienti regolarità statistiche nei dati, il modello tende a colmare il vuoto informativo ricorrendo a generalizzazioni probabilistiche, con conseguente aumento del rischio di generare errori.
I LLM apprendono, infatti, durante la fase di pre-addestramento attraverso la previsione del token successivo in una sequenza di testo, mediante un apprendimento probabilistico che approssima la distribuzione statistica del linguaggio e assegna a ciascuna possibile continuazione una probabilità relativa.
In questa logica il modello non viene addestrato a riconoscere ciò che è vero in relazione alla realtà dei fatti ma ciò che è statisticamente più probabile. Di conseguenza, il modello non ha alcuna possibilità matematica di evitare la falsità durante la generazione libera del testo. Non perché “menta” intenzionalmente, ma perché, non disponendo di un meccanismo interno che gli consenta di prevenire l’errore sospendendo la risposta, non è in grado di sapere di non sapere.
Le allucinazioni risultano in ogni caso difficilmente eliminabili, anche in presenza di dati di addestramento teoricamente perfetti. Evidenze empiriche mostrano infatti che il tasso di allucinazione è circa il doppio rispetto al tasso di errore osservato in compiti semplici a risposta binaria. Tale fenomeno non è riconducibile esclusivamente ad un limite di natura epistemica – legato a ciò che un modello può effettivamente conoscere o apprendere – ma anche ad un vincolo strutturale intrinseco ai modelli linguistici di grandi dimensioni. Quest’ultimi elaborano il testo come sequenze di token, ovvero frammenti statistici di linguaggio, e non dispongono di strumenti concettuali necessari per svolgere determinati tipi di ragionamento simbolico. Di conseguenza, anche operazioni apparentemente elementari come il conteggio delle occorrenze di una determinata lettera all’interno di una parola, possono risultare problematiche.
Dalla plausibilità statistica al consolidamento dell’errore
Le allucinazioni, originate da limiti sia strutturali sia epistemici propri della fase di pre-addestramento, non scompaiono nelle fasi successive in cui intervengono giudizi umani di preferenza. Al contrario, continuano a persistere e, in alcuni casi, a rafforzarsi anche durante il Reinforcement Learning from Human Feedback (RLHF) e il fine tuning, ovvero l’ulteriore addestramento su dati mirati, cruciale per allineare i modelli alle preferenze umane.
Il motivo è sistemico e legato ai meccanismi di valutazione delle prestazioni che tendono a premiare l’audacia a discapito dell’onestà, incentivando l’elaborazione di una risposta anche in assenza di basi sufficienti.
Il punto critico non risiede dunque solo nell’addestramento, ma nei criteri attraverso cui le prestazioni dei modelli vengono valutate; sistemi di scoring che premiamo la generazione di una risposta, a prescindere dal suo grado di affidabilità, finiscono per incentivare il bluff, scoraggiando al contempo l’ammissione dell’incertezza.
Nella maggior parte dei benchmark, infatti, la valutazione avviene tramite un punteggio binario 0-1 che assegna 1 ad una risposta corretta, 0 ad una errata e 0 anche ad una mancata risposta. Secondo questa logica, una risposta azzardata ma fortunata ottiene lo stesso punteggio di una risposta fondata, mentre l’astensione viene penalizzata.
Ne consegue un incentivo a fornire una risposta, anche approssimativa e senza basi solide, piuttosto che ammettere l’incertezza, incoraggiando così supposizioni infondate.
In questo modo l’errore non viene corretto, ma premiato e progressivamente istituzionalizzato, diventando conseguenza diretta degli incentivi su cui questi sistemi sono costruiti; è fisiologico nella fase di pre-addestramento, che per sua natura crea modelli inclini ad inventare e orientati alla plausibilità statistica, ma viene poi consolidato da metriche di valutazione basate sull’accuratezza, misurata come percentuale di risposte fornite, anche se infondate.
L’importanza dell’errore: i rischi di un modello iper-cauto
In statistica, un modello è ben calibrato se le probabilità che assegna agli eventi corrispondono a ciò che accade realmente. Per essere correttamente calibrato un modello deve dunque riflettere fedelmente l’incertezza dei dati da cui apprende, accettando il rischio statistico di sbagliare: la probabilità assegnata ad una parola o ad un fatto deve rispecchiare la sua effettiva frequenza e certezza nel set di dati di addestramento.
Un modello che non rischia mai di sbagliare ammettendo l’ignoranza eviterebbe sicuramente l’errore ma si allontanerebbe dalla distribuzione statistica del linguaggio reale, che è intrinsecamente ambigua, approssimativa e incompleta. In questo senso, le allucinazioni non sono un’anomalia da eliminare completamente, ma il prezzo inevitabile dell’onestà statistica.
Intervenire sui criteri di valutazione introducendo obiettivi di confidenza espliciti – ad esempio secondo uno schema che assegna 1 ad una risposta corretta, 0 ad una mancata risposta e -9 ad una risposta sbagliata – potrebbe, da una parte, disincentivare le supposizioni infondate, scoraggiando il tentativo sistematico di tentare la sorte, dall’altra, renderebbe il modello scarsamente calibrato, eccessivamente prudente, e, di fatto, inutilizzabile in quanto incapace di svolgere il suo compito: modellare la distribuzione del linguaggio così come viene effettivamente utilizzato.
Un cambio di paradigma: criteri di valutazione tailor-made
Per ridurre le allucinazioni non basta intervenire sui criteri di valutazione cambiando le regole del gioco: è necessario un cambio di paradigma, che abbandoni l’idea di stabilire regole universali e rigide a favore di criteri contestuali modulati sullo specifico ambito di applicazione, così da evitare il rischio di modelli iper-cauti e scarsamente calibrati.
Serve un approccio flessibile, basato su benchmark differenziati per contesto: ad esempio uno per applicazioni mediche, dove l’errore ha costi elevatissimi, e un altro per ambiti creativi, dove l’errore può essere tollerabile o in alcuni casi desiderabile.
L’obiettivo non è eliminare il rischio, ma governarlo, calibrandolo in funzione delle conseguenze, e accettandone il livello appropriato al contesto in cui si sta operando.
L’adattamento del comportamento del modello in base al contesto – rendendolo più cauto o più audace – non influenzerebbe soltanto le risposte prodotte, ma trasformerebbe radicalmente il nostro rapporto con questi strumenti: la differenza tra governarli ed esserne governati risiede nella consapevolezza, anche quantificabile, dell’esistenza di una parte inevitabile di ingovernabilità.
Oltre il mito dell’oracolo: dalle allucinazioni ai modelli responsabili
Le allucinazioni non sono un mero difetto da demonizzare, ma una caratteristica intrinseca dei LLM: la loro persistenza non segnala un fallimento tecnologico, bensì un fallimento di incentivi.
Il problema, infatti, non risiede tanto nell’esistenza delle allucinazioni in fase di pre-addestramento dei modelli, quanto nel fatto che esse vengano consolidate nelle fasi successive di post-addestramento e ottimizzazione del modello, dove i meccanismi di incentivo finiscono per stabilizzarle e progressivamente istituzionalizzarle.
Adottando benchmark differenziati, che premino o puniscano la gestione del dubbio a seconda delle diverse esigenze e della gravità delle conseguenze, potremmo costruire assistenti digitali basati sull’intelligenza artificiale (AI) che abbiano l’integrità tecnologica di comportarsi in modo onesto e responsabile, dichiarando i propri limiti senza mascherare l’incertezza né produrre risposte fuorvianti.
Pur riconoscendo i LLM come una risorsa potente e imprescindibile, in grado di elaborare e sintetizzare quantità di informazioni complesse, ben oltre le capacità umane, è necessario superare l’idea che siano oracoli capaci di fornirci sempre le informazioni che cerchiamo: la loro natura intrinsecamente probabilistica implica che ogni risposta sia frutto di un trade-off tra quantità di informazione e margine di errore in cui all’aumentare delle informazioni fornite cresce anche l’esposizione a possibili errori, e viceversa.
L’obiettivo non dovrebbe essere solo quello di ottenere una risposta da questi strumenti, bensì di comprendere il costo al quale la stiamo ottenendo in termini di affidabilità e rischio. Questo implica interrogarsi sul grado di affidabilità su cui quella risposta si basa e sul livello di rischio che siamo disposti ad accettare pur di riceverla.
Ogni interazione con un LLM comporta infatti una delega implicita rispetto al livello di incertezza che siamo disposti a tollerare; rendere questa delega esplicita è il primo passo per un uso consapevole degli strumenti di AI.
Governare l’intelligenza artificiale non significa eliminarne l’incertezza, bensì renderla riconoscibile, misurabile e gestibile. È proprio da questa consapevolezza che dipende la distinzione tra un uso maturo degli strumenti e una loro adozione passiva.
La strada verso sistemi realmente affidabili non passa solo dall’aumento dei dataset o dalla potenza di calcolo, ma dal raggiungimento di una maturità pragmatica che consenta ai modelli di identificare, esplicitare e quantificare i propri limiti. D’altronde ammettere di non sapere rappresenta l’espressione più matura dell’intelligenza: quel tratto tipicamente umano che separa la riproduzione di pattern dalla competenza reale.