I Metodi di Quantificazione dell'Incertezza degli LLM Sono Solo Clustering Non Supervisionato
Un recente studio pubblicato su arXiv (2605.19220) sostiene che gli approcci convenzionali di quantificazione dell'incertezza (UQ) per i modelli linguistici di grandi dimensioni (LLM) sono intrinsecamente difettosi. I ricercatori affermano che queste tecniche funzionano come algoritmi di clustering non supervisionato, valutando la coerenza interna degli output del modello invece della loro accuratezza esterna. Questa classificazione errata porta a una mancanza di consapevolezza riguardo alle 'allucinazioni sicure', in cui i modelli generano risposte stabili ma errate con alta certezza. L'articolo evidenzia tre problemi significativi: una crisi di sensibilità agli iperparametri che compromette il deployment sicuro, un processo di valutazione interna che trascura gli errori e un senso di sicurezza fuorviante quando si utilizzano modelli con incertezza. I risultati indicano che i metodi UQ esistenti possono favorire una percezione ingannevole di sicurezza in applicazioni critiche.
Fatti principali
- L'articolo sostiene che l'UQ per gli LLM è clustering non supervisionato
- I metodi misurano la coerenza interna, non la correttezza esterna
- L'UQ non riesce a rilevare le 'allucinazioni sicure'
- Identificate tre patologie critiche: crisi di sensibilità agli iperparametri, ciclo di valutazione interna, sicurezza ingannevole
- Articolo pubblicato su arXiv con ID 2605.19220
- La ricerca sostiene che i metodi UQ attuali sono fondamentalmente ciechi alla realtà fattuale
- Il deployment ad alto rischio degli LLM potrebbe essere insicuro a causa di un UQ difettoso
- Gli autori dimostrano che la maggior parte degli approcci attuali quantifica la coerenza interna
Entità
Istituzioni
- arXiv