Deriva Temporale nei LLM Trovata Geometricamente Ortogonale alla Correttezza

ai-technology · 2026-05-12

Un nuovo studio su arXiv (2605.09195) indica che le risposte obsolete dei grandi modelli linguistici sono dovute a problemi strutturali piuttosto che a errori di ingegneria. I ricercatori hanno scoperto che la deriva temporale, che mostra cambiamenti nei fatti da quando il modello è stato addestrato, esiste come una direzione nel flusso residuo che è geometricamente separata sia dalla correttezza che dall'incertezza. Ciò significa che concentrarsi solo sulla correttezza o sull'incertezza trascura l'aspetto della deriva. Hanno confermato questo su sei modelli addestrati con istruzioni. Una sonda lineare addestrata su etichette di deriva ha raggiunto un AUROC di 0.83–0.95, mentre altri metodi, come l'entropia dei token e semantica, erano intorno ai livelli casuali (0.49–0.57). Cinque test hanno supportato la separazione geometrica.

Fatti principali

La deriva temporale è codificata come una direzione ortogonale alla correttezza e all'incertezza nei flussi residui dei LLM.
Una sonda lineare addestrata su etichette di deriva raggiunge un AUROC di 0.83–0.95.
I metodi esistenti come entropia dei token, entropia semantica, CCS e SAPLMA ottengono risultati vicini al caso (0.49–0.57).
Cinque test confermano l'ortogonalità geometrica: coseni dei pesi ≤0.14, correlazioni dei punteggi ≤0.20, proiezioni nello spazio nullo ≤0.008.
Il risultato vale per sei modelli addestrati con istruzioni.
Nessun metodo esistente può rilevare risposte obsolete dai LLM.
L'articolo è pubblicato su arXiv con ID 2605.09195.
La deriva temporale è definita come se un fatto memorizzato sia cambiato dall'addestramento.

Deriva Temporale nei LLM Trovata Geometricamente Ortogonale alla Correttezza

Fatti principali

Entità

Istituzioni

Fonti