La geometria degli attrattori spiega i fallimenti di memoria dei transformer
Un nuovo studio da arXiv (2605.05686) rivela che i modelli linguistici presentano due modalità di fallimento distinte—conflitto e allucinazione—entrambe radicate nella geometria degli attrattori dello spazio degli stati nascosti. Il conflitto sorge quando la memoria parametrica (PM) e la memoria di lavoro (WM) sono in disaccordo, interrompendo la convergenza verso il bacino attrattore corretto senza aumentare l'entropia dell'output. L'allucinazione si verifica quando non esiste un bacino memorizzato, causando la deriva libera dello stato nascosto. La testa LM congelata, progettata per la previsione del token successivo, produce output fiduciosi in entrambi i casi, rendendo inefficace il monitoraggio basato sull'output. I risultati sono stati verificati utilizzando un compito sintetico controllato con identificatori di entità.
Fatti principali
- I modelli linguistici utilizzano memoria parametrica (PM) e memoria di lavoro (WM).
- Il conflitto si verifica quando PM e WM sono in disaccordo e interferiscono.
- L'allucinazione si verifica quando il fatto richiesto non è mai stato appreso.
- Entrambi i fallimenti producono output fiduciosi, bypassando il monitoraggio basato sull'output.
- I fallimenti condividono una spiegazione geometrica unificata nello spazio degli stati nascosti.
- I fatti appresi formano bacini attrattori; il conflitto è competizione tra bacini.
- L'allucinazione è assenza di bacino; lo stato nascosto deriva liberamente.
- La testa LM congelata non può distinguere tra le due modalità di fallimento.
Entità
Istituzioni
- arXiv