Limiti di Profondità dei Transformer nel Tracciamento dello Stato

other · 2026-04-30

Uno studio recente pubblicato su arXiv suggerisce che, sebbene le architetture transformer eccellano nella modellazione sequenziale, affrontano una sfida fondamentale nel tracciamento dinamico dello stato a causa della loro natura esclusivamente feedforward. Un efficace tracciamento dello stato richiede l'aggiornamento iterativo di variabili latenti, che le reti feedforward gestiscono approfondendo le rappresentazioni ad ogni passo di input. Questo processo rende inaccessibili le informazioni negli strati superficiali e alla fine esaurisce la profondità del modello. Sebbene i modelli a profondità dinamica e le rappresentazioni di stato esterne possano superare questa limitazione, sono spesso inefficienti in termini di calcolo e memoria. Gli autori sostengono un cambiamento di focus dai processi di pensiero espliciti alle dinamiche di attivazione implicite attraverso l'uso di architetture ricorrenti.

Fatti principali

1. I Transformer codificano la struttura espandendo la storia contestuale.
2. L'architettura feedforward limita il tracciamento dinamico dello stato.
3. Il tracciamento dello stato coinvolge dipendenze sequenziali con cui le reti feedforward faticano.
4. I modelli feedforward spingono le rappresentazioni dello stato più in profondità negli strati, esaurendo la profondità.
5. I modelli a profondità dinamica e le rappresentazioni di stato esternalizzate possono bypassare i limiti di profondità.
6. Queste soluzioni sono computazionalmente e in termini di memoria inefficienti.
7. L'articolo sostiene un reindirizzamento verso le dinamiche di attivazione implicite tramite ricorrenza.
8. Pubblicato su arXiv con ID 2604.17121.

Limiti di Profondità dei Transformer nel Tracciamento dello Stato

Fatti principali

Entità

Istituzioni

Fonti