StateX migliora la memoria delle RNN espandendo lo stato ricorrente post-addestramento

ai-technology · 2026-04-27

Un nuovo metodo chiamato StateX migliora la capacità di richiamo delle reti neurali ricorrenti (RNN) espandendo la dimensione del loro stato ricorrente dopo l'addestramento. Le RNN, inclusi i modelli di attenzione lineare e state-space, sono popolari per l'elaborazione di contesti lunghi grazie alla complessità costante per token, ma faticano in compiti che richiedono un richiamo accurato perché tutto il contesto è compresso in uno stato di dimensione fissa. Lavori precedenti mostrano che il richiamo è correlato alla dimensione dello stato, ma addestrare RNN con stati grandi è costoso. StateX è un framework post-addestramento che modifica le architetture per aumentare la dimensione dello stato con un incremento trascurabile dei parametri. Esperimenti su modelli con fino a 7 miliardi di parametri dimostrano un miglioramento del richiamo in compiti a lungo contesto. L'articolo è disponibile su arXiv con identificatore 2509.22630.

Fatti principali

StateX è un framework post-addestramento per espandere gli stati delle RNN.
Si rivolge a modelli di attenzione lineare e state-space.
L'espansione dello stato migliora la capacità di richiamo senza un aumento significativo dei parametri.
Gli esperimenti sono stati condotti su modelli con fino a 7 miliardi di parametri.
L'articolo è disponibile su arXiv: 2509.22630.

StateX migliora la memoria delle RNN espandendo lo stato ricorrente post-addestramento

Fatti principali

Entità

Istituzioni

Fonti