StateX migliora la memoria delle RNN espandendo lo stato ricorrente post-addestramento
Un nuovo metodo chiamato StateX migliora la capacità di richiamo delle reti neurali ricorrenti (RNN) espandendo la dimensione del loro stato ricorrente dopo l'addestramento. Le RNN, inclusi i modelli di attenzione lineare e state-space, sono popolari per l'elaborazione di contesti lunghi grazie alla complessità costante per token, ma faticano in compiti che richiedono un richiamo accurato perché tutto il contesto è compresso in uno stato di dimensione fissa. Lavori precedenti mostrano che il richiamo è correlato alla dimensione dello stato, ma addestrare RNN con stati grandi è costoso. StateX è un framework post-addestramento che modifica le architetture per aumentare la dimensione dello stato con un incremento trascurabile dei parametri. Esperimenti su modelli con fino a 7 miliardi di parametri dimostrano un miglioramento del richiamo in compiti a lungo contesto. L'articolo è disponibile su arXiv con identificatore 2509.22630.
Fatti principali
- StateX è un framework post-addestramento per espandere gli stati delle RNN.
- Si rivolge a modelli di attenzione lineare e state-space.
- L'espansione dello stato migliora la capacità di richiamo senza un aumento significativo dei parametri.
- Gli esperimenti sono stati condotti su modelli con fino a 7 miliardi di parametri.
- L'articolo è disponibile su arXiv: 2509.22630.
Entità
Istituzioni
- arXiv