Tensor Memory: Stato Ricorrente a Dimensione Fissa per Trasformatori a Lungo Orizzonte
Un recente studio pubblicato su arXiv introduce Tensor Memory, un componente progettato per potenziare i blocchi Transformer incorporando un tensore di memoria 3D a dimensione fissa che opera in modo ricorrente. Questa innovazione affronta la sfida dell'espansione della memoria nei Transformer tradizionali, particolarmente rilevante per compiti come la comprensione video a lungo orizzonte e il ragionamento sensibile alle occlusioni. Il modulo impiega un meccanismo di scrittura soft differenziabile per inserire dati in una griglia voxel, utilizza operatori di interazione locale efficienti e implementa dinamiche ricorrenti gated. Tensor Memory separa efficacemente la capacità dello stato dalla lunghezza dell'input mantenendo un bias spaziale induttivo.
Fatti principali
- 1. Tensor Memory è un modulo leggero per Transformer.
- 2. Utilizza un tensore di memoria 3D ricorrente a dimensione fissa.
- 3. I token scrivono in una griglia voxel tramite scrittura soft differenziabile.
- 4. La memoria viene aggiornata con interazione locale e dinamiche ricorrenti gated.
- 5. I token leggono il contesto tramite campionamento continuo con fusione residua gated.
- 6. Tensor Memory disaccoppia la capacità dello stato dalla lunghezza dell'input.
- 7. Preserva un bias spaziale induttivo.
- 8. L'articolo è su arXiv con ID 2605.27686.
Entità
Istituzioni
- arXiv