TTT con KV Binding rivelato come attenzione lineare
Uno studio recente sul test-time training (TTT) con KV binding mette in discussione la sua interpretazione come processo di meta-apprendimento online che conserva associazioni chiave-valore. I ricercatori hanno identificato diversi fenomeni che contraddicono questa interpretazione basata sulla memorizzazione. Dimostrano che un'ampia gamma di architetture TTT può essere rappresentata come operatori di attenzione lineare appresi. Questo punto di vista consente semplificazioni architetturali logiche, formulazioni completamente parallele che preservano le prestazioni migliorando l'efficienza e una riduzione sistematica di vari tipi di TTT all'attenzione lineare convenzionale. Questi risultati ridefiniscono il TTT come attenzione lineare appresa con capacità rappresentazionale migliorata, piuttosto che semplice memorizzazione al momento del test.
Fatti principali
- 1. Il TTT con KV binding è comunemente interpretato come meta-apprendimento online che memorizza mappature chiave-valore al momento del test.
- 2. L'analisi rivela molteplici fenomeni che contraddicono l'interpretazione basata sulla memorizzazione.
- 3. Un'ampia classe di architetture TTT può essere espressa come operatori di attenzione lineare appresi.
- 4. Questa prospettiva consente semplificazioni architetturali basate su principi.
- 5. Ammette formulazioni completamente parallele che preservano le prestazioni migliorando l'efficienza.
- 6. Fornisce una riduzione sistematica di diverse varianti TTT all'attenzione lineare standard.
- 7. I risultati ridefiniscono il TTT come attenzione lineare appresa con capacità rappresentazionale potenziata.
- 8. L'articolo è pubblicato su arXiv con ID 2602.21204.
Entità
Istituzioni
- arXiv