WriteSAE: Autoencoder Sparsi per la Modifica Ricorrente degli Stati
I ricercatori hanno presentato WriteSAE, il primo autoencoder sparso progettato per scomporre e modificare la scrittura della cache di matrice nei modelli linguistici ricorrenti ibridi e a spazio di stato, tra cui Gated DeltaNet, Mamba-2 e RWKV-7. A differenza dei SAE tradizionali che utilizzano flussi residui, WriteSAE scompone ogni atomo del decodificatore nel suo formato di scrittura originale, consentendo previsioni in forma chiusa degli spostamenti dei logit per token e l'addestramento tramite norma di Frobenius appaiata per scambi sequenziali di slot della cache. La sostituzione degli atomi supera l'ablazione a norma appaiata nel 92,4% di 4.851 attivazioni su Qwen3.5-0.8B L9 H4, raggiungendo l'89,8% di successo nel test sulla popolazione di 87 atomi. La forma chiusa prevede gli effetti osservati con R²=0,98, mentre Mamba-2-370M mostra l'88,1% di sostituzione su 2.500 attivazioni. Installazioni sostenute su tre posizioni aumentano di tre volte il target-in-continuation di rango medio dal 33,3% al 100% durante il decoding greedy.
Fatti principali
- WriteSAE è il primo autoencoder sparso per la decomposizione della scrittura della cache di matrice nei LLM ricorrenti.
- Target: Gated DeltaNet, Mamba-2 e RWKV-7.
- Utilizza aggiornamenti di rango 1 k_t v_t^T per le operazioni di scrittura.
- La sostituzione degli atomi supera l'ablazione a norma appaiata nel 92,4% di 4.851 attivazioni su Qwen3.5-0.8B L9 H4.
- Il test sulla popolazione di 87 atomi si attesta all'89,8%.
- La forma chiusa prevede gli effetti con R²=0,98.
- Mamba-2-370M sostituisce all'88,1% su 2.500 attivazioni.
- Installazioni sostenute su tre posizioni aumentano il target-in-continuation dal 33,3% al 100%.
Entità
—