La decomposizione dell'attenzione simmetrica bilancia fedeltà e diversità nei modelli di diffusione
I ricercatori caratterizzano la matrice di attenzione pre-softmax nei transformer come una matrice di memoria associativa. Scomponendola in parti simmetrica e antisimmetrica, interpretano la componente simmetrica come governante la struttura del paesaggio energetico e la componente antisimmetrica come guida della circolazione. Derivano misure di stabilità in stile Hopfield dalla componente simmetrica, trovando correlazioni con i compromessi fedeltà-diversità nella generazione. Viene proposto un controllo regolabile per modulare questo compromesso alterando le dinamiche di circolazione. Il codice è disponibile su GitHub.
Fatti principali
- La matrice di attenzione pre-softmax QK^T è caratterizzata come una matrice di memoria associativa che codifica associazioni a coppie.
- La matrice viene scomposta in parti simmetrica e antisimmetrica.
- La componente simmetrica governa la struttura del paesaggio energetico; quella antisimmetrica guida la circolazione.
- Misure di stabilità in stile Hopfield sono derivate dalla componente simmetrica.
- Le misure di stabilità sono correlate ai compromessi fedeltà-diversità nella generazione.
- Un controllo regolabile modula il compromesso modificando le dinamiche di circolazione.
- Il codice è disponibile su GitHub.
Entità
Istituzioni
- arXiv
- GitHub