I Pozzi di Attenzione Inducono Pozzi di Gradiente nei Transformer
Un nuovo studio su arXiv (2603.17771) indaga la relazione tra i pozzi di attenzione e le attivazioni massive nei modelli Transformer, concentrandosi sulla retropropagazione. Gli autori mostrano che, sotto mascheramento causale, i pozzi di attenzione causano una concentrazione del gradiente, definita pozzi di gradiente. Sostengono che le attivazioni massive agiscono come regolatori adattivi della pressione del gradiente durante l'addestramento, poiché lo Jacobiano di RMSNorm attenua i gradienti inversamente alla norma dell'input. Lo studio prevede che ridurre i gradienti indotti dai pozzi indebolisca le attivazioni massive e propone V-scale, una modifica che regola i gradienti retropropagati per testare questa ipotesi. Il lavoro fornisce una spiegazione teorica ed empirica per questi fenomeni, precedentemente compresi principalmente dal punto di vista del forward pass.
Fatti principali
- 1. I pozzi di attenzione e le attivazioni massive sono fenomeni ricorrenti nei Transformer.
- 2. Le spiegazioni esistenti si concentravano sul forward pass.
- 3. Lo studio esamina la relazione dalla prospettiva della retropropagazione.
- 4. Sotto mascheramento causale, i pozzi di attenzione inducono pozzi di gradiente.
- 5. Lo Jacobiano di RMSNorm attenua i gradienti inversamente alla norma dell'input.
- 6. Le attivazioni massive sono regolatori adattivi della pressione del gradiente.
- 7. V-scale modifica i gradienti retropropagati per testare le previsioni.
- 8. L'articolo è su arXiv con ID 2603.17771.
Entità
Istituzioni
- arXiv