Meccanismo di Attenzione Scomposto in Componenti di Routing e Filtraggio
Uno studio recente pubblicato su arXiv (2605.18826) scompone la matrice di interazione dell'attenzione QK^T in due funzioni separate: una parte skew-simmetrica che gestisce il routing delle informazioni tra le posizioni e una parte simmetrica che filtra per rilevanza reciproca. Esaminando 1776 teste da cinque transformer pre-addestrati, i ricercatori hanno scoperto che le funzioni di routing operano a basso rango, al di sotto dei limiti stabiliti dai kernel di peso. Propongono l'attenzione S-D, un framework diagnostico che separa il routing dal filtraggio garantendo stabilità e addestramento senza normalizzazione di layer. Quando separato e non normalizzato, il routing forma una cascata spettrale, partendo con un rango effettivo di 2 al primo layer e crescendo in profondità attraverso sei scale di modello da 7M a 355M parametri. La cascata indica dove l'attenzione può essere semplificata, poiché linearizzare i primi sette layer di un modello di attenzione S-D da 125M parametri comporta una perdita di prestazioni inferiore al 5%.
Fatti principali
- Il paper arXiv 2605.18826 scompone l'attenzione in componenti di routing (skew-simmetrica) e filtraggio (simmetrica).
- Sono state analizzate 1776 teste di attenzione in cinque transformer pre-addestrati.
- Il routing opera a basso rango, al di sotto della capacità allocata dai kernel di peso.
- L'attenzione S-D separa il routing dal filtraggio con stabilità garantita.
- L'attenzione S-D si addestra stabilmente senza normalizzazione di layer.
- Il routing si auto-organizza in una cascata spettrale quando separato e non normalizzato.
- Il rango effettivo è 2 al primo layer e si espande con la profondità.
- Cascata osservata in sei scale di modello da 7M a 355M parametri.
- Linearizzare i primi sette layer di un'attenzione S-D da 125M costa meno del 5% di perdita di prestazioni.
Entità
Istituzioni
- arXiv