Meccanismo di Attenzione Scomposto in Componenti di Routing e Filtraggio

ai-technology · 2026-05-20

Uno studio recente pubblicato su arXiv (2605.18826) scompone la matrice di interazione dell'attenzione QK^T in due funzioni separate: una parte skew-simmetrica che gestisce il routing delle informazioni tra le posizioni e una parte simmetrica che filtra per rilevanza reciproca. Esaminando 1776 teste da cinque transformer pre-addestrati, i ricercatori hanno scoperto che le funzioni di routing operano a basso rango, al di sotto dei limiti stabiliti dai kernel di peso. Propongono l'attenzione S-D, un framework diagnostico che separa il routing dal filtraggio garantendo stabilità e addestramento senza normalizzazione di layer. Quando separato e non normalizzato, il routing forma una cascata spettrale, partendo con un rango effettivo di 2 al primo layer e crescendo in profondità attraverso sei scale di modello da 7M a 355M parametri. La cascata indica dove l'attenzione può essere semplificata, poiché linearizzare i primi sette layer di un modello di attenzione S-D da 125M parametri comporta una perdita di prestazioni inferiore al 5%.

Fatti principali

Il paper arXiv 2605.18826 scompone l'attenzione in componenti di routing (skew-simmetrica) e filtraggio (simmetrica).
Sono state analizzate 1776 teste di attenzione in cinque transformer pre-addestrati.
Il routing opera a basso rango, al di sotto della capacità allocata dai kernel di peso.
L'attenzione S-D separa il routing dal filtraggio con stabilità garantita.
L'attenzione S-D si addestra stabilmente senza normalizzazione di layer.
Il routing si auto-organizza in una cascata spettrale quando separato e non normalizzato.
Il rango effettivo è 2 al primo layer e si espande con la profondità.
Cascata osservata in sei scale di modello da 7M a 355M parametri.
Linearizzare i primi sette layer di un'attenzione S-D da 125M costa meno del 5% di perdita di prestazioni.

Meccanismo di Attenzione Scomposto in Componenti di Routing e Filtraggio

Fatti principali

Entità

Istituzioni

Fonti