Dispersione dell'attenzione diagnosticata nei Transformers per grafi dinamici
Uno studio identifica la dispersione dell'attenzione come modalità di fallimento nei Transformers per grafi dinamici in presenza di spostamento temporale della distribuzione. I ricercatori mostrano che la previsione dipende da nodi critici con segnale predittivo coerente, ma i modelli esistenti non riescono a focalizzarsi su di essi. Viene proposta una correzione trasferibile che utilizza l'attenzione differenziale.
Fatti principali
- 1. Le architetture Transformer dominano l'apprendimento di grafi dinamici a tempo continuo
- 2. La dispersione dell'attenzione è una modalità di fallimento condivisa sotto spostamento temporale
- 3. I nodi critici portano più segnale predittivo rispetto a vicini arbitrari
- 4. L'attenzione standard produce distribuzioni eccessivamente disperse
- 5. L'attenzione differenziale sopprime il rumore di modo comune
- 6. La correzione è trasferibile tra modelli
Entità
Istituzioni
- arXiv