Teste di Attenzione nei Transformer: Dinamiche Posizionali vs Simboliche
Uno studio sui Transformer decoder-only (GPT-J) rivela che il ragionamento multi-hop di successo richiede l'emergere di teste di attenzione pure, sia posizionali che simboliche. Due compiti strutturalmente equivalenti (ragionamento numerico e letterale) impongono diverse esigenze meccanicistiche nonostante la loro equivalenza.
Fatti principali
- Lo studio utilizza il modello GPT-J
- Due compiti: numerico (posizionale) e letterale (simbolico)
- Le teste pure emergono durante l'apprendimento di successo
- I compiti sono strutturalmente equivalenti ma richiedono diversi tipi di testa
- Il compito numerico necessita sia di teste posizionali che simboliche
- Il compito letterale richiede solo teste simboliche
- La ricerca mira a comprendere il deployment sicuro dei LLM
- Pubblicato su arXiv (2605.31558)
Entità
Istituzioni
- arXiv