Teste di Attenzione nei Transformer: Dinamiche Posizionali vs Simboliche

other · 2026-06-01

Uno studio sui Transformer decoder-only (GPT-J) rivela che il ragionamento multi-hop di successo richiede l'emergere di teste di attenzione pure, sia posizionali che simboliche. Due compiti strutturalmente equivalenti (ragionamento numerico e letterale) impongono diverse esigenze meccanicistiche nonostante la loro equivalenza.

Fatti principali

Lo studio utilizza il modello GPT-J
Due compiti: numerico (posizionale) e letterale (simbolico)
Le teste pure emergono durante l'apprendimento di successo
I compiti sono strutturalmente equivalenti ma richiedono diversi tipi di testa
Il compito numerico necessita sia di teste posizionali che simboliche
Il compito letterale richiede solo teste simboliche
La ricerca mira a comprendere il deployment sicuro dei LLM
Pubblicato su arXiv (2605.31558)

Teste di Attenzione nei Transformer: Dinamiche Posizionali vs Simboliche

Fatti principali

Entità

Istituzioni

Fonti