I Transformer Necessitano di Biglietti della Lotteria Bayesiani per il Grokking

ai-technology · 2026-05-18

Un recente studio pubblicato su arXiv (2605.15787) suggerisce che il grokking—il fenomeno della generalizzazione ritardata nei Transformer—deriva da una sfida di inferenza strutturale. I ricercatori definiscono l'attenzione come un posteriore bayesiano implicito riguardante i grafi di dipendenza dei compiti, dimostrando che la generalizzazione dipende da due criteri chiave: un limite di Goldilocks sulla capacità del MLP, coerente con le teorie basate sulla norma, e un nuovo requisito strutturale bayesiano in cui l'attenzione deve concentrarsi adeguatamente su ogni token informativo. Questa separazione chiarisce la generalizzazione ritardata come una forma di inferenza strutturale ritardata. Inizialmente, il MLP si basa su caratteristiche non allineate per la memorizzazione, mentre l'attenzione distribuisce male la massa di probabilità. Lo studio sottolinea un vincolo unico per i modelli basati sull'attenzione: se l'attenzione trascura un token informativo, non può essere recuperato attraverso alcuna computazione a valle limitata.

Fatti principali

ID del documento: arXiv:2605.15787
Tipo di annuncio: cross
Il grokking è definito come generalizzazione ritardata nei Transformer dopo la memorizzazione
Le spiegazioni esistenti includono minimizzazione della norma, emergenza di caratteristiche e sottoreti sparse
Nuovo vincolo: l'attenzione che scarta token informativi non può essere recuperata a valle
L'attenzione è formalizzata come un posteriore bayesiano implicito sui grafi di dipendenza dei compiti
Due condizioni per la generalizzazione: limite di Goldilocks sulla capacità del MLP e condizione strutturale bayesiana
La generalizzazione ritardata è attribuita all'inferenza strutturale ritardata

I Transformer Necessitano di Biglietti della Lotteria Bayesiani per il Grokking

Fatti principali

Entità

Istituzioni

Fonti