ARTFEED — Contemporary Art Intelligence

I Transformer Necessitano di Biglietti della Lotteria Bayesiani per il Grokking

ai-technology · 2026-05-18

Un recente studio pubblicato su arXiv (2605.15787) suggerisce che il grokking—il fenomeno della generalizzazione ritardata nei Transformer—deriva da una sfida di inferenza strutturale. I ricercatori definiscono l'attenzione come un posteriore bayesiano implicito riguardante i grafi di dipendenza dei compiti, dimostrando che la generalizzazione dipende da due criteri chiave: un limite di Goldilocks sulla capacità del MLP, coerente con le teorie basate sulla norma, e un nuovo requisito strutturale bayesiano in cui l'attenzione deve concentrarsi adeguatamente su ogni token informativo. Questa separazione chiarisce la generalizzazione ritardata come una forma di inferenza strutturale ritardata. Inizialmente, il MLP si basa su caratteristiche non allineate per la memorizzazione, mentre l'attenzione distribuisce male la massa di probabilità. Lo studio sottolinea un vincolo unico per i modelli basati sull'attenzione: se l'attenzione trascura un token informativo, non può essere recuperato attraverso alcuna computazione a valle limitata.

Fatti principali

  • ID del documento: arXiv:2605.15787
  • Tipo di annuncio: cross
  • Il grokking è definito come generalizzazione ritardata nei Transformer dopo la memorizzazione
  • Le spiegazioni esistenti includono minimizzazione della norma, emergenza di caratteristiche e sottoreti sparse
  • Nuovo vincolo: l'attenzione che scarta token informativi non può essere recuperata a valle
  • L'attenzione è formalizzata come un posteriore bayesiano implicito sui grafi di dipendenza dei compiti
  • Due condizioni per la generalizzazione: limite di Goldilocks sulla capacità del MLP e condizione strutturale bayesiana
  • La generalizzazione ritardata è attribuita all'inferenza strutturale ritardata

Entità

Istituzioni

  • arXiv

Fonti