Decadimento del Peso come Parametro di Controllo nei Transformer Grokking
Un recente studio pubblicato su arXiv (2605.20441) indica che il decadimento del peso funge da parametro di controllo empirico scalare che influenza i passaggi tra memorizzazione, generalizzazione e collasso nei transformer focalizzati sull'aritmetica modulare. Gli autori propongono due diagnostiche online economiche—la similarità coseno media a coppie tra teste di attenzione e la deviazione standard dell'entropia—per monitorare le dinamiche di addestramento basandosi esclusivamente sulle attivazioni dell'attenzione, riducendo così il costo computazionale rispetto alle diagnostiche del paesaggio della perdita. Analizzando undici configurazioni sperimentali e tre dimensioni di modello (da 0,82M a 85M parametri), l'asse del decadimento del peso distingue efficacemente tra memorizzazione, grokking evolutivo e collasso. Un adattamento logistico vicino alla transizione identifica il confine memorizzazione-evolutivo a λ_c=0,0158 (IC 95% [0,0109, 0,0200], N=210), mentre un adattamento di legge di potenza fornisce un esponente empirico ν=0,757 (IC [0,725, 0,799]), con esponenti di riferimento ν=1/2 e Ising 3D ν≈0,63 che cadono al di fuori di questo intervallo di confidenza empirico.
Fatti principali
- Il decadimento del peso agisce come un parametro di controllo empirico scalare per i regimi nei transformer.
- Introdotte due diagnostiche online economiche: similarità coseno media a coppie tra teste di attenzione e deviazione standard dell'entropia.
- Le diagnostiche tracciano le dinamiche di addestramento dalle sole attivazioni dell'attenzione.
- Lo studio copre undici condizioni sperimentali e tre scale di modello (da 0,82M a 85M parametri).
- Confine memorizzazione-evolutivo a λ_c=0,0158 (IC 95% [0,0109, 0,0200], N=210).
- Esponente empirico ν=0,757 (IC [0,725, 0,799]).
- Gli esponenti di riferimento ν=1/2 e Ising 3D ν≈0,63 sono al di fuori dell'IC empirico.
Entità
Istituzioni
- arXiv