ARTFEED — Contemporary Art Intelligence

Decadimento del Peso come Parametro di Controllo nei Transformer Grokking

ai-technology · 2026-05-22

Un recente studio pubblicato su arXiv (2605.20441) indica che il decadimento del peso funge da parametro di controllo empirico scalare che influenza i passaggi tra memorizzazione, generalizzazione e collasso nei transformer focalizzati sull'aritmetica modulare. Gli autori propongono due diagnostiche online economiche—la similarità coseno media a coppie tra teste di attenzione e la deviazione standard dell'entropia—per monitorare le dinamiche di addestramento basandosi esclusivamente sulle attivazioni dell'attenzione, riducendo così il costo computazionale rispetto alle diagnostiche del paesaggio della perdita. Analizzando undici configurazioni sperimentali e tre dimensioni di modello (da 0,82M a 85M parametri), l'asse del decadimento del peso distingue efficacemente tra memorizzazione, grokking evolutivo e collasso. Un adattamento logistico vicino alla transizione identifica il confine memorizzazione-evolutivo a λ_c=0,0158 (IC 95% [0,0109, 0,0200], N=210), mentre un adattamento di legge di potenza fornisce un esponente empirico ν=0,757 (IC [0,725, 0,799]), con esponenti di riferimento ν=1/2 e Ising 3D ν≈0,63 che cadono al di fuori di questo intervallo di confidenza empirico.

Fatti principali

  • Il decadimento del peso agisce come un parametro di controllo empirico scalare per i regimi nei transformer.
  • Introdotte due diagnostiche online economiche: similarità coseno media a coppie tra teste di attenzione e deviazione standard dell'entropia.
  • Le diagnostiche tracciano le dinamiche di addestramento dalle sole attivazioni dell'attenzione.
  • Lo studio copre undici condizioni sperimentali e tre scale di modello (da 0,82M a 85M parametri).
  • Confine memorizzazione-evolutivo a λ_c=0,0158 (IC 95% [0,0109, 0,0200], N=210).
  • Esponente empirico ν=0,757 (IC [0,725, 0,799]).
  • Gli esponenti di riferimento ν=1/2 e Ising 3D ν≈0,63 sono al di fuori dell'IC empirico.

Entità

Istituzioni

  • arXiv

Fonti