ARTFEED — Contemporary Art Intelligence

Identificata la Finestra Critica per il Controllo della Complessità nei Transformer

other · 2026-05-07

Un nuovo studio da arXiv (2605.04396) rivela che la decisione tra ragionamento e memorizzazione nei Transformer viene determinata all'interno di una specifica finestra di addestramento. I ricercatori hanno scoperto che applicare il weight decay solo per il 25% dell'addestramento produce un'accuratezza fuori distribuzione di 0,93, corrispondente al weight decay per l'intero addestramento (0,91). Posizionare la regolarizzazione a metà dell'addestramento aumenta l'accuratezza OOD di 5-9 volte rispetto al posizionamento iniziale. Il lavoro identifica un confine netto durante l'addestramento in cui il controllo della complessità è decisivo, sfidando la visione di esso come un iperparametro statico.

Fatti principali

  • La generalizzazione compositiva dei Transformer è governata dal controllo della complessità tramite la scala di inizializzazione e il weight decay.
  • Il destino tra memorizzazione e ragionamento è determinato all'interno di una finestra di addestramento netta e identificabile.
  • Il weight decay applicato per una singola finestra del 25% corrisponde al weight decay per l'intero addestramento in accuratezza OOD (0,93 vs 0,91).
  • Posizionare la regolarizzazione a metà dell'addestramento produce un'accuratezza OOD 5-9 volte superiore rispetto al posizionamento iniziale.
  • Lo studio utilizza un compito compositivo controllato.
  • Le analisi esistenti trattano il controllo della complessità come una singola scelta statica di iperparametro.
  • La ricerca proviene dal preprint arXiv 2605.04396.
  • Il confine della finestra critica è identificato.

Entità

Istituzioni

  • arXiv

Fonti