Identificata la Finestra Critica per il Controllo della Complessità nei Transformer

other · 2026-05-07

Un nuovo studio da arXiv (2605.04396) rivela che la decisione tra ragionamento e memorizzazione nei Transformer viene determinata all'interno di una specifica finestra di addestramento. I ricercatori hanno scoperto che applicare il weight decay solo per il 25% dell'addestramento produce un'accuratezza fuori distribuzione di 0,93, corrispondente al weight decay per l'intero addestramento (0,91). Posizionare la regolarizzazione a metà dell'addestramento aumenta l'accuratezza OOD di 5-9 volte rispetto al posizionamento iniziale. Il lavoro identifica un confine netto durante l'addestramento in cui il controllo della complessità è decisivo, sfidando la visione di esso come un iperparametro statico.

Fatti principali

La generalizzazione compositiva dei Transformer è governata dal controllo della complessità tramite la scala di inizializzazione e il weight decay.
Il destino tra memorizzazione e ragionamento è determinato all'interno di una finestra di addestramento netta e identificabile.
Il weight decay applicato per una singola finestra del 25% corrisponde al weight decay per l'intero addestramento in accuratezza OOD (0,93 vs 0,91).
Posizionare la regolarizzazione a metà dell'addestramento produce un'accuratezza OOD 5-9 volte superiore rispetto al posizionamento iniziale.
Lo studio utilizza un compito compositivo controllato.
Le analisi esistenti trattano il controllo della complessità come una singola scelta statica di iperparametro.
La ricerca proviene dal preprint arXiv 2605.04396.
Il confine della finestra critica è identificato.

Identificata la Finestra Critica per il Controllo della Complessità nei Transformer

Fatti principali

Entità

Istituzioni

Fonti