Identificata la Finestra Critica per il Controllo della Complessità nei Transformer
Un nuovo studio da arXiv (2605.04396) rivela che la decisione tra ragionamento e memorizzazione nei Transformer viene determinata all'interno di una specifica finestra di addestramento. I ricercatori hanno scoperto che applicare il weight decay solo per il 25% dell'addestramento produce un'accuratezza fuori distribuzione di 0,93, corrispondente al weight decay per l'intero addestramento (0,91). Posizionare la regolarizzazione a metà dell'addestramento aumenta l'accuratezza OOD di 5-9 volte rispetto al posizionamento iniziale. Il lavoro identifica un confine netto durante l'addestramento in cui il controllo della complessità è decisivo, sfidando la visione di esso come un iperparametro statico.
Fatti principali
- La generalizzazione compositiva dei Transformer è governata dal controllo della complessità tramite la scala di inizializzazione e il weight decay.
- Il destino tra memorizzazione e ragionamento è determinato all'interno di una finestra di addestramento netta e identificabile.
- Il weight decay applicato per una singola finestra del 25% corrisponde al weight decay per l'intero addestramento in accuratezza OOD (0,93 vs 0,91).
- Posizionare la regolarizzazione a metà dell'addestramento produce un'accuratezza OOD 5-9 volte superiore rispetto al posizionamento iniziale.
- Lo studio utilizza un compito compositivo controllato.
- Le analisi esistenti trattano il controllo della complessità come una singola scelta statica di iperparametro.
- La ricerca proviene dal preprint arXiv 2605.04396.
- Il confine della finestra critica è identificato.
Entità
Istituzioni
- arXiv