ARTFEED — Contemporary Art Intelligence

Analisi delle Dinamiche di Addestramento di un Trasformatore Lineare a Due Fattori

other · 2026-05-22

Uno studio recente pubblicato su arXiv (2605.21292) indaga le dinamiche di addestramento di un modello trasformatore lineare a due fattori quando sottoposto a tassi di apprendimento elevati. Questa ricerca si basa sulle analisi del flusso del gradiente concentrandosi su un problema di addestramento di un trasformatore lineare a un prompt che può essere esattamente ridotto. Dopo la normalizzazione, le dinamiche si semplificano in una mappa prodotto a due fattori caratterizzata da un parametro di passo effettivo μ. All'interno della fetta bilanciata, la mappa rivela la transizione cubica scalare consolidata, comprendente convergenza monotona, convergenza a catapulta, e sia non convergenza limitata periodica che caotica, nonché divergenza. Per valori di 0<μ<2, il sistema bidimensionale completo presenta una distinta ellisse di Chebyshev invariante che delinea regioni forward-invarianti, le quali mostrano dinamiche caotiche sbilanciate.

Fatti principali

  • L'articolo arXiv 2605.21292 studia le dinamiche di addestramento di un trasformatore lineare a due fattori
  • Si concentra sul comportamento a passo finito della discesa del gradiente a tassi di apprendimento elevati
  • Le dinamiche si riducono a una mappa prodotto a due fattori con parametro di passo μ
  • La fetta bilanciata mostra una transizione cubica dalla convergenza monotona alla convergenza a catapulta, non convergenza periodica/caotica e divergenza
  • Per 0<μ<2, il sistema ha un'ellisse di Chebyshev invariante con dinamiche caotiche sbilanciate

Entità

Istituzioni

  • arXiv

Fonti