La SVD del Gradiente Rivela l'Accoppiamento Lineare-Centroide nell'Addestramento dei Transformer
Uno studio recente disponibile su arXiv (2604.25143) indica che l'applicazione della decomposizione ai valori singolari (SVD) ai gradienti di perdita, anziché agli aggiornamenti di AdamW, rivela una relazione significativa tra le direzioni SED e le caratteristiche dell'Ipotesi del Centroide Lineare (LCH) nei modelli transformer. L'accoppiamento perturbativo osservato aumenta da 3–9× a 100–330× in quattro distinte operazioni aritmetiche modulari a singolo compito, eliminando ogni dipendenza visibile dalle operazioni. In un transformer multi-compito che utilizza un encoder condiviso, la SED basata sugli aggiornamenti ha prodotto R_k ≤ 1, indicando un problema diagnostico, mentre la SED basata sul gradiente per operazione ha raggiunto R_k = 20–45× in tutti i compiti. La sfida principale identificata è l'aggregazione dei gradienti tra compiti concorrenti, che viene affrontata eseguendo la SVD sui gradienti per compito. Un intervento causale rivela che limitare gli aggiornamenti dell'attenzione a un sottospazio specifico può influenzare l'accoppiamento. Questa ricerca è stata pubblicata il 25 aprile 2026.
Fatti principali
- La SVD sui gradienti di perdita aumenta l'accoppiamento misurato da 3–9× a 100–330×
- Sono state testate quattro operazioni aritmetiche modulari a singolo compito
- La SED basata sugli aggiornamenti ha dato R_k ≤ 1 sul transformer multi-compito
- La SED basata sul gradiente per operazione ha recuperato R_k = 20–45×
- L'aggregazione dei gradienti tra compiti è l'ostacolo principale
- Un intervento causale mostra che limitare gli aggiornamenti dell'attenzione influisce sull'accoppiamento
- Pubblicato su arXiv il 25 aprile 2026
- ID articolo: 2604.25143
Entità
Istituzioni
- arXiv