La SVD del Gradiente Rivela l'Accoppiamento Lineare-Centroide nell'Addestramento dei Transformer

other · 2026-04-30

Uno studio recente disponibile su arXiv (2604.25143) indica che l'applicazione della decomposizione ai valori singolari (SVD) ai gradienti di perdita, anziché agli aggiornamenti di AdamW, rivela una relazione significativa tra le direzioni SED e le caratteristiche dell'Ipotesi del Centroide Lineare (LCH) nei modelli transformer. L'accoppiamento perturbativo osservato aumenta da 3–9× a 100–330× in quattro distinte operazioni aritmetiche modulari a singolo compito, eliminando ogni dipendenza visibile dalle operazioni. In un transformer multi-compito che utilizza un encoder condiviso, la SED basata sugli aggiornamenti ha prodotto R_k ≤ 1, indicando un problema diagnostico, mentre la SED basata sul gradiente per operazione ha raggiunto R_k = 20–45× in tutti i compiti. La sfida principale identificata è l'aggregazione dei gradienti tra compiti concorrenti, che viene affrontata eseguendo la SVD sui gradienti per compito. Un intervento causale rivela che limitare gli aggiornamenti dell'attenzione a un sottospazio specifico può influenzare l'accoppiamento. Questa ricerca è stata pubblicata il 25 aprile 2026.

Fatti principali

La SVD sui gradienti di perdita aumenta l'accoppiamento misurato da 3–9× a 100–330×
Sono state testate quattro operazioni aritmetiche modulari a singolo compito
La SED basata sugli aggiornamenti ha dato R_k ≤ 1 sul transformer multi-compito
La SED basata sul gradiente per operazione ha recuperato R_k = 20–45×
L'aggregazione dei gradienti tra compiti è l'ostacolo principale
Un intervento causale mostra che limitare gli aggiornamenti dell'attenzione influisce sull'accoppiamento
Pubblicato su arXiv il 25 aprile 2026
ID articolo: 2604.25143

La SVD del Gradiente Rivela l'Accoppiamento Lineare-Centroide nell'Addestramento dei Transformer

Fatti principali

Entità

Istituzioni

Fonti