L'addestramento dei transformer rivela onde di compressione transitorie e gradienti spettrali persistenti
Un nuovo studio su arXiv (2604.22778) presenta la prima analisi sistematica degli spettri dei valori singolari delle matrici dei pesi durante il pre-addestramento dei transformer. Tracciando le decomposizioni SVD complete ogni 25 passi su modelli da 30M a 285M parametri, i ricercatori hanno identificato tre fenomeni: onde di compressione transitorie in cui la compressione del rango stabile viaggia dagli strati iniziali a quelli finali e si inverte; gradienti spettrali persistenti che formano una forma a U rovesciata non monotona nei modelli più profondi; e un'asimmetria funzionale Q/K-V in cui le proiezioni di valore/output si comprimono uniformemente mentre le proiezioni di query/key portano dinamiche dipendenti dalla profondità. La dissociazione tra compressione transitoria e gradienti persistenti rivela nuove intuizioni sulle dinamiche di apprendimento dei transformer.
Fatti principali
- Primo studio sistematico degli spettri dei valori singolari delle matrici dei pesi durante il pre-addestramento dei transformer
- Decomposizioni SVD complete tracciate a intervalli di 25 passi
- Modelli scalati da 30M a 285M parametri
- Onde di compressione transitorie si propagano dagli strati iniziali a quelli finali
- Il gradiente di compressione raggiunge il picco presto poi si inverte
- Gli strati finali alla fine si comprimono eccessivamente oltre gli strati iniziali
- L'esponente della legge di potenza α sviluppa un gradiente di profondità permanente
- Forma a U rovesciata nei modelli più profondi con picchi che si spostano verso gli strati iniziali
- Le proiezioni di valore/output si comprimono uniformemente
- Le proiezioni di query/key portano dinamiche complete dipendenti dalla profondità
Entità
Istituzioni
- arXiv