Vettori di scala nei LLM: Trascurabili ma cruciali per l'addestramento
Un nuovo studio da arXiv analizza sistematicamente i vettori di scala nei modelli linguistici di grandi dimensioni (LLM), rivelando il loro ruolo sproporzionato nell'addestramento nonostante costituiscano una frazione trascurabile dei parametri. La ricerca mostra che la rimozione dei vettori di scala degrada significativamente le prestazioni del pre-addestramento. Nelle architetture Pre-Norm, i vettori di scala non aumentano l'espressività ma migliorano l'ottimizzazione attraverso un effetto di precondizionamento auto-amplificante sulle successive mappature lineari. Lo studio esamina anche il ruolo del weight decay per i vettori di scala, distinguendo tra strati Input-Norm e Output-Norm. Questo lavoro fornisce approfondimenti teorici ed empirici su un componente precedentemente poco compreso dei LLM.
Fatti principali
- I vettori di scala costituiscono una frazione trascurabile dei parametri del modello.
- La rimozione dei vettori di scala degrada sostanzialmente il pre-addestramento dei LLM.
- Nelle architetture Pre-Norm, i vettori di scala non aumentano l'espressività.
- I vettori di scala migliorano l'ottimizzazione attraverso un effetto di precondizionamento auto-amplificante.
- Lo studio distingue gli strati Input-Norm e Output-Norm per l'analisi del weight decay.
- La ricerca è pubblicata su arXiv con ID 2605.26895.
- Lo studio copre espressività, ottimizzazione e struttura architetturale.
- Gli strati di normalizzazione consistono in un'operazione deterministica e un vettore di scala apprendibile.
Entità
Istituzioni
- arXiv