L'architettura nGPT consente un addestramento stabile a 4 bit per LLM
Un recente articolo su arXiv rivela che nGPT, un'architettura che normalizza e confina pesi e rappresentazioni nascoste nell'ipersfera unitaria, mostra una maggiore resilienza all'aritmetica a bassa precisione. Ciò consente un addestramento stabile NVFP4 senza la necessità di metodi come le trasformate di Hadamard casuali o il ridimensionamento per tensore. I risultati sono stati confermati utilizzando un modello denso da 1,2B e modelli MoE ibridi Mamba-Transformer con parametri da 3B a 30B. La maggiore robustezza è legata al comportamento dei prodotti scalari; mentre il rumore di quantizzazione è incorrelato sia nelle architetture standard che in quelle normalizzate, il vincolo dell'ipersfera in nGPT favorisce deboli correlazioni positive tra i prodotti elemento per elemento, facilitando l'accumulo costruttivo del segnale e migliorando l'efficienza dell'addestramento a 4 bit.
Fatti principali
- arXiv:2605.06067v1
- nGPT vincola pesi e rappresentazioni nascoste nell'ipersfera unitaria
- Consente un addestramento stabile end-to-end NVFP4
- Validato su modello denso da 1,2B e modelli MoE ibridi fino a 3B/30B parametri
- Elimina la necessità di trasformate di Hadamard casuali e ridimensionamento per tensore
- Robustezza ricondotta al comportamento del prodotto scalare sotto rumore di quantizzazione
- Il vincolo dell'ipersfera migliora le deboli correlazioni positive tra i prodotti elemento per elemento
- Accumulo costruttivo del segnale attraverso la dimensione nascosta
Entità
Istituzioni
- arXiv