L'architettura nGPT consente un addestramento stabile a 4 bit per LLM

ai-technology · 2026-05-09

Un recente articolo su arXiv rivela che nGPT, un'architettura che normalizza e confina pesi e rappresentazioni nascoste nell'ipersfera unitaria, mostra una maggiore resilienza all'aritmetica a bassa precisione. Ciò consente un addestramento stabile NVFP4 senza la necessità di metodi come le trasformate di Hadamard casuali o il ridimensionamento per tensore. I risultati sono stati confermati utilizzando un modello denso da 1,2B e modelli MoE ibridi Mamba-Transformer con parametri da 3B a 30B. La maggiore robustezza è legata al comportamento dei prodotti scalari; mentre il rumore di quantizzazione è incorrelato sia nelle architetture standard che in quelle normalizzate, il vincolo dell'ipersfera in nGPT favorisce deboli correlazioni positive tra i prodotti elemento per elemento, facilitando l'accumulo costruttivo del segnale e migliorando l'efficienza dell'addestramento a 4 bit.

Fatti principali

arXiv:2605.06067v1
nGPT vincola pesi e rappresentazioni nascoste nell'ipersfera unitaria
Consente un addestramento stabile end-to-end NVFP4
Validato su modello denso da 1,2B e modelli MoE ibridi fino a 3B/30B parametri
Elimina la necessità di trasformate di Hadamard casuali e ridimensionamento per tensore
Robustezza ricondotta al comportamento del prodotto scalare sotto rumore di quantizzazione
Il vincolo dell'ipersfera migliora le deboli correlazioni positive tra i prodotti elemento per elemento
Accumulo costruttivo del segnale attraverso la dimensione nascosta

L'architettura nGPT consente un addestramento stabile a 4 bit per LLM

Fatti principali

Entità

Istituzioni

Fonti