Le reti GLU superano le controparti non gated grazie allo spettro NTK favorevole
Una recente indagine pubblicata su arXiv (2605.20749) spiega le prestazioni superiori delle unità lineari gated (GLU) rispetto alle architetture non gated nei modelli linguistici estesi. I ricercatori hanno esaminato reti a due strati nel quadro del kernel tangente neurale (NTK) e hanno scoperto che GLU altera lo spettro NTK, risultando in un numero di condizione ridotto e una distribuzione degli autovalori più densa. Questa modifica facilita una convergenza più rapida e un notevole effetto di incrocio della perdita. Esperimenti condotti su ViT e GPT-2 indicano che il principale vantaggio di GLU risiede nell'aumentare la velocità di ottimizzazione piuttosto che nel ridurre il divario di generalizzazione.
Fatti principali
- GLU e varianti sono ampiamente utilizzati nelle moderne architetture LLM open-source.
- GLU supera costantemente le controparti non gated.
- Lo studio analizza reti a due strati nel regime NTK.
- La struttura GLU rimodella lo spettro NTK con un numero di condizione più piccolo.
- Lo spettro rimodellato porta a una convergenza più rapida.
- Si osserva un fenomeno di incrocio della perdita tra modelli GLU e non GLU.
- GLU ha un impatto limitato sulla riduzione del divario di generalizzazione in ViT e GPT-2.
- Il beneficio principale di GLU è accelerare l'ottimizzazione.
Entità
Istituzioni
- arXiv