Le reti GLU superano le controparti non gated grazie allo spettro NTK favorevole

ai-technology · 2026-05-22

Una recente indagine pubblicata su arXiv (2605.20749) spiega le prestazioni superiori delle unità lineari gated (GLU) rispetto alle architetture non gated nei modelli linguistici estesi. I ricercatori hanno esaminato reti a due strati nel quadro del kernel tangente neurale (NTK) e hanno scoperto che GLU altera lo spettro NTK, risultando in un numero di condizione ridotto e una distribuzione degli autovalori più densa. Questa modifica facilita una convergenza più rapida e un notevole effetto di incrocio della perdita. Esperimenti condotti su ViT e GPT-2 indicano che il principale vantaggio di GLU risiede nell'aumentare la velocità di ottimizzazione piuttosto che nel ridurre il divario di generalizzazione.

Fatti principali

GLU e varianti sono ampiamente utilizzati nelle moderne architetture LLM open-source.
GLU supera costantemente le controparti non gated.
Lo studio analizza reti a due strati nel regime NTK.
La struttura GLU rimodella lo spettro NTK con un numero di condizione più piccolo.
Lo spettro rimodellato porta a una convergenza più rapida.
Si osserva un fenomeno di incrocio della perdita tra modelli GLU e non GLU.
GLU ha un impatto limitato sulla riduzione del divario di generalizzazione in ViT e GPT-2.
Il beneficio principale di GLU è accelerare l'ottimizzazione.

Le reti GLU superano le controparti non gated grazie allo spettro NTK favorevole

Fatti principali

Entità

Istituzioni

Fonti