ARTFEED — Contemporary Art Intelligence

Le reti GLU superano le controparti non gated grazie allo spettro NTK favorevole

ai-technology · 2026-05-22

Una recente indagine pubblicata su arXiv (2605.20749) spiega le prestazioni superiori delle unità lineari gated (GLU) rispetto alle architetture non gated nei modelli linguistici estesi. I ricercatori hanno esaminato reti a due strati nel quadro del kernel tangente neurale (NTK) e hanno scoperto che GLU altera lo spettro NTK, risultando in un numero di condizione ridotto e una distribuzione degli autovalori più densa. Questa modifica facilita una convergenza più rapida e un notevole effetto di incrocio della perdita. Esperimenti condotti su ViT e GPT-2 indicano che il principale vantaggio di GLU risiede nell'aumentare la velocità di ottimizzazione piuttosto che nel ridurre il divario di generalizzazione.

Fatti principali

  • GLU e varianti sono ampiamente utilizzati nelle moderne architetture LLM open-source.
  • GLU supera costantemente le controparti non gated.
  • Lo studio analizza reti a due strati nel regime NTK.
  • La struttura GLU rimodella lo spettro NTK con un numero di condizione più piccolo.
  • Lo spettro rimodellato porta a una convergenza più rapida.
  • Si osserva un fenomeno di incrocio della perdita tra modelli GLU e non GLU.
  • GLU ha un impatto limitato sulla riduzione del divario di generalizzazione in ViT e GPT-2.
  • Il beneficio principale di GLU è accelerare l'ottimizzazione.

Entità

Istituzioni

  • arXiv

Fonti