Miscela di Attivazioni: Progettazione FFN Token-Adattiva per LLM

ai-technology · 2026-05-27

I ricercatori hanno introdotto la Miscela di Attivazioni (MoA), una nuova struttura di rete feedforward token-adattiva che utilizza una combinazione di funzioni di attivazione attraverso porte leggere dipendenti dall'input, mantenendo proiezioni lineari condivise. Inoltre, una controparte nota come attivazioni apprendibili (LA) crea combinazioni lineari di funzioni di attivazione applicabili sia a FFN di tipo ReLU che SwiGLU. Questo studio delinea chiare distinzioni espressive a larghezza finita: LA è un superset stretto delle FFN ad attivazione fissa, e MoA è un superset stretto di LA. Questa innovazione supera lo svantaggio dei progetti FFN convenzionali che si basano su un'unica funzione di attivazione fissa applicata uniformemente a tutti i token. La ricerca è accessibile su arXiv con ID 2605.26647.

Fatti principali

1. Miscela di Attivazioni (MoA) è un progetto FFN token-adattivo
2. MoA mescola un dizionario di funzioni di attivazione utilizzando porte leggere dipendenti dall'input
3. Le proiezioni lineari sono condivise tra le attivazioni in MoA
4. Le attivazioni apprendibili (LA) sono una controparte indipendente dall'input
5. LA forma combinazioni lineari di funzioni di attivazione per FFN di tipo ReLU e SwiGLU
6. Sono stabilite separazioni espressive strette a larghezza finita: LA contiene FFN ad attivazione fissa, MoA contiene LA
7. La maggior parte dei progetti FFN utilizza un'unica funzione di attivazione fissa applicata uniformemente a tutti i token
8. Articolo disponibile su arXiv con ID 2605.26647

Miscela di Attivazioni: Progettazione FFN Token-Adattiva per LLM

Fatti principali

Entità

Istituzioni

Fonti