Decadimento Adattivo della Memoria per l'Attenzione Log-Lineare

ai-technology · 2026-05-11

I ricercatori propongono di apprendere il parametro di decadimento della memoria nei modelli di attenzione log-lineare direttamente dai dati di input, sostituendo il parametro fisso e indipendente dal contenuto. L'approccio utilizza un MLP leggero a due strati con attivazione softplus per produrre un decadimento per token e per livello, consentendo a ciascun livello della gerarchia Fenwick di scalare indipendentemente. Ciò affronta la rigidità del decadimento fisso nell'attenzione log-lineare, che in precedenza assegnava pesi uniformi tra i livelli gerarchici indipendentemente dal contenuto. Il metodo mira a migliorare il compromesso tra capacità di memoria ed efficienza computazionale nei modelli sequenziali, basandosi sull'architettura di attenzione log-lineare che organizza la memoria attraverso una gerarchia di alberi Fenwick con costo computazionale log-lineare.

Fatti principali

L'attenzione log-lineare utilizza una gerarchia di alberi Fenwick per l'organizzazione della memoria.
Il parametro di decadimento della memoria λ era precedentemente fisso e indipendente dall'input.
Il metodo proposto apprende λ tramite un MLP a due strati.
L'attivazione softplus consente una scalatura indipendente per livello dell'albero Fenwick.
L'approccio produce un decadimento per token e per livello.
Affronta la rigidità del modello di attenzione log-lineare originale.
Il lavoro è pubblicato su arXiv con ID 2605.06946.
Il metodo mira a migliorare il compromesso memoria-efficienza nei modelli sequenziali.

Decadimento Adattivo della Memoria per l'Attenzione Log-Lineare

Fatti principali

Entità

Istituzioni

Fonti