Decadimento Adattivo della Memoria per l'Attenzione Log-Lineare
I ricercatori propongono di apprendere il parametro di decadimento della memoria nei modelli di attenzione log-lineare direttamente dai dati di input, sostituendo il parametro fisso e indipendente dal contenuto. L'approccio utilizza un MLP leggero a due strati con attivazione softplus per produrre un decadimento per token e per livello, consentendo a ciascun livello della gerarchia Fenwick di scalare indipendentemente. Ciò affronta la rigidità del decadimento fisso nell'attenzione log-lineare, che in precedenza assegnava pesi uniformi tra i livelli gerarchici indipendentemente dal contenuto. Il metodo mira a migliorare il compromesso tra capacità di memoria ed efficienza computazionale nei modelli sequenziali, basandosi sull'architettura di attenzione log-lineare che organizza la memoria attraverso una gerarchia di alberi Fenwick con costo computazionale log-lineare.
Fatti principali
- L'attenzione log-lineare utilizza una gerarchia di alberi Fenwick per l'organizzazione della memoria.
- Il parametro di decadimento della memoria λ era precedentemente fisso e indipendente dall'input.
- Il metodo proposto apprende λ tramite un MLP a due strati.
- L'attivazione softplus consente una scalatura indipendente per livello dell'albero Fenwick.
- L'approccio produce un decadimento per token e per livello.
- Affronta la rigidità del modello di attenzione log-lineare originale.
- Il lavoro è pubblicato su arXiv con ID 2605.06946.
- Il metodo mira a migliorare il compromesso memoria-efficienza nei modelli sequenziali.
Entità
Istituzioni
- arXiv