FLUID: Trasformatore a Tempo Continuo con Attenzione Liquida
Un nuovo framework trasformatore chiamato FLUID (Flexible Unified Information Dynamics) sostituisce la tradizionale attenzione a prodotto scalare con una Rete di Attenzione Liquida (LAN), che tratta i logit di attenzione come un sistema dinamico continuo. La LAN ridefinisce l'attenzione come il risultato di un'equazione differenziale ordinaria lineare influenzata da porte ricorrenti non lineari che dipendono dall'input. Valutazioni teoriche confermano la stabilità della dinamica LAN e dimostrano la sua capacità di colmare il divario tra attenzione discreta e RNN a tempo continuo, ciascuna delle quali è un caso specifico. Inoltre, FLUID incorpora una porta dedicata per il sink di attenzione per prevenire un'enfasi eccessiva sui token sink. Questa ricerca è disponibile su arXiv con ID 2605.04421.
Fatti principali
- 1. FLUID sostituisce l'attenzione a prodotto scalare con la Rete di Attenzione Liquida (LAN).
- 2. LAN modella i logit di attenzione come un sistema dinamico continuo.
- 3. L'attenzione è riformulata come soluzione di un'ODE lineare con porte dipendenti dall'input.
- 4. Sono stabilite garanzie di stabilità per la dinamica LAN.
- 5. LAN interpola tra SDPA e CT-RNN, recuperando ciascuno come caso speciale.
- 6. Viene introdotta una porta esplicita per il sink di attenzione per eliminare la concentrazione sproporzionata.
- 7. L'articolo è disponibile su arXiv con ID 2605.04421.
- 8. L'approccio mira alla modellazione a tempo continuo per sequenze irregolari e a lungo raggio.
Entità
Istituzioni
- arXiv