Gated DeltaNet-2 separa cancellazione e scrittura nell'attenzione lineare

other · 2026-05-23

Una recente pubblicazione su arXiv presenta Gated DeltaNet-2, che presenta un meccanismo di attenzione lineare che distingue tra funzioni di cancellazione e scrittura attraverso l'uso di gate per canale. Questa attenzione lineare sostituisce la cache illimitata dell'attenzione softmax con uno stato ricorrente di dimensione fissa, consentendo il mixing di sequenze in tempo lineare e memoria costante per la decodifica. La difficoltà sta nel modificare questa memoria compatta senza interrompere le connessioni esistenti. I modelli Delta-rule comportano la sottrazione della lettura corrente prima di scrivere un nuovo valore, mentre Kimi Delta Attention (KDA) migliora l'oblio attraverso un decadimento per canale. Tuttavia, la modifica attiva si basa ancora su un singolo gate scalare per entrambe le operazioni. Gated DeltaNet-2 migliora Gated DeltaNet e KDA separando queste funzioni con distinti gate di cancellazione per canale b_t e gate di scrittura.

Fatti principali

Gated DeltaNet-2 è introdotto nell'articolo arXiv 2605.22791.
L'attenzione lineare sostituisce la cache illimitata dell'attenzione softmax con uno stato ricorrente di dimensione fissa.
Riduce il mixing di sequenze a tempo lineare e la decodifica a memoria costante.
I modelli Delta-rule sottraggono la lettura corrente prima di scrivere un nuovo valore.
Kimi Delta Attention (KDA) affina l'oblio con decadimento per canale.
I modelli precedenti usavano un singolo gate scalare per controllare sia la cancellazione che la scrittura.
Gated DeltaNet-2 separa cancellazione e scrittura con gate per canale b_t e gate di scrittura.
Generalizza sia Gated DeltaNet che KDA.

Gated DeltaNet-2 separa cancellazione e scrittura nell'attenzione lineare

Fatti principali

Entità

Istituzioni

Fonti