AMOR: Porta di Entropia Adattiva per Modelli Ibridi Ricorrenti-Attentivi
Ecco una novità chiamata AMOR, che sta per Adaptive Metacognitive Output Router. È un nuovo tipo di modello ibrido che utilizza l'attenzione basata sull'incertezza delle previsioni. L'architettura migliora una struttura ricorrente aggiungendo speciali blocchi di attenzione a gating entropico che si attivano solo quando l'incertezza dell'output del modello supera una certa soglia, determinata dalla mediana e dalla deviazione standard del batch corrente. Questo porta a un semplice metodo di routing ispirato al modo in cui elaboriamo l'incertezza. Testato su backbone Mamba2 e Gated DeltaNet, con dimensioni da 180 milioni a 1,5 miliardi di parametri, AMOR spesso supera sia i modelli ricorrenti standard che i metodi di attenzione fissi, utilizzando l'attenzione in modo molto più efficiente.
Fatti principali
- AMOR sta per Adaptive Metacognitive Output Router
- È un'architettura ibrida post-hoc per modelli ricorrenti-attentivi
- L'attenzione viene invocata in base all'incertezza predittiva tramite gating entropico
- La soglia dinamica utilizza la mediana corrente del batch e la deviazione standard scalata
- Meccanismo di routing senza gradienti ispirato al Sistema 1 / Sistema 2
- Testato su backbone Mamba2 e Gated DeltaNet da 180M a 1,5B parametri
- Eguaglia o supera i modelli di base puramente ricorrenti e ibridi a pianificazione fissa
- Invoca l'attenzione solo su una frazione dei token
Entità
Istituzioni
- arXiv