LessIsMore: Attenzione Sparsa Senza Addestramento per un Ragionamento Efficiente
L'approccio innovativo noto come LessIsMore presenta un meccanismo di attenzione sparsa senza addestramento, progettato per modelli di ragionamento estensivo, affrontando le richieste computazionali associate a lunghe sequenze di decodifica. La realizzazione principale è che l'importanza dei token durante il ragionamento rimane globale e coerente, con token essenziali comuni tra le teste di attenzione e stabili durante le fasi di decodifica. LessIsMore implementa una selezione unificata dei token tra le teste e mantiene il contesto recente attraverso una finestra di recency costante, producendo un insieme di token globalmente coerente che può essere riutilizzato tra i livelli. Questa strategia riduce la latenza e il consumo di memoria senza la necessità di costosi riaddestramenti, garantendo la precisione del ragionamento in varie famiglie di modelli e benchmark impegnativi.
Fatti principali
- LessIsMore è un meccanismo di attenzione sparsa senza addestramento.
- Si rivolge al ragionamento a lungo orizzonte in modelli di grandi dimensioni.
- L'importanza dei token è globale e stabile tra teste e passaggi.
- Viene imposta una selezione unificata dei token tra le teste.
- Una finestra di recency stabile preserva il contesto recente.
- L'insieme di token è coerente e riutilizzabile tra i livelli.
- Riduce la latenza e l'uso della memoria.
- Non richiede riaddestramento.
Entità
—