LessIsMore: Attenzione Sparsa Senza Addestramento per un Ragionamento Efficiente

ai-technology · 2026-04-30

L'approccio innovativo noto come LessIsMore presenta un meccanismo di attenzione sparsa senza addestramento, progettato per modelli di ragionamento estensivo, affrontando le richieste computazionali associate a lunghe sequenze di decodifica. La realizzazione principale è che l'importanza dei token durante il ragionamento rimane globale e coerente, con token essenziali comuni tra le teste di attenzione e stabili durante le fasi di decodifica. LessIsMore implementa una selezione unificata dei token tra le teste e mantiene il contesto recente attraverso una finestra di recency costante, producendo un insieme di token globalmente coerente che può essere riutilizzato tra i livelli. Questa strategia riduce la latenza e il consumo di memoria senza la necessità di costosi riaddestramenti, garantendo la precisione del ragionamento in varie famiglie di modelli e benchmark impegnativi.

Fatti principali

LessIsMore è un meccanismo di attenzione sparsa senza addestramento.
Si rivolge al ragionamento a lungo orizzonte in modelli di grandi dimensioni.
L'importanza dei token è globale e stabile tra teste e passaggi.
Viene imposta una selezione unificata dei token tra le teste.
Una finestra di recency stabile preserva il contesto recente.
L'insieme di token è coerente e riutilizzabile tra i livelli.
Riduce la latenza e l'uso della memoria.
Non richiede riaddestramento.

Entità

—

Fonti

arXiv cs.AI — 2026-04-29