Focus: Attenzione Efficiente con Centroidi Apprendibili per Modelli Pre-addestrati

ai-technology · 2026-04-30

È stato sviluppato un approccio innovativo chiamato Focus, che utilizza centroidi apprendibili (richiedenti appena 148K parametri per strato) che fungono da porte per facilitare un'attenzione efficiente, limitando le interazioni a lungo raggio alle coppie di token all'interno dello stesso gruppo di centroidi. Questo metodo adattabile può essere integrato in qualsiasi modello pre-addestrato addestrando solo i centroidi, mantenendo intatti i pesi originali. Test condotti su modelli da 124M a 70B parametri attraverso cinque architetture di attenzione non hanno mostrato alcun calo delle prestazioni nei benchmark downstream. In particolare, alla scala 124M, l'attenzione sparsa Focus ha raggiunto una perplexity di 30,3, superando il 31,4 dell'attenzione completa, e ha dimostrato prestazioni comparabili a scale più grandi.

Fatti principali

Focus aggiunge centroidi apprendibili (appena 148K parametri per strato) per controllare l'attenzione tra coppie di token.
Solo i centroidi vengono addestrati; i pesi originali pre-addestrati rimangono congelati.
Gli esperimenti coprono dimensioni del modello da 124M a 70B parametri e cinque architetture di attenzione.
L'attenzione sparsa Focus raggiunge una perplexity di 30,3 contro 31,4 dell'attenzione completa alla scala 124M.
Focus eguaglia le prestazioni dell'attenzione completa sui benchmark downstream con zero degrado.
L'attenzione standard scala quadraticamente con la lunghezza della sequenza; Focus riduce questo costo.
Focus è componibile e può essere adattato a qualsiasi modello pre-addestrato.
Il metodo apprende quali coppie di token sono importanti per un'attenzione efficiente.

Entità

—

Fonti

arXiv cs.AI — 2026-04-30