Sparsità del Contesto nei LLM: Illusione o Opportunità?
Un recente articolo su arXiv (2605.24168) sostiene che le limitazioni in termini di potenza computazionale e memoria associate ai meccanismi di attenzione dei LLM siano sia artificiali che evitabili. I ricercatori propongono un approccio altamente sparso lungo la dimensione del contesto. Sostengono che l'attenzione densa sia impraticabile perché una query trasmette O(N) dati di attenzione in una dimensione nascosta d << N, con conseguente perdita inevitabile di informazioni. La loro argomentazione è supportata da dati empirici provenienti da 20 modelli appartenenti a cinque diverse famiglie, con variazioni nelle lunghezze del contesto e nei parametri. Lo studio si concentra sul miglioramento dell'efficienza durante il tempo di inferenza attraverso la sparsità del contesto, in particolare per contesti estesi e interazioni agentiche.
Fatti principali
- Titolo dell'articolo: Inference Time Context Sparsity: Illusion or Opportunity?
- ID arXiv: 2605.24168
- Tipo di annuncio: nuovo
- Posizione: i vincoli sull'attenzione sono artificiali e non necessari
- Propone una sparsità estrema ma basata su principi lungo la dimensione del contesto
- Studio empirico copre 20 modelli in cinque famiglie di modelli
- Focus sulla sparsità del contesto al tempo di inferenza per l'efficienza dei LLM
Entità
Istituzioni
- arXiv