Raggiunti Coreset di Attenzione Quasi Ottimali
Un nuovo articolo di informatica dimostra l'esistenza di coreset quasi ottimali per la stima del meccanismo di Attenzione in spazi ridotti. Il risultato mostra che per qualsiasi insieme di chiavi e valori di norma unitaria in ℝ^d, esiste un sottoinsieme di dimensione al massimo O(√d e^{ρ+o(ρ)}/ε) che approssima l'output di attenzione per tutte le query con norma limitata da ρ, superando i lavori precedenti. Viene inoltre fornito un limite inferiore migliorato di Ω(√d e^ρ/ε).
Fatti principali
- Articolo intitolato 'Nearly Optimal Attention Coresets'
- Dimostra l'esistenza di coreset per il meccanismo di Attenzione
- Dimensione del coreset: O(√d e^{ρ+o(ρ)}/ε)
- Funziona per chiavi e valori di norma unitaria in ℝ^d
- Errore di approssimazione ≤ ε per tutte le query con norma ≤ ρ
- Supera i migliori risultati noti
- Limite inferiore migliorato: Ω(√d e^ρ/ε)
- Inviato ad arXiv (2605.05602)
Entità
Istituzioni
- arXiv