Il Metodo DASH Riduce i Costi Computazionali per i Modelli di Intelligenza Artificiale a Lungo Contesto
Una nuova politica senza addestramento chiamata Delta Attention Selective Halting (DASH) affronta i colli di bottiglia computazionali nei Large Language Models (LLM) e nei Large Multimodal Models (LMM) durante il prefilling a lungo contesto. Il metodo monitora le dinamiche di aggiornamento strato per strato nei meccanismi di self-attention per identificare i token che hanno raggiunto punti di fissazione semantica, rendendo ulteriori elaborazioni ridondanti. Arrestando selettivamente i token stabilizzati, DASH mantiene la compatibilità con kernel efficienti per l'hardware come FlashAttention, garantendo al contempo significativi miglioramenti nella velocità di prefilling. Una valutazione approfondita dimostra che l'approccio si generalizza su benchmark sia linguistici che visivi senza compromettere l'accuratezza del modello. Il codice per questa ricerca sarà reso disponibile pubblicamente tramite un repository online. Il lavoro è stato pubblicato su arXiv, una piattaforma per preprint scientifici, nelle categorie informatica e intelligenza artificiale.
Fatti principali
- DASH è una politica senza addestramento per un prefilling efficiente a lungo contesto
- Monitora le dinamiche di aggiornamento della self-attention per identificare token ridondanti
- Il metodo funziona con Large Language Models e Large Multimodal Models
- DASH mantiene la compatibilità con i kernel FlashAttention
- Garantisce significativi miglioramenti nella velocità di prefilling preservando l'accuratezza
- L'approccio si generalizza su benchmark linguistici e visivi
- Il codice sarà rilasciato pubblicamente
- La ricerca è stata pubblicata su arXiv nelle categorie informatica/intelligenza artificiale
Entità
Istituzioni
- arXiv