Il Metodo DASH Riduce i Costi Computazionali per i Modelli di Intelligenza Artificiale a Lungo Contesto

ai-technology · 2026-04-22

Una nuova politica senza addestramento chiamata Delta Attention Selective Halting (DASH) affronta i colli di bottiglia computazionali nei Large Language Models (LLM) e nei Large Multimodal Models (LMM) durante il prefilling a lungo contesto. Il metodo monitora le dinamiche di aggiornamento strato per strato nei meccanismi di self-attention per identificare i token che hanno raggiunto punti di fissazione semantica, rendendo ulteriori elaborazioni ridondanti. Arrestando selettivamente i token stabilizzati, DASH mantiene la compatibilità con kernel efficienti per l'hardware come FlashAttention, garantendo al contempo significativi miglioramenti nella velocità di prefilling. Una valutazione approfondita dimostra che l'approccio si generalizza su benchmark sia linguistici che visivi senza compromettere l'accuratezza del modello. Il codice per questa ricerca sarà reso disponibile pubblicamente tramite un repository online. Il lavoro è stato pubblicato su arXiv, una piattaforma per preprint scientifici, nelle categorie informatica e intelligenza artificiale.

Fatti principali

DASH è una politica senza addestramento per un prefilling efficiente a lungo contesto
Monitora le dinamiche di aggiornamento della self-attention per identificare token ridondanti
Il metodo funziona con Large Language Models e Large Multimodal Models
DASH mantiene la compatibilità con i kernel FlashAttention
Garantisce significativi miglioramenti nella velocità di prefilling preservando l'accuratezza
L'approccio si generalizza su benchmark linguistici e visivi
Il codice sarà rilasciato pubblicamente
La ricerca è stata pubblicata su arXiv nelle categorie informatica/intelligenza artificiale

Il Metodo DASH Riduce i Costi Computazionali per i Modelli di Intelligenza Artificiale a Lungo Contesto

Fatti principali

Entità

Istituzioni

Fonti