ARTFEED — Contemporary Art Intelligence

DASH: Ricerca Differenziabile Veloce per Attenzione Ibrida nei LLM

ai-technology · 2026-05-22

DASH, un innovativo e rapido framework di ricerca differenziabile, è stato sviluppato per progettare architetture di attenzione ibrida nei modelli linguistici di grandi dimensioni (LLM). Queste architetture ibride, che integrano vari meccanismi di attenzione, sono cruciali per migliorare l'efficienza dell'inferenza senza compromettere la qualità del modello. Gli approcci attuali spesso si basano su linee guida manuali o selettori proxy, mentre metodi recenti di tipo NAS come Jet-Nemotron richiedono 200 miliardi di token per i loro processi di ricerca, rendendoli poco pratici per l'uso quotidiano. DASH trasforma il posizionamento discreto degli operatori di attenzione in logit di architettura continui, genera candidati lineari riutilizzabili allineati all'insegnante e conduce ricerche solo sull'architettura utilizzando pesi fissi del modello e degli operatori, riducendo così significativamente i costi computazionali. Questo framework consente ricerche di architettura ibrida in pochi minuti su una singola GPU, promuovendo un'adozione più ampia e affrontando una sfida chiave nella progettazione di LLM automatizzando la distribuzione degli operatori di attenzione tra i livelli.

Fatti principali

  • DASH è un framework di ricerca differenziabile veloce per la progettazione di architetture di attenzione ibrida.
  • Le architetture di attenzione ibrida migliorano l'efficienza dell'inferenza dei LLM preservando la qualità del modello.
  • I progetti esistenti si basano su regole manuali o selettori basati su proxy.
  • La ricerca PostNAS di Jet-Nemotron utilizza 200 miliardi di token.
  • DASH rilassa il posizionamento discreto degli operatori in logit di architettura continui.
  • DASH prepara candidati lineari riutilizzabili allineati all'insegnante.
  • DASH esegue una ricerca solo sull'architettura con pesi congelati del modello e degli operatori.
  • DASH consente la ricerca in pochi minuti su una singola GPU.

Entità

Fonti