ARTFEED — Contemporary Art Intelligence

Il co-design hardware-software accelera i modelli fondamentali multimodali

ai-technology · 2026-04-27

Un approccio innovativo per migliorare i modelli fondamentali multimodali (MFM) integra il co-design dei blocchi transformer sia a livello hardware che software con un pipeline di ottimizzazione volto a minimizzare le richieste di memoria e computazione. Questa strategia comprende il fine-tuning specifico per dominio, la quantizzazione mista a precisione che considera la gerarchia, il pruning strutturale, la decodifica speculativa e il cascading di modelli con autotest leggeri. Inoltre, prevede la co-ottimizzazione della lunghezza della sequenza, della risoluzione visiva, dello stride e della fusione di operatori a livello di grafo. I risultati sono presentati in arXiv:2604.21952.

Fatti principali

  • La metodologia combina il co-design hardware e software dei blocchi transformer.
  • Utilizza quantizzazione mista a precisione consapevole della gerarchia e pruning strutturale.
  • Impiega decodifica speculativa e cascading di modelli con autotest leggeri.
  • Co-ottimizza lunghezza della sequenza, risoluzione visiva, stride e fusione di operatori a livello di grafo.
  • Pubblicato su arXiv con ID 2604.21952.
  • Si concentra sull'accelerazione dei modelli fondamentali multimodali (MFM).
  • Include fine-tuning per l'adattamento a domini specifici.
  • Riduce i requisiti computazionali e di memoria.

Entità

Istituzioni

  • arXiv

Fonti