Il co-design hardware-software accelera i modelli fondamentali multimodali

ai-technology · 2026-04-27

Un approccio innovativo per migliorare i modelli fondamentali multimodali (MFM) integra il co-design dei blocchi transformer sia a livello hardware che software con un pipeline di ottimizzazione volto a minimizzare le richieste di memoria e computazione. Questa strategia comprende il fine-tuning specifico per dominio, la quantizzazione mista a precisione che considera la gerarchia, il pruning strutturale, la decodifica speculativa e il cascading di modelli con autotest leggeri. Inoltre, prevede la co-ottimizzazione della lunghezza della sequenza, della risoluzione visiva, dello stride e della fusione di operatori a livello di grafo. I risultati sono presentati in arXiv:2604.21952.

Fatti principali

La metodologia combina il co-design hardware e software dei blocchi transformer.
Utilizza quantizzazione mista a precisione consapevole della gerarchia e pruning strutturale.
Impiega decodifica speculativa e cascading di modelli con autotest leggeri.
Co-ottimizza lunghezza della sequenza, risoluzione visiva, stride e fusione di operatori a livello di grafo.
Pubblicato su arXiv con ID 2604.21952.
Si concentra sull'accelerazione dei modelli fondamentali multimodali (MFM).
Include fine-tuning per l'adattamento a domini specifici.
Riduce i requisiti computazionali e di memoria.

Il co-design hardware-software accelera i modelli fondamentali multimodali

Fatti principali

Entità

Istituzioni

Fonti