Il co-design hardware-software accelera i modelli fondamentali multimodali
Un approccio innovativo per migliorare i modelli fondamentali multimodali (MFM) integra il co-design dei blocchi transformer sia a livello hardware che software con un pipeline di ottimizzazione volto a minimizzare le richieste di memoria e computazione. Questa strategia comprende il fine-tuning specifico per dominio, la quantizzazione mista a precisione che considera la gerarchia, il pruning strutturale, la decodifica speculativa e il cascading di modelli con autotest leggeri. Inoltre, prevede la co-ottimizzazione della lunghezza della sequenza, della risoluzione visiva, dello stride e della fusione di operatori a livello di grafo. I risultati sono presentati in arXiv:2604.21952.
Fatti principali
- La metodologia combina il co-design hardware e software dei blocchi transformer.
- Utilizza quantizzazione mista a precisione consapevole della gerarchia e pruning strutturale.
- Impiega decodifica speculativa e cascading di modelli con autotest leggeri.
- Co-ottimizza lunghezza della sequenza, risoluzione visiva, stride e fusione di operatori a livello di grafo.
- Pubblicato su arXiv con ID 2604.21952.
- Si concentra sull'accelerazione dei modelli fondamentali multimodali (MFM).
- Include fine-tuning per l'adattamento a domini specifici.
- Riduce i requisiti computazionali e di memoria.
Entità
Istituzioni
- arXiv