Il Framework HalfV Accelera l'Inferenza dei Modelli Linguistici Multimodali Affrontando la Ridondanza Visiva
Un nuovo framework denominato HalfV è stato introdotto per migliorare la velocità di inferenza nei Modelli Linguistici Multimodali (MLLM) ad alta risoluzione, che spesso comportano costi computazionali elevati a causa dell'esplosione dei token visivi. Lo studio, disponibile su arXiv con l'identificatore 2604.16462v1, presenta un metodo innovativo per separare la ridondanza visiva in due parti: la ridondanza visiva intrinseca universale (IVR) e la ridondanza di saturazione secondaria specifica dell'architettura (SSR). Questa intuizione è stata ottenuta attraverso l'analisi dell'entropia della matrice troncata, rivelando un ciclo di vita di inferenza universale in tre fasi attraverso varie architetture di modelli. A differenza dei metodi esistenti come la potatura dei token, che soffrono di una significativa "dipendenza dall'architettura di base", HalfV riduce efficacemente l'IVR tramite una tecnica di potatura unificata e si adatta alla SSR in base alle sue caratteristiche uniche in ciascuna architettura. I risultati sperimentali indicano che HalfV offre migliori compromessi tra efficienza e prestazioni rispetto agli approcci precedenti, affrontando una sfida cruciale nella distribuzione degli MLLM con un'accelerazione consapevole dell'architettura che preserva le prestazioni attraverso diverse architetture di base.
Fatti principali
- I Modelli Linguistici Multimodali ad alta risoluzione affrontano costi computazionali proibitivi durante l'inferenza
- L'esplosione dei token visivi crea sfide di efficienza per gli MLLM
- Le strategie di accelerazione esistenti soffrono di problemi di "dipendenza dall'architettura di base"
- L'analisi dell'entropia della matrice troncata ha rivelato un ciclo di vita di inferenza universale in tre fasi
- La ridondanza visiva può essere scomposta in ridondanza visiva intrinseca e ridondanza di saturazione secondaria
- Il framework HalfV utilizza la potatura unificata per l'IVR e la gestione adattiva per la SSR
- Gli esperimenti mostrano che HalfV raggiunge migliori compromessi tra efficienza e prestazioni
- La ricerca affronta il degrado delle prestazioni quando si trasferiscono metodi di accelerazione tra diverse architetture
Entità
Istituzioni
- arXiv