Nuova ricerca propone la compressione sequenziale per ridurre i colli di bottiglia della memoria nei modelli AI multimodali
Un recente studio tecnico affronta il problema dell'utilizzo della memoria nei modelli linguistici multimodali di grandi dimensioni (MLLM) che elaborano input visivi come immagini ad alta risoluzione e video lunghi. Questi modelli incontrano limitazioni significative durante l'inferenza a causa della memorizzazione di numerosi token visivi nelle cache chiave-valore. I metodi esistenti comprimono i token visivi ridondanti solo dopo che tutti gli input sono stati elaborati, determinando un elevato utilizzo di memoria di picco durante la fase di prefilling. La ricerca rivela che gli MLLM possiedono regolarità strutturali e ridondanze rappresentative che possono essere utilizzate per controllare la crescita della memoria durante l'inferenza. Gli autori suggeriscono una tecnica di compressione sequenziale degli input che mantiene un budget di memoria fisso, con l'obiettivo di gestire l'espansione della memoria fin dall'inizio. Questo lavoro sottolinea l'aumento dei requisiti di memoria quando si scala verso rappresentazioni visive più ricche, evidenziando l'importanza di una gestione efficiente della cache per le applicazioni pratiche. Il documento è stato sottoposto in cross-submission su arXiv con l'identificatore 2604.16734v1.
Fatti principali
- I modelli linguistici multimodali di grandi dimensioni (MLLM) dimostrano capacità avanzate con input visivi come immagini ad alta risoluzione e sequenze video
- L'inferenza in questi modelli si basa sulla memorizzazione di grandi quantità di token visivi nelle cache chiave-valore (KV)
- Il consumo di memoria è diventato un collo di bottiglia centrale man mano che i modelli si evolvono verso rappresentazioni visive più ricche
- I metodi esistenti comprimono i token visivi ridondanti solo dopo aver elaborato tutti gli input
- Gli approcci attuali determinano un elevato utilizzo di memoria di picco durante la fase di prefilling
- Gli MLLM presentano regolarità strutturali intrinseche e ridondanza rappresentativa
- La ricerca propone un meccanismo di compressione sequenziale degli input che impone un budget di memoria fisso
- Il documento è disponibile su arXiv con l'identificatore 2604.16734v1 e tipo di annuncio cross
Entità
Istituzioni
- arXiv