OmniRefine: Compressione senza addestramento per Omni-LLM
OmniRefine è un framework a due stadi che non richiede addestramento e si concentra sulla compressione efficiente dei token audiovisivi nei modelli linguistici di grandi dimensioni omnimodali (Omni-LLM). Affronta i significativi costi di inferenza associati a flussi video lunghi e sequenze audio dense, garantendo l'allineamento cross-modale. La fase iniziale, Raffinamento a Chunk con Conservazione della Corrispondenza, utilizza la similarità frame-audio e la programmazione dinamica per creare unità cross-modali coerenti a partire dai confini nativi dei chunk. La fase successiva, Compressione Cooperativa Modality-Aware, comprime simultaneamente i token video e audio. Questo approccio mira a migliorare l'efficienza dell'inferenza preservando le prestazioni, affrontando le sfide poste dalle unità di compressione fisse o native che possono ostacolare il ragionamento audio-video.
Fatti principali
- 1. OmniRefine è un framework a due stadi senza addestramento.
- 2. Comprime i token audiovisivi negli Omni-LLM.
- 3. Primo stadio: Raffinamento a Chunk con Conservazione della Corrispondenza.
- 4. Secondo stadio: Compressione Cooperativa Modality-Aware.
- 5. Utilizza similarità frame-audio e programmazione dinamica.
- 6. Mira a ridurre il costo di inferenza per video lunghi e audio denso.
- 7. Preserva la corrispondenza cross-modale.
- 8. Pubblicato su arXiv con ID 2605.12056.
Entità
Istituzioni
- arXiv