OmniRefine: Compressione senza addestramento per Omni-LLM

ai-technology · 2026-05-13

OmniRefine è un framework a due stadi che non richiede addestramento e si concentra sulla compressione efficiente dei token audiovisivi nei modelli linguistici di grandi dimensioni omnimodali (Omni-LLM). Affronta i significativi costi di inferenza associati a flussi video lunghi e sequenze audio dense, garantendo l'allineamento cross-modale. La fase iniziale, Raffinamento a Chunk con Conservazione della Corrispondenza, utilizza la similarità frame-audio e la programmazione dinamica per creare unità cross-modali coerenti a partire dai confini nativi dei chunk. La fase successiva, Compressione Cooperativa Modality-Aware, comprime simultaneamente i token video e audio. Questo approccio mira a migliorare l'efficienza dell'inferenza preservando le prestazioni, affrontando le sfide poste dalle unità di compressione fisse o native che possono ostacolare il ragionamento audio-video.

Fatti principali

1. OmniRefine è un framework a due stadi senza addestramento.
2. Comprime i token audiovisivi negli Omni-LLM.
3. Primo stadio: Raffinamento a Chunk con Conservazione della Corrispondenza.
4. Secondo stadio: Compressione Cooperativa Modality-Aware.
5. Utilizza similarità frame-audio e programmazione dinamica.
6. Mira a ridurre il costo di inferenza per video lunghi e audio denso.
7. Preserva la corrispondenza cross-modale.
8. Pubblicato su arXiv con ID 2605.12056.

OmniRefine: Compressione senza addestramento per Omni-LLM

Fatti principali

Entità

Istituzioni

Fonti