ARTFEED — Contemporary Art Intelligence

OmniRefine: Compressione senza addestramento per Omni-LLM

ai-technology · 2026-05-13

OmniRefine è un framework a due stadi che non richiede addestramento e si concentra sulla compressione efficiente dei token audiovisivi nei modelli linguistici di grandi dimensioni omnimodali (Omni-LLM). Affronta i significativi costi di inferenza associati a flussi video lunghi e sequenze audio dense, garantendo l'allineamento cross-modale. La fase iniziale, Raffinamento a Chunk con Conservazione della Corrispondenza, utilizza la similarità frame-audio e la programmazione dinamica per creare unità cross-modali coerenti a partire dai confini nativi dei chunk. La fase successiva, Compressione Cooperativa Modality-Aware, comprime simultaneamente i token video e audio. Questo approccio mira a migliorare l'efficienza dell'inferenza preservando le prestazioni, affrontando le sfide poste dalle unità di compressione fisse o native che possono ostacolare il ragionamento audio-video.

Fatti principali

  • 1. OmniRefine è un framework a due stadi senza addestramento.
  • 2. Comprime i token audiovisivi negli Omni-LLM.
  • 3. Primo stadio: Raffinamento a Chunk con Conservazione della Corrispondenza.
  • 4. Secondo stadio: Compressione Cooperativa Modality-Aware.
  • 5. Utilizza similarità frame-audio e programmazione dinamica.
  • 6. Mira a ridurre il costo di inferenza per video lunghi e audio denso.
  • 7. Preserva la corrispondenza cross-modale.
  • 8. Pubblicato su arXiv con ID 2605.12056.

Entità

Istituzioni

  • arXiv

Fonti