OmniDrop: Potatura dei Token a Livello di Layer per Modelli Linguistici Omni-modali tramite Guida alle Query
È stato introdotto un nuovo framework per la potatura dei token, chiamato OmniDrop, per modelli linguistici grandi omni-modali. Questa tecnica pota sistematicamente i token audiovisivi all'interno dei layer del decoder del LLM anziché in fase di input, affrontando il problema della proliferazione dei token derivante da dati audio e video ad alta risoluzione. Utilizzando query testuali come guida, consente una potatura agnostica rispetto alla modalità e adattiva al compito, garantendo che i layer iniziali mantengano un'adeguata fusione delle informazioni omni-modali prima che una potatura più aggressiva dei token avvenga nei layer più profondi. Questa strategia mira a superare le carenze dei metodi attuali che si basano sulla similarità audio-video o sulla co-occorrenza temporale. I risultati sono pubblicati nell'articolo arXiv 2605.14458.
Fatti principali
- OmniDrop è un framework di potatura dei token a livello di layer, senza addestramento.
- Pota i token audiovisivi all'interno dei layer del decoder del LLM, non a livello di input.
- Le query testuali guidano una potatura agnostica rispetto alla modalità e adattiva al compito.
- Affronta l'esplosione di token derivante da input audio e video ad alta risoluzione.
- Progettato per applicazioni in tempo reale e ragionamento a lungo termine.
- Proposto nell'articolo arXiv 2605.14458.
- Supera le assunzioni inaffidabili dei metodi esistenti di compressione dei token omni-modali.
- I layer iniziali preservano la fusione delle informazioni omni-modali prima della potatura nei layer più profondi.
Entità
Istituzioni
- arXiv