OmniDrop: Potatura dei Token a Livello di Layer per Modelli Linguistici Omni-modali tramite Guida alle Query

ai-technology · 2026-05-16

È stato introdotto un nuovo framework per la potatura dei token, chiamato OmniDrop, per modelli linguistici grandi omni-modali. Questa tecnica pota sistematicamente i token audiovisivi all'interno dei layer del decoder del LLM anziché in fase di input, affrontando il problema della proliferazione dei token derivante da dati audio e video ad alta risoluzione. Utilizzando query testuali come guida, consente una potatura agnostica rispetto alla modalità e adattiva al compito, garantendo che i layer iniziali mantengano un'adeguata fusione delle informazioni omni-modali prima che una potatura più aggressiva dei token avvenga nei layer più profondi. Questa strategia mira a superare le carenze dei metodi attuali che si basano sulla similarità audio-video o sulla co-occorrenza temporale. I risultati sono pubblicati nell'articolo arXiv 2605.14458.

Fatti principali

OmniDrop è un framework di potatura dei token a livello di layer, senza addestramento.
Pota i token audiovisivi all'interno dei layer del decoder del LLM, non a livello di input.
Le query testuali guidano una potatura agnostica rispetto alla modalità e adattiva al compito.
Affronta l'esplosione di token derivante da input audio e video ad alta risoluzione.
Progettato per applicazioni in tempo reale e ragionamento a lungo termine.
Proposto nell'articolo arXiv 2605.14458.
Supera le assunzioni inaffidabili dei metodi esistenti di compressione dei token omni-modali.
I layer iniziali preservano la fusione delle informazioni omni-modali prima della potatura nei layer più profondi.

OmniDrop: Potatura dei Token a Livello di Layer per Modelli Linguistici Omni-modali tramite Guida alle Query

Fatti principali

Entità

Istituzioni

Fonti