DynFrame: Ragionamento Adattivo per la Comprensione Video

ai-technology · 2026-05-27

Un nuovo framework chiamato DynFrame affronta due lacune strutturali nei modelli linguistici multimodali video di grandi dimensioni (MLLM). In primo luogo, i metodi esistenti utilizzano un frame rate fisso per finestra, richiedendo chiamate di recupero ripetute per prove dettagliate. DynFrame rende la densità di campionamento una decisione apprendibile, emettendo sia la finestra temporale che la densità di campionamento come token nativi. In secondo luogo, il recupero e la generazione di risposte sono tipicamente ottimizzati con un unico vantaggio a livello di traiettoria, confondendo il merito per passaggi corretti e errati. DynFrame li disaccoppia, consentendo un'ottimizzazione più precisa. Il framework è dettagliato nell'articolo arXiv 2605.26680.

Fatti principali

DynFrame è un framework per la comprensione video complessa.
Affronta la densità di campionamento fissa nei MLLM video esistenti.
Rende la finestra temporale e la densità di campionamento decisioni apprendibili.
Disaccoppia l'ottimizzazione del recupero e della generazione di risposte.
L'articolo è su arXiv con ID 2605.26680.
È un annuncio di tipo cross.
Il framework mira a ridurre la lunghezza del contesto di inferenza.
Si concentra sul ragionamento passo-passo con prove visive su richiesta.

DynFrame: Ragionamento Adattivo per la Comprensione Video

Fatti principali

Entità

Istituzioni

Fonti