VideoSEAL: Disaccoppiare l'Autorità delle Risposte per Risolvere il Disallineamento delle Prove nel QA su Video Lunghi

ai-technology · 2026-05-14

I ricercatori propongono VideoSEAL, un framework che affronta il disallineamento delle prove nella comprensione agentica di video lunghi, dove i modelli producono risposte corrette non supportate dalle prove recuperate. Due diagnostiche—fondatezza temporale e semantica—rivelano la pressione del prompt dovuta alla saturazione del contesto condiviso e la pressione della ricompensa dovuta all'ottimizzazione basata solo sul risultato come cause principali. Il paradigma disaccoppiato planner-ispettore separa la pianificazione a lungo termine dall'autorità delle risposte.

Fatti principali

1. arXiv:2605.12571
2. Il QA su video lunghi richiede di localizzare prove visive sparse e distribuite nel tempo
3. Gli attuali MLLM funzionano bene su video brevi ma hanno difficoltà con video lunghi
4. Disallineamento delle prove: risposte corrette non supportate dalle prove recuperate
5. Due diagnostiche: fondatezza temporale e fondatezza semantica
6. Pressione del prompt dovuta alla saturazione del contesto condiviso in fase di inferenza
7. Pressione della ricompensa dovuta all'ottimizzazione basata solo sul risultato durante l'addestramento
8. Proposto framework disaccoppiato planner-ispettore

VideoSEAL: Disaccoppiare l'Autorità delle Risposte per Risolvere il Disallineamento delle Prove nel QA su Video Lunghi

Fatti principali

Entità

Istituzioni

Fonti