VideoSEAL: Disaccoppiare l'Autorità delle Risposte per Risolvere il Disallineamento delle Prove nel QA su Video Lunghi
I ricercatori propongono VideoSEAL, un framework che affronta il disallineamento delle prove nella comprensione agentica di video lunghi, dove i modelli producono risposte corrette non supportate dalle prove recuperate. Due diagnostiche—fondatezza temporale e semantica—rivelano la pressione del prompt dovuta alla saturazione del contesto condiviso e la pressione della ricompensa dovuta all'ottimizzazione basata solo sul risultato come cause principali. Il paradigma disaccoppiato planner-ispettore separa la pianificazione a lungo termine dall'autorità delle risposte.
Fatti principali
- 1. arXiv:2605.12571
- 2. Il QA su video lunghi richiede di localizzare prove visive sparse e distribuite nel tempo
- 3. Gli attuali MLLM funzionano bene su video brevi ma hanno difficoltà con video lunghi
- 4. Disallineamento delle prove: risposte corrette non supportate dalle prove recuperate
- 5. Due diagnostiche: fondatezza temporale e fondatezza semantica
- 6. Pressione del prompt dovuta alla saturazione del contesto condiviso in fase di inferenza
- 7. Pressione della ricompensa dovuta all'ottimizzazione basata solo sul risultato durante l'addestramento
- 8. Proposto framework disaccoppiato planner-ispettore
Entità
Istituzioni
- arXiv