ARTFEED — Contemporary Art Intelligence

VideoSEAL: Disaccoppiare l'Autorità delle Risposte per Risolvere il Disallineamento delle Prove nel QA su Video Lunghi

ai-technology · 2026-05-14

I ricercatori propongono VideoSEAL, un framework che affronta il disallineamento delle prove nella comprensione agentica di video lunghi, dove i modelli producono risposte corrette non supportate dalle prove recuperate. Due diagnostiche—fondatezza temporale e semantica—rivelano la pressione del prompt dovuta alla saturazione del contesto condiviso e la pressione della ricompensa dovuta all'ottimizzazione basata solo sul risultato come cause principali. Il paradigma disaccoppiato planner-ispettore separa la pianificazione a lungo termine dall'autorità delle risposte.

Fatti principali

  • 1. arXiv:2605.12571
  • 2. Il QA su video lunghi richiede di localizzare prove visive sparse e distribuite nel tempo
  • 3. Gli attuali MLLM funzionano bene su video brevi ma hanno difficoltà con video lunghi
  • 4. Disallineamento delle prove: risposte corrette non supportate dalle prove recuperate
  • 5. Due diagnostiche: fondatezza temporale e fondatezza semantica
  • 6. Pressione del prompt dovuta alla saturazione del contesto condiviso in fase di inferenza
  • 7. Pressione della ricompensa dovuta all'ottimizzazione basata solo sul risultato durante l'addestramento
  • 8. Proposto framework disaccoppiato planner-ispettore

Entità

Istituzioni

  • arXiv

Fonti