ARTFEED — Contemporary Art Intelligence

MLLM sanno quando prima di parlare: Ancoraggio temporale tramite segnali di attenzione

ai-technology · 2026-05-23

Un nuovo studio da arXiv rivela che i modelli linguistici multimodali di grandi dimensioni (MLLM) spesso identificano l'intervallo temporale corretto per gli eventi video durante la fase di prefill, ma perdono questo segnale durante la generazione della risposta. I ricercatori hanno scoperto un insieme sparso di teste di attenzione, chiamate Teste di Ancoraggio Temporale (TG-Heads), che concentrano l'attenzione query-video sugli intervalli reali. Questo divario percezione-generazione spiega perché gli MLLM descrivono fluentemente il contenuto video ma producono previsioni di timestamp inaffidabili. I rimedi esistenti richiedono un costoso post-addestramento o euristiche grossolane. Il lavoro propone di recuperare l'ancoraggio temporale sfruttando i segnali di attenzione delle TG-Heads, offrendo un metodo senza addestramento per migliorare le prestazioni di ancoraggio temporale video (VTG).

Fatti principali

  • Studio pubblicato su arXiv con ID 2605.21954
  • Si concentra sull'ancoraggio temporale video (VTG) negli MLLM
  • Identifica un divario percezione-generazione negli MLLM
  • Scopre le Teste di Ancoraggio Temporale (TG-Heads) nella fase di prefill
  • Le TG-Heads concentrano l'attenzione sugli intervalli reali
  • I token di risposta spostano l'attenzione durante la decodifica autoregressiva
  • I rimedi esistenti sono costosi o grossolani
  • Propone un metodo senza addestramento che utilizza segnali di attenzione

Entità

Istituzioni

  • arXiv

Fonti