MLLM sanno quando prima di parlare: Ancoraggio temporale tramite segnali di attenzione
Un nuovo studio da arXiv rivela che i modelli linguistici multimodali di grandi dimensioni (MLLM) spesso identificano l'intervallo temporale corretto per gli eventi video durante la fase di prefill, ma perdono questo segnale durante la generazione della risposta. I ricercatori hanno scoperto un insieme sparso di teste di attenzione, chiamate Teste di Ancoraggio Temporale (TG-Heads), che concentrano l'attenzione query-video sugli intervalli reali. Questo divario percezione-generazione spiega perché gli MLLM descrivono fluentemente il contenuto video ma producono previsioni di timestamp inaffidabili. I rimedi esistenti richiedono un costoso post-addestramento o euristiche grossolane. Il lavoro propone di recuperare l'ancoraggio temporale sfruttando i segnali di attenzione delle TG-Heads, offrendo un metodo senza addestramento per migliorare le prestazioni di ancoraggio temporale video (VTG).
Fatti principali
- Studio pubblicato su arXiv con ID 2605.21954
- Si concentra sull'ancoraggio temporale video (VTG) negli MLLM
- Identifica un divario percezione-generazione negli MLLM
- Scopre le Teste di Ancoraggio Temporale (TG-Heads) nella fase di prefill
- Le TG-Heads concentrano l'attenzione sugli intervalli reali
- I token di risposta spostano l'attenzione durante la decodifica autoregressiva
- I rimedi esistenti sono costosi o grossolani
- Propone un metodo senza addestramento che utilizza segnali di attenzione
Entità
Istituzioni
- arXiv