MLLM sanno quando prima di parlare: Ancoraggio temporale tramite segnali di attenzione

ai-technology · 2026-05-23

Un nuovo studio da arXiv rivela che i modelli linguistici multimodali di grandi dimensioni (MLLM) spesso identificano l'intervallo temporale corretto per gli eventi video durante la fase di prefill, ma perdono questo segnale durante la generazione della risposta. I ricercatori hanno scoperto un insieme sparso di teste di attenzione, chiamate Teste di Ancoraggio Temporale (TG-Heads), che concentrano l'attenzione query-video sugli intervalli reali. Questo divario percezione-generazione spiega perché gli MLLM descrivono fluentemente il contenuto video ma producono previsioni di timestamp inaffidabili. I rimedi esistenti richiedono un costoso post-addestramento o euristiche grossolane. Il lavoro propone di recuperare l'ancoraggio temporale sfruttando i segnali di attenzione delle TG-Heads, offrendo un metodo senza addestramento per migliorare le prestazioni di ancoraggio temporale video (VTG).

Fatti principali

Studio pubblicato su arXiv con ID 2605.21954
Si concentra sull'ancoraggio temporale video (VTG) negli MLLM
Identifica un divario percezione-generazione negli MLLM
Scopre le Teste di Ancoraggio Temporale (TG-Heads) nella fase di prefill
Le TG-Heads concentrano l'attenzione sugli intervalli reali
I token di risposta spostano l'attenzione durante la decodifica autoregressiva
I rimedi esistenti sono costosi o grossolani
Propone un metodo senza addestramento che utilizza segnali di attenzione

MLLM sanno quando prima di parlare: Ancoraggio temporale tramite segnali di attenzione

Fatti principali

Entità

Istituzioni

Fonti