EgoCoT-Bench: Nuovo Benchmark per il Ragionamento Video Egocentrico negli MLLM
I ricercatori hanno introdotto EgoCoT-Bench, un benchmark progettato per valutare i Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM) nella comprensione video egocentrica. Il benchmark si concentra sul ragionamento operativo a grana fine, richiedendo ai modelli di riconoscere le interazioni mano-oggetto, tracciare i cambiamenti di stato degli oggetti e ragionare sui processi manipolativi da una prospettiva in prima persona. EgoCoT-Bench affronta la mancanza di valutazione del ragionamento fondato nei benchmark esistenti fornendo annotazioni esplicite passo-passo del ragionamento. Comprende 3.172 coppie QA verificabili su 351 video egocentrici, organizzati in quattro gruppi di attività. Il lavoro è dettagliato in un articolo su arXiv (2605.19559).
Fatti principali
- EgoCoT-Bench è un nuovo benchmark per la comprensione video egocentrica.
- Si concentra sul ragionamento operativo negli MLLM.
- Include 3.172 coppie QA verificabili su 351 video.
- I video sono suddivisi in quattro gruppi di attività.
- Fornisce annotazioni esplicite passo-passo del ragionamento.
- Affronta la limitata valutazione del ragionamento fondato nei benchmark esistenti.
- Si concentra sulle interazioni mano-oggetto a grana fine e sui cambiamenti di stato degli oggetti.
- Pubblicato su arXiv con ID 2605.19559.
Entità
Istituzioni
- arXiv