EgoCoT-Bench: Nuovo Benchmark per il Ragionamento Video Egocentrico negli MLLM

other · 2026-05-20

I ricercatori hanno introdotto EgoCoT-Bench, un benchmark progettato per valutare i Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM) nella comprensione video egocentrica. Il benchmark si concentra sul ragionamento operativo a grana fine, richiedendo ai modelli di riconoscere le interazioni mano-oggetto, tracciare i cambiamenti di stato degli oggetti e ragionare sui processi manipolativi da una prospettiva in prima persona. EgoCoT-Bench affronta la mancanza di valutazione del ragionamento fondato nei benchmark esistenti fornendo annotazioni esplicite passo-passo del ragionamento. Comprende 3.172 coppie QA verificabili su 351 video egocentrici, organizzati in quattro gruppi di attività. Il lavoro è dettagliato in un articolo su arXiv (2605.19559).

Fatti principali

EgoCoT-Bench è un nuovo benchmark per la comprensione video egocentrica.
Si concentra sul ragionamento operativo negli MLLM.
Include 3.172 coppie QA verificabili su 351 video.
I video sono suddivisi in quattro gruppi di attività.
Fornisce annotazioni esplicite passo-passo del ragionamento.
Affronta la limitata valutazione del ragionamento fondato nei benchmark esistenti.
Si concentra sulle interazioni mano-oggetto a grana fine e sui cambiamenti di stato degli oggetti.
Pubblicato su arXiv con ID 2605.19559.

EgoCoT-Bench: Nuovo Benchmark per il Ragionamento Video Egocentrico negli MLLM

Fatti principali

Entità

Istituzioni

Fonti