EgoPro-Bench: Benchmarking dell'IA Proattiva in Video Egocentrici
EgoPro-Bench è stato lanciato da ricercatori come un nuovo benchmark volto a formare e valutare le capacità di interazione proattiva dei Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM) attraverso l'uso di video egocentrici in streaming. Questo benchmark supera le carenze degli attuali MLLM, che tendono ad essere reattivi e non monitorano costantemente l'ambiente circostante né offrono supporto proattivo all'utente. A differenza dei benchmark precedenti, che si concentrano esclusivamente su situazioni di allerta e trascurano i contesti personalizzati, EgoPro-Bench utilizza profili utente simulati per creare una varietà di intenzioni utente e generare dati di interazione uomo-macchina (HMI) di alta qualità in 12 domini distinti. Il dataset di valutazione contiene 2.400 video, mentre il dataset di addestramento ha oltre 12.000 video. Inoltre, i ricercatori introducono un protocollo di valutazione e metriche su misura, insieme a modelli di interazione proattiva che enfatizzano il ragionamento efficiente e le risposte rapide. Questa ricerca è documentata in un articolo disponibile su arXiv (2605.07299).
Fatti principali
- EgoPro-Bench è un benchmark per l'interazione proattiva in flussi video egocentrici.
- Include 2.400 video di valutazione e oltre 12.000 video di addestramento.
- Il benchmark copre 12 domini distinti utilizzando profili utente simulati.
- Gli attuali MLLM sono principalmente reattivi e non riescono ad assistere proattivamente gli utenti.
- I benchmark precedenti sono limitati a scenari di allerta e trascurano il contesto personalizzato.
- Il benchmark mira a valutare la tempistica precisa delle interazioni uomo-macchina.
- I modelli sono addestrati per un ragionamento efficiente e un'interazione a bassa latenza.
- L'articolo è disponibile su arXiv con ID 2605.07299.
Entità
Istituzioni
- arXiv