EgoBabyVLM Benchmark Testa l'Apprendimento Cross-Modale da Video Egocentrici
Un nuovo articolo di ricerca introduce EgoBabyVLM, un benchmark per valutare i modelli visione-linguaggio (VLM) su dati video egocentrici naturalistici. Lo studio rileva che gli attuali VLM addestrati su dati web curati non riescono a generalizzare a flussi sparsi e debolmente allineati provenienti da dispositivi indossabili, agenti incarnati e telecamere per bambini. I ricercatori hanno addestrato VLM su dataset con vari livelli di allineamento semantico, inclusi video egocentrici di bambini e adulti, e li hanno valutati utilizzando una suite completa chiamata Machine-DevBench. Questo benchmark genera automaticamente test di competenza lessicale e grammaticale dal vocabolario di addestramento del modello su scale logaritmiche. Il lavoro evidenzia le limitazioni nell'apprendimento cross-modale e fornisce un pipeline di valutazione standardizzato per questo regime.
Fatti principali
- Articolo intitolato 'EgoBabyVLM: Benchmarking Cross-Modal Learning from Naturalistic Egocentric Video Data'
- Pubblicato su arXiv con ID 2605.19130
- I VLM addestrati su dati web curati non riescono a generalizzare a flussi egocentrici
- Non esisteva un pipeline di valutazione fisso per questo regime
- I dataset includono video egocentrici di bambini e adulti
- Machine-DevBench è la suite di valutazione principale
- Il benchmark è generato automaticamente dal vocabolario di addestramento
- Lo studio affronta l'apprendimento cross-modale da dati sparsi e debolmente allineati
Entità
Istituzioni
- arXiv