VISTA: Anticipatore Integrato V-JEPA per la Sfida Ego4D STA
Un nuovo rapporto tecnico ha svelato VISTA, un modello creato per la Ego4D Short-Term Object Interaction Anticipation Challenge a EgoVis 2026. Questa competizione mira a prevedere le interazioni uomo-oggetto valutando filmati video egocentrici. I concorrenti devono presentare previsioni che consistono in bounding box per gli oggetti, le rispettive categorie di sostantivo e verbo, stime del tempo di contatto e livelli di confidenza. VISTA adotta un framework simile a StillFast, integrando il rilevamento spaziale con l'analisi temporale a breve termine. Il modello utilizza un Faster R-CNN ResNet-50 FPN addestrato su COCO per il rilevamento degli oggetti e include un componente temporale V-JEPA 2.1 congelato per una migliore comprensione contestuale.
Fatti principali
- 1. VISTA è proposto per la Ego4D STA Challenge a EgoVis 2026.
- 2. Il compito anticipa la prossima interazione uomo-oggetto da video egocentrico.
- 3. L'output include bounding box, sostantivo, verbo, tempo di contatto e confidenza.
- 4. VISTA utilizza un design in stile StillFast che combina rilevamento spaziale e contesto temporale.
- 5. Le proposte di oggetti provengono da un rilevatore Faster R-CNN ResNet-50 FPN pre-addestrato su COCO.
- 6. Il contesto temporale è estratto da un ramo V-JEPA 2.1 congelato.
- 7. La rappresentazione temporale è fusa tramite modulazione delle caratteristiche e fusione del contesto a livello ROI.
- 8. Le caratteristiche fuse vengono passate a predittori STA multi-testa.
Entità
Istituzioni
- Ego4D
- EgoVis