VISTA: Anticipatore Integrato V-JEPA per la Sfida Ego4D STA

ai-technology · 2026-05-22

Un nuovo rapporto tecnico ha svelato VISTA, un modello creato per la Ego4D Short-Term Object Interaction Anticipation Challenge a EgoVis 2026. Questa competizione mira a prevedere le interazioni uomo-oggetto valutando filmati video egocentrici. I concorrenti devono presentare previsioni che consistono in bounding box per gli oggetti, le rispettive categorie di sostantivo e verbo, stime del tempo di contatto e livelli di confidenza. VISTA adotta un framework simile a StillFast, integrando il rilevamento spaziale con l'analisi temporale a breve termine. Il modello utilizza un Faster R-CNN ResNet-50 FPN addestrato su COCO per il rilevamento degli oggetti e include un componente temporale V-JEPA 2.1 congelato per una migliore comprensione contestuale.

Fatti principali

1. VISTA è proposto per la Ego4D STA Challenge a EgoVis 2026.
2. Il compito anticipa la prossima interazione uomo-oggetto da video egocentrico.
3. L'output include bounding box, sostantivo, verbo, tempo di contatto e confidenza.
4. VISTA utilizza un design in stile StillFast che combina rilevamento spaziale e contesto temporale.
5. Le proposte di oggetti provengono da un rilevatore Faster R-CNN ResNet-50 FPN pre-addestrato su COCO.
6. Il contesto temporale è estratto da un ramo V-JEPA 2.1 congelato.
7. La rappresentazione temporale è fusa tramite modulazione delle caratteristiche e fusione del contesto a livello ROI.
8. Le caratteristiche fuse vengono passate a predittori STA multi-testa.

VISTA: Anticipatore Integrato V-JEPA per la Sfida Ego4D STA

Fatti principali

Entità

Istituzioni

Fonti