ConTrans: Nuova Architettura per il Localizzazione Zero-Shot delle Azioni
Un articolo di ricerca introduce ConTrans, una nuova architettura di codifica multi-scala per il Localizzazione Temporale Zero-Shot delle Azioni (ZS-TAL). Il metodo integra i bias convoluzionali induttivi con l'auto-attenzione dei transformer per catturare sia le dipendenze locali a grana fine che il contesto globale a lungo raggio, affrontando le limitazioni degli approcci esistenti che trascurano le correlazioni locali basate su offset relativi e soffrono di architetture di rete poco profonde. Le valutazioni sperimentali sui dataset ActivityNet-1.3 e THUMOS dimostrano rappresentazioni delle caratteristiche migliorate.
Fatti principali
- ConTrans integra i bias convoluzionali induttivi con l'auto-attenzione dei transformer.
- Cattura dipendenze locali a grana fine e contesto globale a lungo raggio.
- Affronta le limitazioni dei metodi ZS-TAL esistenti che trascurano le correlazioni locali.
- Valutato sui dataset ActivityNet-1.3 e THUMOS.
- Mira a rilevare e localizzare azioni non viste in video non tagliati.
Entità
—