STAR: Apprendimento Adattivo Semantico-Temporale per il Riconoscimento di Azioni con Pochi Esempi
Un nuovo framework chiamato Semantic Temporal Adaptive Representation Learning (STAR) affronta il riconoscimento di azioni con pochi esempi (FSAR) risolvendo il disallineamento semantico-temporale e le dinamiche temporali multi-scala. STAR integra un componente di allineamento semantico con un meccanismo di Attenzione Semantica Temporale (TSA) e un componente temporale che adatta la modellazione sequenziale di Mamba per FSAR. L'approccio mira a migliorare la generalizzazione a nuove categorie di azioni a partire da campioni annotati limitati, superando le limitazioni dei modelli visione-linguaggio esistenti che si basano su prompt testuali statici e modellano inadeguatamente le dipendenze a breve e lungo termine. Il lavoro è pubblicato su arXiv con identificativo 2605.13202.
Fatti principali
- STAR è un framework unificato per il riconoscimento di azioni con pochi esempi.
- Affronta il disallineamento semantico-temporale nei modelli visione-linguaggio.
- Il framework include un componente di allineamento semantico con Attenzione Semantica Temporale (TSA).
- Adatta la capacità di modellazione sequenziale di Mamba per FSAR.
- L'approccio si concentra sulle dinamiche temporali multi-scala, incluse le dipendenze a breve e lungo termine.
- L'articolo è disponibile su arXiv con ID 2605.13202.
- Il metodo mira a generalizzare a nuove categorie di azioni a partire da pochi campioni.
- Gli approcci esistenti soffrono di eccessivo smoothing o frammentazione degli indizi temporali.
Entità
Istituzioni
- arXiv