STAR: Apprendimento Adattivo Semantico-Temporale per il Riconoscimento di Azioni con Pochi Esempi

ai-technology · 2026-05-14

Un nuovo framework chiamato Semantic Temporal Adaptive Representation Learning (STAR) affronta il riconoscimento di azioni con pochi esempi (FSAR) risolvendo il disallineamento semantico-temporale e le dinamiche temporali multi-scala. STAR integra un componente di allineamento semantico con un meccanismo di Attenzione Semantica Temporale (TSA) e un componente temporale che adatta la modellazione sequenziale di Mamba per FSAR. L'approccio mira a migliorare la generalizzazione a nuove categorie di azioni a partire da campioni annotati limitati, superando le limitazioni dei modelli visione-linguaggio esistenti che si basano su prompt testuali statici e modellano inadeguatamente le dipendenze a breve e lungo termine. Il lavoro è pubblicato su arXiv con identificativo 2605.13202.

Fatti principali

STAR è un framework unificato per il riconoscimento di azioni con pochi esempi.
Affronta il disallineamento semantico-temporale nei modelli visione-linguaggio.
Il framework include un componente di allineamento semantico con Attenzione Semantica Temporale (TSA).
Adatta la capacità di modellazione sequenziale di Mamba per FSAR.
L'approccio si concentra sulle dinamiche temporali multi-scala, incluse le dipendenze a breve e lungo termine.
L'articolo è disponibile su arXiv con ID 2605.13202.
Il metodo mira a generalizzare a nuove categorie di azioni a partire da pochi campioni.
Gli approcci esistenti soffrono di eccessivo smoothing o frammentazione degli indizi temporali.

STAR: Apprendimento Adattivo Semantico-Temporale per il Riconoscimento di Azioni con Pochi Esempi

Fatti principali

Entità

Istituzioni

Fonti