ARTFEED — Contemporary Art Intelligence

STAR: Apprendimento Adattivo Semantico-Temporale per il Riconoscimento di Azioni con Pochi Esempi

ai-technology · 2026-05-14

Un nuovo framework chiamato Semantic Temporal Adaptive Representation Learning (STAR) affronta il riconoscimento di azioni con pochi esempi (FSAR) risolvendo il disallineamento semantico-temporale e le dinamiche temporali multi-scala. STAR integra un componente di allineamento semantico con un meccanismo di Attenzione Semantica Temporale (TSA) e un componente temporale che adatta la modellazione sequenziale di Mamba per FSAR. L'approccio mira a migliorare la generalizzazione a nuove categorie di azioni a partire da campioni annotati limitati, superando le limitazioni dei modelli visione-linguaggio esistenti che si basano su prompt testuali statici e modellano inadeguatamente le dipendenze a breve e lungo termine. Il lavoro è pubblicato su arXiv con identificativo 2605.13202.

Fatti principali

  • STAR è un framework unificato per il riconoscimento di azioni con pochi esempi.
  • Affronta il disallineamento semantico-temporale nei modelli visione-linguaggio.
  • Il framework include un componente di allineamento semantico con Attenzione Semantica Temporale (TSA).
  • Adatta la capacità di modellazione sequenziale di Mamba per FSAR.
  • L'approccio si concentra sulle dinamiche temporali multi-scala, incluse le dipendenze a breve e lungo termine.
  • L'articolo è disponibile su arXiv con ID 2605.13202.
  • Il metodo mira a generalizzare a nuove categorie di azioni a partire da pochi campioni.
  • Gli approcci esistenti soffrono di eccessivo smoothing o frammentazione degli indizi temporali.

Entità

Istituzioni

  • arXiv

Fonti