ARTFEED — Contemporary Art Intelligence

ST-GridPool: Miglioramento dei token visivi senza addestramento per i Video LLM

ai-technology · 2026-05-23

Un nuovo metodo chiamato ST-GridPool migliora la comprensione video nei Grandi Modelli Linguistici senza richiedere addestramento aggiuntivo. Proposto da ricercatori, combina il Pyramid Temporal Gridding (PTG) per interazioni spazio-temporali multi-granulari e il Norm-based Spatial Pooling (NSP) per preservare le regioni visive ad alta informazione. Gli esperimenti mostrano miglioramenti consistenti delle prestazioni su vari benchmark.

Fatti principali

  • ST-GridPool è un metodo di miglioramento dei token visivi senza addestramento per i Video LLM.
  • Integra il Pyramid Temporal Gridding (PTG) e il Norm-based Spatial Pooling (NSP).
  • PTG cattura interazioni spazio-temporali multi-granulari attraverso una grigliatura temporale gerarchica.
  • NSP sfrutta la correlazione tra le norme dei token e la ricchezza semantica.
  • Il metodo affronta le limitazioni delle tecniche di pooling e interpolazione esistenti.
  • Esperimenti su vari benchmark mostrano miglioramenti consistenti delle prestazioni.
  • L'articolo è disponibile su arXiv con ID 2605.22078.
  • L'approccio è progettato specificamente per i Video Large Language Models.

Entità

Fonti