ST-GridPool: Miglioramento dei token visivi senza addestramento per i Video LLM
Un nuovo metodo chiamato ST-GridPool migliora la comprensione video nei Grandi Modelli Linguistici senza richiedere addestramento aggiuntivo. Proposto da ricercatori, combina il Pyramid Temporal Gridding (PTG) per interazioni spazio-temporali multi-granulari e il Norm-based Spatial Pooling (NSP) per preservare le regioni visive ad alta informazione. Gli esperimenti mostrano miglioramenti consistenti delle prestazioni su vari benchmark.
Fatti principali
- ST-GridPool è un metodo di miglioramento dei token visivi senza addestramento per i Video LLM.
- Integra il Pyramid Temporal Gridding (PTG) e il Norm-based Spatial Pooling (NSP).
- PTG cattura interazioni spazio-temporali multi-granulari attraverso una grigliatura temporale gerarchica.
- NSP sfrutta la correlazione tra le norme dei token e la ricchezza semantica.
- Il metodo affronta le limitazioni delle tecniche di pooling e interpolazione esistenti.
- Esperimenti su vari benchmark mostrano miglioramenti consistenti delle prestazioni.
- L'articolo è disponibile su arXiv con ID 2605.22078.
- L'approccio è progettato specificamente per i Video Large Language Models.
Entità
—