ST-GridPool: Miglioramento dei token visivi senza addestramento per i Video LLM

ai-technology · 2026-05-23

Un nuovo metodo chiamato ST-GridPool migliora la comprensione video nei Grandi Modelli Linguistici senza richiedere addestramento aggiuntivo. Proposto da ricercatori, combina il Pyramid Temporal Gridding (PTG) per interazioni spazio-temporali multi-granulari e il Norm-based Spatial Pooling (NSP) per preservare le regioni visive ad alta informazione. Gli esperimenti mostrano miglioramenti consistenti delle prestazioni su vari benchmark.

Fatti principali

ST-GridPool è un metodo di miglioramento dei token visivi senza addestramento per i Video LLM.
Integra il Pyramid Temporal Gridding (PTG) e il Norm-based Spatial Pooling (NSP).
PTG cattura interazioni spazio-temporali multi-granulari attraverso una grigliatura temporale gerarchica.
NSP sfrutta la correlazione tra le norme dei token e la ricchezza semantica.
Il metodo affronta le limitazioni delle tecniche di pooling e interpolazione esistenti.
Esperimenti su vari benchmark mostrano miglioramenti consistenti delle prestazioni.
L'articolo è disponibile su arXiv con ID 2605.22078.
L'approccio è progettato specificamente per i Video Large Language Models.

Entità

—

Fonti

arXiv cs.AI — 2026-05-23