SSMProbe: Sondaggio dei modelli visivi attraverso le dinamiche dell'ordine dei token

publication · 2026-05-06

Un nuovo articolo di ricerca su arXiv (2605.00915) introduce SSMProbe, un framework di probing che utilizza i modelli a spazio di stato (SSM) per sfruttare l'ordine dei token in rappresentazioni visive congelate. I metodi standard come il Global Average Pooling (GAP) o i token CLS trattano le rappresentazioni dei patch come invarianti rispetto alla permutazione, ignorando la struttura sequenziale. Gli autori sfidano questa impostazione mostrando che l'ordine dei token è una dimensione critica in modelli come MAE, BEiT, DINOv2 e ViT. SSMProbe opera come sistema dinamico lineare tempo-invariante (LTI) discreto, dove l'ordine della sequenza determina lo stato finale a causa del decadimento della memoria. Il framework formula l'ordinamento dei token come un problema di scheduling delle informazioni, confrontando euristiche di scansione fissa con una permutazione soft differenziabile appresa tramite supervisione basata su Sinkhorn. Le valutazioni su benchmark di classificazione standard e a grana fine mostrano prestazioni di probing migliorate.

Fatti principali

L'articolo arXiv:2605.00915 introduce il framework di probing SSMProbe.
SSMProbe utilizza i modelli a spazio di stato (SSM) come sistemi dinamici LTI.
L'ordine dei token viene sfruttato in rappresentazioni visive congelate (MAE, BEiT, DINOv2, ViT).
I metodi standard (GAP, CLS) sono invarianti rispetto alla permutazione.
L'ordinamento dei token è trattato come un problema di scheduling delle informazioni.
Le euristiche di scansione fissa sono confrontate con una permutazione soft differenziabile (Sinkhorn).
Valutato su benchmark di classificazione standard e a grana fine.

SSMProbe: Sondaggio dei modelli visivi attraverso le dinamiche dell'ordine dei token

Fatti principali

Entità

Istituzioni

Fonti