Studio sulla discretizzazione di Vision Mamba confronta sei schemi

publication · 2026-04-24

Uno studio recente ha esaminato sei diversi metodi per discretizzare il modello a spazio di stato (SSM) Vision Mamba. Ha scoperto che l'interpolazione polinomiale e le tecniche di mantenimento di ordine superiore migliorano significativamente l'accuratezza in compiti come la classificazione delle immagini, la segmentazione semantica e il rilevamento degli oggetti, sebbene richiedano tempi di addestramento più lunghi. Anche la trasformata bilineare/Tustin mostra miglioramenti costanti. La ricerca ha confrontato il mantenimento di ordine zero, il mantenimento di primo ordine, la trasformata bilineare/Tustin, l'interpolazione polinomiale, il mantenimento di ordine superiore e il metodo Runge-Kutta del quarto ordine rispetto a benchmark visivi standard. È interessante notare che il metodo predefinito di mantenimento di ordine zero è stato osservato danneggiare l'accuratezza temporale in situazioni visive dinamiche.

Fatti principali

Sei schemi di discretizzazione confrontati: ZOH, FOH, BIL, POL, HOH, RK4
POL e HOH producono i maggiori guadagni in accuratezza
BIL fornisce miglioramenti costanti
ZOH degrada la fedeltà temporale in ambienti dinamici
Valutati su classificazione delle immagini, segmentazione semantica, rilevamento degli oggetti
La maggiore accuratezza di POL e HOH comporta un costo computazionale maggiore durante l'addestramento
Lo studio è sistematico e controllato all'interno del framework Vision Mamba
Pubblicato su arXiv con ID 2604.20606

Studio sulla discretizzazione di Vision Mamba confronta sei schemi

Fatti principali

Entità

Istituzioni

Fonti