Studio sulla discretizzazione di Vision Mamba confronta sei schemi
Uno studio recente ha esaminato sei diversi metodi per discretizzare il modello a spazio di stato (SSM) Vision Mamba. Ha scoperto che l'interpolazione polinomiale e le tecniche di mantenimento di ordine superiore migliorano significativamente l'accuratezza in compiti come la classificazione delle immagini, la segmentazione semantica e il rilevamento degli oggetti, sebbene richiedano tempi di addestramento più lunghi. Anche la trasformata bilineare/Tustin mostra miglioramenti costanti. La ricerca ha confrontato il mantenimento di ordine zero, il mantenimento di primo ordine, la trasformata bilineare/Tustin, l'interpolazione polinomiale, il mantenimento di ordine superiore e il metodo Runge-Kutta del quarto ordine rispetto a benchmark visivi standard. È interessante notare che il metodo predefinito di mantenimento di ordine zero è stato osservato danneggiare l'accuratezza temporale in situazioni visive dinamiche.
Fatti principali
- Sei schemi di discretizzazione confrontati: ZOH, FOH, BIL, POL, HOH, RK4
- POL e HOH producono i maggiori guadagni in accuratezza
- BIL fornisce miglioramenti costanti
- ZOH degrada la fedeltà temporale in ambienti dinamici
- Valutati su classificazione delle immagini, segmentazione semantica, rilevamento degli oggetti
- La maggiore accuratezza di POL e HOH comporta un costo computazionale maggiore durante l'addestramento
- Lo studio è sistematico e controllato all'interno del framework Vision Mamba
- Pubblicato su arXiv con ID 2604.20606
Entità
Istituzioni
- arXiv