Il Framework ST-Prune Riduce il Carico Computazionale per i Modelli Visione-Linguaggio nella Guida Autonoma
C'è questo nuovo sistema chiamato ST-Prune che affronta le complesse problematiche computazionali che i Modelli Visione-Linguaggio (VLM) incontrano nelle auto a guida autonoma. Sfrutta le similarità nello spazio e nel tempo per ridurre l'intenso elaborazione necessaria per utilizzare più telecamere e fotogrammi video. A differenza dei metodi esistenti che funzionano solo con immagini singole, ST-Prune sfrutta queste ridondanze specificamente per scenari di guida. Ha due componenti principali: Motion-aware Temporal Pruning (MTP), che dà priorità al movimento attuale e ai fotogrammi rilevanti, e Ring-view Spatial Pruning (RSP), che riduce la sovrapposizione visiva utilizzando una configurazione circolare delle telecamere. Il vantaggio maggiore è che non richiede addestramento aggiuntivo, rendendolo estremamente facile da implementare in configurazioni reali di guida autonoma.
Fatti principali
- ST-Prune è un framework senza addestramento per Modelli Visione-Linguaggio nella guida autonoma
- Affronta i colli di bottiglia computazionali derivanti da input video multi-fotogramma e telecamere multi-vista
- I metodi esistenti di pruning dei token trattano ogni fotogramma o vista in isolamento
- Il framework comprende Motion-aware Temporal Pruning (MTP) e Ring-view Spatial Pruning (RSP)
- MTP dà priorità alle traiettorie dinamiche e al contenuto del fotogramma corrente rispetto allo sfondo storico statico
- RSP sfrutta la geometria delle telecamere a vista circolare per penalizzare le informazioni visive sovrapposte
- Il sistema opera senza richiedere addestramento aggiuntivo
- La ricerca è stata pubblicata su arXiv con identificatore 2604.19145v1
Entità
Istituzioni
- arXiv