Il Framework ST-Prune Riduce il Carico Computazionale per i Modelli Visione-Linguaggio nella Guida Autonoma

ai-technology · 2026-04-22

C'è questo nuovo sistema chiamato ST-Prune che affronta le complesse problematiche computazionali che i Modelli Visione-Linguaggio (VLM) incontrano nelle auto a guida autonoma. Sfrutta le similarità nello spazio e nel tempo per ridurre l'intenso elaborazione necessaria per utilizzare più telecamere e fotogrammi video. A differenza dei metodi esistenti che funzionano solo con immagini singole, ST-Prune sfrutta queste ridondanze specificamente per scenari di guida. Ha due componenti principali: Motion-aware Temporal Pruning (MTP), che dà priorità al movimento attuale e ai fotogrammi rilevanti, e Ring-view Spatial Pruning (RSP), che riduce la sovrapposizione visiva utilizzando una configurazione circolare delle telecamere. Il vantaggio maggiore è che non richiede addestramento aggiuntivo, rendendolo estremamente facile da implementare in configurazioni reali di guida autonoma.

Fatti principali

ST-Prune è un framework senza addestramento per Modelli Visione-Linguaggio nella guida autonoma
Affronta i colli di bottiglia computazionali derivanti da input video multi-fotogramma e telecamere multi-vista
I metodi esistenti di pruning dei token trattano ogni fotogramma o vista in isolamento
Il framework comprende Motion-aware Temporal Pruning (MTP) e Ring-view Spatial Pruning (RSP)
MTP dà priorità alle traiettorie dinamiche e al contenuto del fotogramma corrente rispetto allo sfondo storico statico
RSP sfrutta la geometria delle telecamere a vista circolare per penalizzare le informazioni visive sovrapposte
Il sistema opera senza richiedere addestramento aggiuntivo
La ricerca è stata pubblicata su arXiv con identificatore 2604.19145v1

Il Framework ST-Prune Riduce il Carico Computazionale per i Modelli Visione-Linguaggio nella Guida Autonoma

Fatti principali

Entità

Istituzioni

Fonti