VLADriver-RAG: Modelli VLA con Retrieval-Augmented per la Guida Autonoma
Il nuovo framework VLADriver-RAG affronta le carenze dei modelli Vision-Language-Action (VLA) nella guida autonoma, in particolare le loro prestazioni inadeguate in situazioni di coda lunga. Il recupero visivo tradizionale è ostacolato da una latenza significativa e da confusione semantica. Per mitigare ciò, VLADriver-RAG impiega un approccio Visual-to-Scenario che trasforma i dati sensoriali in grafi semantici spazio-temporali, riducendo efficacemente il disordine visivo. Inoltre, un Modello di Embedding Allineato allo Scenario utilizza l'allineamento metrico Graph-DTW, enfatizzando la coerenza topologica piuttosto che la mera somiglianza visiva. Il modello migliora la pianificazione integrando priori recuperati. Questa ricerca è stata resa disponibile su arXiv, identificata dall'ID 2605.08133.
Fatti principali
- VLADriver-RAG è un framework per la guida autonoma.
- Migliora i modelli Vision-Language-Action (VLA).
- Affronta la generalizzazione in scenari di coda lunga.
- Utilizza un meccanismo Visual-to-Scenario per creare grafi semantici spazio-temporali.
- Impiega un Modello di Embedding Allineato allo Scenario con allineamento metrico Graph-DTW.
- Dà priorità alla coerenza topologica rispetto alla somiglianza visiva.
- I priori recuperati vengono fusi all'interno del modello.
- Articolo disponibile su arXiv con ID 2605.08133.
Entità
Istituzioni
- arXiv