OmniDrive-R1: Grounding Visivo Guidato dal Rinforzo per la Guida Autonoma
I ricercatori hanno introdotto OmniDrive-R1, un nuovo framework di Vision-Language Model (VLM) per la guida autonoma che affronta l'allucinazione degli oggetti attraverso un grounding visivo guidato dal rinforzo. Il framework impiega un meccanismo interleaved Multi-modal Chain-of-Thought (iMCoT), unificando percezione e ragionamento in modo end-to-end. A differenza degli approcci precedenti che soffrono di fasi disaccoppiate e dipendenza da etichette di localizzazione dense, OmniDrive-R1 consente al modello di dirigere autonomamente l'attenzione verso regioni critiche per un'analisi dettagliata. Questa innovazione mira a migliorare l'affidabilità in scenari di guida critici per la sicurezza. Il lavoro è dettagliato in un articolo su arXiv (ID: 2512.14044).
Fatti principali
- OmniDrive-R1 è un framework VLM per la guida autonoma.
- Utilizza il grounding visivo guidato dal rinforzo per ridurre l'allucinazione degli oggetti.
- Il framework impiega un meccanismo interleaved Multi-modal Chain-of-Thought (iMCoT).
- Unifica percezione e ragionamento in modo end-to-end.
- Gli approcci precedenti hanno fasi di percezione e ragionamento disaccoppiate.
- Gli approcci precedenti si basano su costose etichette di localizzazione dense.
- Il modello può dirigere autonomamente l'attenzione verso regioni critiche.
- L'articolo è disponibile su arXiv con ID 2512.14044.
Entità
Istituzioni
- arXiv