OmniDrive-R1: Grounding Visivo Guidato dal Rinforzo per la Guida Autonoma

ai-technology · 2026-05-01

I ricercatori hanno introdotto OmniDrive-R1, un nuovo framework di Vision-Language Model (VLM) per la guida autonoma che affronta l'allucinazione degli oggetti attraverso un grounding visivo guidato dal rinforzo. Il framework impiega un meccanismo interleaved Multi-modal Chain-of-Thought (iMCoT), unificando percezione e ragionamento in modo end-to-end. A differenza degli approcci precedenti che soffrono di fasi disaccoppiate e dipendenza da etichette di localizzazione dense, OmniDrive-R1 consente al modello di dirigere autonomamente l'attenzione verso regioni critiche per un'analisi dettagliata. Questa innovazione mira a migliorare l'affidabilità in scenari di guida critici per la sicurezza. Il lavoro è dettagliato in un articolo su arXiv (ID: 2512.14044).

Fatti principali

OmniDrive-R1 è un framework VLM per la guida autonoma.
Utilizza il grounding visivo guidato dal rinforzo per ridurre l'allucinazione degli oggetti.
Il framework impiega un meccanismo interleaved Multi-modal Chain-of-Thought (iMCoT).
Unifica percezione e ragionamento in modo end-to-end.
Gli approcci precedenti hanno fasi di percezione e ragionamento disaccoppiate.
Gli approcci precedenti si basano su costose etichette di localizzazione dense.
Il modello può dirigere autonomamente l'attenzione verso regioni critiche.
L'articolo è disponibile su arXiv con ID 2512.14044.

OmniDrive-R1: Grounding Visivo Guidato dal Rinforzo per la Guida Autonoma

Fatti principali

Entità

Istituzioni

Fonti