I modelli di guida VLA mostrano una fedeltà di ragionamento del 42,5%, 94 pedoni non rilevati

ai-technology · 2026-05-20

Un'indagine approfondita sull'affidabilità dei modelli di guida Vision-Language-Action (VLA) ha rivelato notevoli carenze nelle loro capacità di ragionamento. I ricercatori hanno valutato 300 inferenze di Alpamayo-R1-10B su 100 scenari PhysicalAI-AV, rivelando una fedeltà di ragionamento complessiva di appena il 42,5%. La Catena di Causazione è risultata allineata con le scene del mondo reale meno del 50% delle volte. Lo studio ha identificato 94 casi di pedoni non rilevati in un terzo degli scenari pertinenti, con il 97,7% di instabilità della traiettoria sotto lievi disturbi visivi e una mera coerenza media del 48,3% tra ragionamento e azione. La coerenza è stata particolarmente bassa nel 53,3% delle inferenze, incluso il 37,9% dei casi in cui il modello ha continuato erroneamente invece di fermarsi. Questo articolo è la prima analisi sistematica della fedeltà nei modelli di guida VLA, stabilendo definizioni informativo-teoriche per la fedeltà e proponendo un quadro di sicurezza a quattro componenti.

Fatti principali

Primo studio sistematico sulla fedeltà nei modelli di guida VLA
Analizzate 300 inferenze di Alpamayo-R1-10B su 100 scenari PhysicalAI-AV
Fedeltà di ragionamento complessiva del 42,5%
94 pedoni non rilevati in un terzo delle scene con pedoni
97,7% di fragilità della traiettoria sotto lievi perturbazioni visive
Coerenza media ragionamento-azione del 48,3%
53,3% delle inferenze mostra bassa coerenza
37,9% dei casi con richiesta di arresto in cui il modello continua invece

I modelli di guida VLA mostrano una fedeltà di ragionamento del 42,5%, 94 pedoni non rilevati

Fatti principali

Entità

Istituzioni

Fonti