I modelli di guida VLA mostrano una fedeltà di ragionamento del 42,5%, 94 pedoni non rilevati
Un'indagine approfondita sull'affidabilità dei modelli di guida Vision-Language-Action (VLA) ha rivelato notevoli carenze nelle loro capacità di ragionamento. I ricercatori hanno valutato 300 inferenze di Alpamayo-R1-10B su 100 scenari PhysicalAI-AV, rivelando una fedeltà di ragionamento complessiva di appena il 42,5%. La Catena di Causazione è risultata allineata con le scene del mondo reale meno del 50% delle volte. Lo studio ha identificato 94 casi di pedoni non rilevati in un terzo degli scenari pertinenti, con il 97,7% di instabilità della traiettoria sotto lievi disturbi visivi e una mera coerenza media del 48,3% tra ragionamento e azione. La coerenza è stata particolarmente bassa nel 53,3% delle inferenze, incluso il 37,9% dei casi in cui il modello ha continuato erroneamente invece di fermarsi. Questo articolo è la prima analisi sistematica della fedeltà nei modelli di guida VLA, stabilendo definizioni informativo-teoriche per la fedeltà e proponendo un quadro di sicurezza a quattro componenti.
Fatti principali
- Primo studio sistematico sulla fedeltà nei modelli di guida VLA
- Analizzate 300 inferenze di Alpamayo-R1-10B su 100 scenari PhysicalAI-AV
- Fedeltà di ragionamento complessiva del 42,5%
- 94 pedoni non rilevati in un terzo delle scene con pedoni
- 97,7% di fragilità della traiettoria sotto lievi perturbazioni visive
- Coerenza media ragionamento-azione del 48,3%
- 53,3% delle inferenze mostra bassa coerenza
- 37,9% dei casi con richiesta di arresto in cui il modello continua invece
Entità
Istituzioni
- PhysicalAI
- arXiv