Framework Hide-and-Seek rileva fallimenti di robot VLA da etichette di traiettoria
I ricercatori propongono Hide-and-Seek, un framework per il rilevamento di fallimenti in tempo reale nei modelli Vision-Language-Action (VLA). I modelli VLA consentono ai robot di seguire istruzioni in linguaggio naturale ma sono soggetti a fallimenti di esecuzione. I metodi di rilevamento esistenti sono costosi o oscurano i segnali localizzati. Hide-and-Seek formula il rilevamento dei fallimenti come un problema di apprendimento supervisionato grossolano utilizzando obiettivi contrastivi inter e intra-traiettoria, localizzando le azioni indicative di fallimento dalla sola supervisione a livello di traiettoria, senza annotazioni a livello di passo. L'articolo è disponibile su arXiv.
Fatti principali
- Hide-and-Seek è un framework per il rilevamento di fallimenti VLA.
- Utilizza apprendimento supervisionato grossolano con obiettivi contrastivi.
- Non richiede annotazioni a livello di passo.
- I modelli VLA sono vulnerabili a fallimenti di esecuzione.
- I metodi esistenti si basano su ricampionamento costoso o modelli esterni.
- Le etichette a livello di traiettoria propagate uniformemente oscurano i segnali di fallimento.
- L'approccio localizza le azioni indicative di fallimento.
- Articolo pubblicato su arXiv con ID 2605.30834.
Entità
Istituzioni
- arXiv