Pre-VLA: Verifica Runtime per Modelli Visione-Linguaggio-Azione
Pre-VLA è un'architettura per la verifica runtime che valuta la legittimità delle azioni prodotte da modelli estesi visione-linguaggio-azione (VLA) e modelli generativi del mondo prima della loro implementazione fisica o dei rollout del modello del mondo. Questo sistema affronta le incertezze associate alla generazione di azioni basata sull'apprendimento, che possono portare a errori fisici o simulazioni inaccurate. Utilizzando un robusto backbone multimodale con pooling sensibile alla modalità, presenta un head dual-branch semplificato per prevedere la confidenza di sicurezza e i punteggi di vantaggio derivati dal critico per potenziali segmenti di azione. Il processo di addestramento impiega un obiettivo multi-task che integra la classificazione Focal, la regressione del vantaggio e le perdite soft-target per affrontare lo squilibrio di classe e le decisioni di confine, migliorando infine l'affidabilità in compiti di intelligenza incarnata a lungo orizzonte.
Fatti principali
- Pre-VLA esegue una valutazione preventiva della validità dell'azione prima dell'esecuzione o dell'immaginazione.
- Utilizza un backbone multimodale con pooling sensibile alla modalità.
- Un head dual-branch prevede la confidenza di sicurezza e i punteggi di vantaggio.
- L'addestramento combina classificazione Focal, regressione del vantaggio e perdite soft-target.
- Affronta lo squilibrio di classe e le decisioni di confine instabili.
- Si rivolge all'intelligenza incarnata a lungo orizzonte con VLA e modelli del mondo.
- Mira a prevenire guasti fisici e ridurre i costi di rendering ridondanti.
- Pubblicato su arXiv con ID 2605.22446.
Entità
Istituzioni
- arXiv