Pre-VLA: Verifica Runtime per Modelli Visione-Linguaggio-Azione

other · 2026-05-23

Pre-VLA è un'architettura per la verifica runtime che valuta la legittimità delle azioni prodotte da modelli estesi visione-linguaggio-azione (VLA) e modelli generativi del mondo prima della loro implementazione fisica o dei rollout del modello del mondo. Questo sistema affronta le incertezze associate alla generazione di azioni basata sull'apprendimento, che possono portare a errori fisici o simulazioni inaccurate. Utilizzando un robusto backbone multimodale con pooling sensibile alla modalità, presenta un head dual-branch semplificato per prevedere la confidenza di sicurezza e i punteggi di vantaggio derivati dal critico per potenziali segmenti di azione. Il processo di addestramento impiega un obiettivo multi-task che integra la classificazione Focal, la regressione del vantaggio e le perdite soft-target per affrontare lo squilibrio di classe e le decisioni di confine, migliorando infine l'affidabilità in compiti di intelligenza incarnata a lungo orizzonte.

Fatti principali

Pre-VLA esegue una valutazione preventiva della validità dell'azione prima dell'esecuzione o dell'immaginazione.
Utilizza un backbone multimodale con pooling sensibile alla modalità.
Un head dual-branch prevede la confidenza di sicurezza e i punteggi di vantaggio.
L'addestramento combina classificazione Focal, regressione del vantaggio e perdite soft-target.
Affronta lo squilibrio di classe e le decisioni di confine instabili.
Si rivolge all'intelligenza incarnata a lungo orizzonte con VLA e modelli del mondo.
Mira a prevenire guasti fisici e ridurre i costi di rendering ridondanti.
Pubblicato su arXiv con ID 2605.22446.

Pre-VLA: Verifica Runtime per Modelli Visione-Linguaggio-Azione

Fatti principali

Entità

Istituzioni

Fonti