ARTFEED — Contemporary Art Intelligence

Pre-VLA: Verifica Runtime per Modelli Visione-Linguaggio-Azione

other · 2026-05-23

Pre-VLA è un'architettura per la verifica runtime che valuta la legittimità delle azioni prodotte da modelli estesi visione-linguaggio-azione (VLA) e modelli generativi del mondo prima della loro implementazione fisica o dei rollout del modello del mondo. Questo sistema affronta le incertezze associate alla generazione di azioni basata sull'apprendimento, che possono portare a errori fisici o simulazioni inaccurate. Utilizzando un robusto backbone multimodale con pooling sensibile alla modalità, presenta un head dual-branch semplificato per prevedere la confidenza di sicurezza e i punteggi di vantaggio derivati dal critico per potenziali segmenti di azione. Il processo di addestramento impiega un obiettivo multi-task che integra la classificazione Focal, la regressione del vantaggio e le perdite soft-target per affrontare lo squilibrio di classe e le decisioni di confine, migliorando infine l'affidabilità in compiti di intelligenza incarnata a lungo orizzonte.

Fatti principali

  • Pre-VLA esegue una valutazione preventiva della validità dell'azione prima dell'esecuzione o dell'immaginazione.
  • Utilizza un backbone multimodale con pooling sensibile alla modalità.
  • Un head dual-branch prevede la confidenza di sicurezza e i punteggi di vantaggio.
  • L'addestramento combina classificazione Focal, regressione del vantaggio e perdite soft-target.
  • Affronta lo squilibrio di classe e le decisioni di confine instabili.
  • Si rivolge all'intelligenza incarnata a lungo orizzonte con VLA e modelli del mondo.
  • Mira a prevenire guasti fisici e ridurre i costi di rendering ridondanti.
  • Pubblicato su arXiv con ID 2605.22446.

Entità

Istituzioni

  • arXiv

Fonti