DEFLECT: Esecuzione Robusta ai Ritardi per Politiche VLA tramite Sintonizzazione Controfattuale Stimata per Verosimiglianza con Flow-Matching

ai-technology · 2026-05-20

Una tecnica innovativa chiamata DEFLECT affronta il problema del disallineamento tra previsione ed esecuzione nelle politiche Visione-Linguaggio-Azione (VLA) che utilizzano inferenza asincrona. In questi sistemi, mentre il robot esegue un blocco di azioni previste in precedenza, il modello calcola simultaneamente il successivo, con il risultato che l'azione si basa su osservazioni obsolete. Questo disallineamento può portare a gravi fallimenti: le prestazioni naive del rollover asincrono crollano dall'89% a meno dell'1% su Kinetix quando il ciclo di inferenza copre fino a sette passi di controllo. DEFLECT opera come un miglioramento completamente offline post-addestramento che trasforma la latenza in un segnale di preferenza senza etichette, generando coppie di azioni fresche/vecchie da una politica di riferimento statica e valutandole con un surrogato implicito del rapporto di verosimiglianza basato su flow-matching, eliminando la necessità di etichette umane o modelli di ricompensa. Questo metodo può essere facilmente integrato nei sistemi async-VLA esistenti.

Fatti principali

DEFLECT affronta il disallineamento previsione-esecuzione nelle politiche VLA
Il naive rollover asincrono crolla dall'89% a meno dell'1% su Kinetix
Il ciclo di inferenza copre fino a sette passi di controllo
DEFLECT è un perfezionamento completamente offline post-addestramento
Converte la latenza in un segnale di preferenza senza etichette
Costruisce coppie di azioni controfattuali fresche/vecchie da una politica di riferimento congelata
Valuta le coppie usando un surrogato implicito del rapporto di verosimiglianza con flow-matching
Non richiede etichette umane o modelli di ricompensa
Si applica come aggiornamento quasi plug-and-play agli stack async-VLA esistenti

Entità

—

Fonti

arXiv cs.AI — 2026-05-20