Confronto Sistematico dei Metodi di Inferenza Asincrona per Modelli VLA

publication · 2026-05-12

Uno studio recente ha esplorato quattro tecniche innovative volte ad affrontare il problema dell'obsolescenza delle osservazioni nei modelli Vision-Language-Action (VLA), causata dal ritardo nell'esecuzione delle azioni. Le metodologie esaminate includono l'inpainting al momento dell'inferenza, la simulazione del ritardo durante l'addestramento, il condizionamento basato sullo stato futuro e la correzione residua leggera. I ricercatori hanno creato due codebase unificati che garantiscono coerenza tra gli approcci con librerie e dataset standardizzati. Hanno condotto benchmarking utilizzando la suite Kinetix insieme al benchmark di manipolazione LIBERO, valutando ritardi di inferenza fino a 20 passi di controllo. Questa ricerca è disponibile su arXiv con l'identificatore 2605.08168.

Fatti principali

Vengono confrontati quattro metodi per mitigare l'obsolescenza delle osservazioni nei modelli VLA: IT-RTC, TT-RTC, VLASH, A2C2.
Sono stati sviluppati due codebase unificati per un confronto equo.
Il benchmarking è stato eseguito sulla suite Kinetix con politiche MLPMixer e sul benchmark LIBERO con SmolVLA.
Sono stati testati ritardi di inferenza fino a d=20 passi di controllo.
Lo studio è pubblicato su arXiv con ID 2605.08168.

Confronto Sistematico dei Metodi di Inferenza Asincrona per Modelli VLA

Fatti principali

Entità

Istituzioni

Fonti