RoboAlign-R1: Post-addestramento Allineato alla Ricompensa per Modelli del Mondo Video Robotici
RoboAlign-R1 è un nuovo framework progettato per affrontare il problema del disallineamento nei modelli del mondo video robotici, integrando un post-addestramento allineato alla ricompensa con un'inferenza stabile a lungo orizzonte. I modelli tradizionali si concentrano spesso su obiettivi di basso livello, come la ricostruzione e la similarità percettiva, che non corrispondono efficacemente alle capacità decisionali di un robot, tra cui seguire istruzioni, raggiungere il successo nella manipolazione e garantire la plausibilità fisica. Inoltre, questi modelli accumulano errori durante le previsioni autoregressive a lungo orizzonte. Per contrastare ciò, RoboAlign-R1 presenta RobotWorldBench, un benchmark composto da 10.000 coppie video-istruzione annotate provenienti da quattro diversi dataset robotici, insieme a RoboAlign-Judge, un giudice insegnante multimodale per una valutazione dettagliata a sei dimensioni. Questo insegnante viene poi distillato in un modello di ricompensa studente compatto per facilitare un post-addestramento efficiente basato su apprendimento per rinforzo, con l'obiettivo di minimizzare la deriva del rollout a lungo orizzonte e migliorare l'allineamento con i risultati specifici del compito.
Fatti principali
- RoboAlign-R1 combina post-addestramento allineato alla ricompensa con inferenza stabilizzata a lungo orizzonte.
- I modelli del mondo video robotici esistenti sono addestrati con obiettivi di basso livello come ricostruzione e similarità percettiva.
- Questi modelli soffrono di accumulo di errori nella previsione autoregressiva a lungo orizzonte.
- RobotWorldBench contiene 10.000 coppie video-istruzione annotate da quattro fonti di dati robotici.
- RoboAlign-Judge è un giudice insegnante multimodale che fornisce una valutazione fine a sei dimensioni.
- L'insegnante viene distillato in un modello di ricompensa studente leggero per un post-addestramento efficiente basato su RL.
- Il framework si concentra sul seguire istruzioni, successo nella manipolazione e plausibilità fisica.
- L'approccio mira a ridurre la deriva del rollout a lungo orizzonte.
Entità
Istituzioni
- arXiv