RAW-Dream: Modelli del Mondo Task-Agnostici per l'Apprendimento per Rinforzo VLA
Un nuovo preprint arXiv (2605.12334) introduce RAW-Dream (Reinforcing VLAs in task-Agnostic World Dreams), un paradigma per addestrare modelli Visione-Linguaggio-Azione (VLA) tramite apprendimento per rinforzo in modelli del mondo. Il metodo affronta il problema di scalabilità degli approcci esistenti che richiedono dati specifici per compito per il fine-tuning dei modelli del mondo e di ricompensa. RAW-Dream separa l'apprendimento del modello del mondo dai compiti downstream utilizzando un modello del mondo pre-addestrato su comportamenti diversi senza compiti specifici per la previsione delle traiettorie, e un modello Visione-Linguaggio (VLM) già pronto per la generazione di ricompense. Ciò consente inferenza zero-shot su compiti mai visti, riducendo la dipendenza da costose interazioni nel mondo reale.
Fatti principali
- 1. Il preprint arXiv 2605.12334 propone RAW-Dream.
- 2. RAW-Dream sta per Reinforcing VLAs in task-Agnostic World Dreams.
- 3. Utilizza un modello del mondo pre-addestrato su comportamenti senza compiti specifici.
- 4. La generazione di ricompense impiega un VLM già pronto.
- 5. Mira a consentire inferenza zero-shot su compiti mai visti.
- 6. Riduce la complessità campionaria dell'addestramento delle politiche.
- 7. Separa l'apprendimento del modello del mondo dalle dipendenze dei compiti downstream.
- 8. Affronta i limiti di scalabilità dei metodi esistenti di fine-tuning VLA.
Entità
Istituzioni
- arXiv