PRTS: Un Modello Fondamentale VLA che Utilizza l'Apprendimento per Rinforzo Orientato agli Obiettivi
I ricercatori hanno creato un modello fondamentale innovativo chiamato PRTS, che sta per Primitive Reasoning and Tasking System. Questo modello utilizza l'Apprendimento per Rinforzo Orientato agli Obiettivi per il suo pre-addestramento, distinguendosi dai modelli convenzionali Visione-Linguaggio-Azione che si basano fortemente sul clonaggio comportamentale supervisionato. Invece, PRTS considera le istruzioni linguistiche come obiettivi e utilizza l'apprendimento per rinforzo contrastivo per formare uno spazio di embedding unificato. All'interno di questo quadro, calcola la probabilità di raggiungere un obiettivo da un dato stato-azione approssimando l'occupazione log-scontata dell'obiettivo. Questo approccio affronta una limitazione significativa dei modelli VLA esistenti, che spesso trascurano l'importanza dell'orientamento agli obiettivi e della progressione del compito. Puoi trovare questa ricerca su arXiv con l'identificatore 2604.27472.
Fatti principali
- PRTS è un modello fondamentale VLA.
- Utilizza l'Apprendimento per Rinforzo Orientato agli Obiettivi per il pre-addestramento.
- L'apprendimento per rinforzo contrastivo viene impiegato per apprendere gli embedding.
- Il prodotto interno degli embedding stato-azione e obiettivo approssima l'occupazione log-scontata dell'obiettivo.
- Questo misura la probabilità di raggiungere un obiettivo specificato dal linguaggio dallo stato-azione corrente.
- I VLA esistenti utilizzano il clonaggio comportamentale supervisionato, che trascura il progresso temporale del compito.
- L'articolo è su arXiv con ID 2604.27472.
- PRTS sta per Primitive Reasoning and Tasking System.
Entità
Istituzioni
- arXiv