PRTS: Un Modello Fondamentale VLA che Utilizza l'Apprendimento per Rinforzo Orientato agli Obiettivi

ai-technology · 2026-05-01

I ricercatori hanno creato un modello fondamentale innovativo chiamato PRTS, che sta per Primitive Reasoning and Tasking System. Questo modello utilizza l'Apprendimento per Rinforzo Orientato agli Obiettivi per il suo pre-addestramento, distinguendosi dai modelli convenzionali Visione-Linguaggio-Azione che si basano fortemente sul clonaggio comportamentale supervisionato. Invece, PRTS considera le istruzioni linguistiche come obiettivi e utilizza l'apprendimento per rinforzo contrastivo per formare uno spazio di embedding unificato. All'interno di questo quadro, calcola la probabilità di raggiungere un obiettivo da un dato stato-azione approssimando l'occupazione log-scontata dell'obiettivo. Questo approccio affronta una limitazione significativa dei modelli VLA esistenti, che spesso trascurano l'importanza dell'orientamento agli obiettivi e della progressione del compito. Puoi trovare questa ricerca su arXiv con l'identificatore 2604.27472.

Fatti principali

PRTS è un modello fondamentale VLA.
Utilizza l'Apprendimento per Rinforzo Orientato agli Obiettivi per il pre-addestramento.
L'apprendimento per rinforzo contrastivo viene impiegato per apprendere gli embedding.
Il prodotto interno degli embedding stato-azione e obiettivo approssima l'occupazione log-scontata dell'obiettivo.
Questo misura la probabilità di raggiungere un obiettivo specificato dal linguaggio dallo stato-azione corrente.
I VLA esistenti utilizzano il clonaggio comportamentale supervisionato, che trascura il progresso temporale del compito.
L'articolo è su arXiv con ID 2604.27472.
PRTS sta per Primitive Reasoning and Tasking System.

PRTS: Un Modello Fondamentale VLA che Utilizza l'Apprendimento per Rinforzo Orientato agli Obiettivi

Fatti principali

Entità

Istituzioni

Fonti