ARTFEED — Contemporary Art Intelligence

PRTS: Un Modello Fondamentale VLA che Utilizza l'Apprendimento per Rinforzo Orientato agli Obiettivi

ai-technology · 2026-05-01

I ricercatori hanno creato un modello fondamentale innovativo chiamato PRTS, che sta per Primitive Reasoning and Tasking System. Questo modello utilizza l'Apprendimento per Rinforzo Orientato agli Obiettivi per il suo pre-addestramento, distinguendosi dai modelli convenzionali Visione-Linguaggio-Azione che si basano fortemente sul clonaggio comportamentale supervisionato. Invece, PRTS considera le istruzioni linguistiche come obiettivi e utilizza l'apprendimento per rinforzo contrastivo per formare uno spazio di embedding unificato. All'interno di questo quadro, calcola la probabilità di raggiungere un obiettivo da un dato stato-azione approssimando l'occupazione log-scontata dell'obiettivo. Questo approccio affronta una limitazione significativa dei modelli VLA esistenti, che spesso trascurano l'importanza dell'orientamento agli obiettivi e della progressione del compito. Puoi trovare questa ricerca su arXiv con l'identificatore 2604.27472.

Fatti principali

  • PRTS è un modello fondamentale VLA.
  • Utilizza l'Apprendimento per Rinforzo Orientato agli Obiettivi per il pre-addestramento.
  • L'apprendimento per rinforzo contrastivo viene impiegato per apprendere gli embedding.
  • Il prodotto interno degli embedding stato-azione e obiettivo approssima l'occupazione log-scontata dell'obiettivo.
  • Questo misura la probabilità di raggiungere un obiettivo specificato dal linguaggio dallo stato-azione corrente.
  • I VLA esistenti utilizzano il clonaggio comportamentale supervisionato, che trascura il progresso temporale del compito.
  • L'articolo è su arXiv con ID 2604.27472.
  • PRTS sta per Primitive Reasoning and Tasking System.

Entità

Istituzioni

  • arXiv

Fonti