CUA-Gym: Addestramento RL Scalabile per Agenti di Utilizzo del Computer

ai-technology · 2026-05-26

Un team di ricercatori ha introdotto CUA-Gym, un framework scalabile progettato per generare simultaneamente istruzioni di attività, stati ambientali e funzioni di ricompensa per l'apprendimento per rinforzo con ricompense verificabili (RLVR) in agenti di utilizzo del computer (CUA). Il framework impiega un agente Generatore per creare stati ambientali iniziali e ottimali, un agente Discriminatore per formulare funzioni di ricompensa basate sulle specifiche dell'attività e un agente Orchestratore per gestire il processo di esecuzione. Questa innovazione affronta la sfida della limitata disponibilità di dati di addestramento scalabili che offrono ricompense deterministiche per i CUA, ottenendo una combinazione di elevata accuratezza delle ricompense e ampia scalabilità. I risultati sono pubblicati su arXiv (2605.25624).

Fatti principali

CUA-Gym è una pipeline scalabile per generare dati di addestramento RLVR per CUA.
Co-genera istruzioni di attività, stati ambientali e funzioni di ricompensa.
Un agente Generatore costruisce stati ambientali iniziali e golden.
Un agente Discriminatore scrive funzioni di ricompensa dalle specifiche dell'attività.
Un agente Orchestratore guida cicli iterativi durante l'esecuzione.
L'approccio affronta la scarsità di dati di addestramento scalabili con ricompense deterministiche.
I benchmark curati manualmente offrono alta fedeltà delle ricompense ma applicazioni limitate.
I dataset LLM-as-judge si scalano ampiamente ma mancano di verifica affidabile.
L'articolo è disponibile su arXiv con ID 2605.25624.

CUA-Gym: Addestramento RL Scalabile per Agenti di Utilizzo del Computer

Fatti principali

Entità

Istituzioni

Fonti