CUA-Gym: Addestramento RL Scalabile per Agenti di Utilizzo del Computer
Un team di ricercatori ha introdotto CUA-Gym, un framework scalabile progettato per generare simultaneamente istruzioni di attività, stati ambientali e funzioni di ricompensa per l'apprendimento per rinforzo con ricompense verificabili (RLVR) in agenti di utilizzo del computer (CUA). Il framework impiega un agente Generatore per creare stati ambientali iniziali e ottimali, un agente Discriminatore per formulare funzioni di ricompensa basate sulle specifiche dell'attività e un agente Orchestratore per gestire il processo di esecuzione. Questa innovazione affronta la sfida della limitata disponibilità di dati di addestramento scalabili che offrono ricompense deterministiche per i CUA, ottenendo una combinazione di elevata accuratezza delle ricompense e ampia scalabilità. I risultati sono pubblicati su arXiv (2605.25624).
Fatti principali
- CUA-Gym è una pipeline scalabile per generare dati di addestramento RLVR per CUA.
- Co-genera istruzioni di attività, stati ambientali e funzioni di ricompensa.
- Un agente Generatore costruisce stati ambientali iniziali e golden.
- Un agente Discriminatore scrive funzioni di ricompensa dalle specifiche dell'attività.
- Un agente Orchestratore guida cicli iterativi durante l'esecuzione.
- L'approccio affronta la scarsità di dati di addestramento scalabili con ricompense deterministiche.
- I benchmark curati manualmente offrono alta fedeltà delle ricompense ma applicazioni limitate.
- I dataset LLM-as-judge si scalano ampiamente ma mancano di verifica affidabile.
- L'articolo è disponibile su arXiv con ID 2605.25624.
Entità
Istituzioni
- arXiv