SOLAR-RL: Apprendimento per Rinforzo Semi-Online per Agenti GUI
I ricercatori propongono SOLAR-RL (Semi-Online Long-horizon Assignment Reinforcement Learning) per affrontare il dilemma tra RL offline e online nell'addestramento di agenti basati su Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM) su compiti GUI dinamici. Il RL offline standard si basa su dati statici a livello di singolo passo, ignorando la semantica globale della traiettoria come il completamento del compito e la qualità dell'esecuzione. Il RL online cattura le dinamiche a lungo termine ma comporta costi di interazione elevati e instabilità ambientale. SOLAR-RL integra le informazioni globali della traiettoria nell'apprendimento offline ricostruendo diversi candidati di rollout dai dati statici e rilevando il primo punto di fallimento tramite controlli di validità per passo. L'approccio mira a colmare il divario tra RL offline e online, consentendo un addestramento più efficace degli agenti GUI senza costose interazioni online. L'articolo è pubblicato su arXiv con identificativo 2604.22558.
Fatti principali
- SOLAR-RL sta per Semi-Online Long-horizon Assignment Reinforcement Learning.
- Si rivolge all'addestramento di agenti MLLM su compiti GUI dinamici.
- Il RL offline standard trascura la semantica globale della traiettoria.
- Il RL online ha costi di interazione elevati e potenziale instabilità.
- SOLAR-RL ricostruisce candidati di rollout dai dati statici.
- Rileva il primo punto di fallimento tramite controlli di validità per passo.
- L'approccio integra le informazioni globali della traiettoria nell'apprendimento offline.
- Articolo disponibile su arXiv con ID 2604.22558.
Entità
Istituzioni
- arXiv