SOLAR-RL: Apprendimento per Rinforzo Semi-Online per Agenti GUI

ai-technology · 2026-04-27

I ricercatori propongono SOLAR-RL (Semi-Online Long-horizon Assignment Reinforcement Learning) per affrontare il dilemma tra RL offline e online nell'addestramento di agenti basati su Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM) su compiti GUI dinamici. Il RL offline standard si basa su dati statici a livello di singolo passo, ignorando la semantica globale della traiettoria come il completamento del compito e la qualità dell'esecuzione. Il RL online cattura le dinamiche a lungo termine ma comporta costi di interazione elevati e instabilità ambientale. SOLAR-RL integra le informazioni globali della traiettoria nell'apprendimento offline ricostruendo diversi candidati di rollout dai dati statici e rilevando il primo punto di fallimento tramite controlli di validità per passo. L'approccio mira a colmare il divario tra RL offline e online, consentendo un addestramento più efficace degli agenti GUI senza costose interazioni online. L'articolo è pubblicato su arXiv con identificativo 2604.22558.

Fatti principali

SOLAR-RL sta per Semi-Online Long-horizon Assignment Reinforcement Learning.
Si rivolge all'addestramento di agenti MLLM su compiti GUI dinamici.
Il RL offline standard trascura la semantica globale della traiettoria.
Il RL online ha costi di interazione elevati e potenziale instabilità.
SOLAR-RL ricostruisce candidati di rollout dai dati statici.
Rileva il primo punto di fallimento tramite controlli di validità per passo.
L'approccio integra le informazioni globali della traiettoria nell'apprendimento offline.
Articolo disponibile su arXiv con ID 2604.22558.

SOLAR-RL: Apprendimento per Rinforzo Semi-Online per Agenti GUI

Fatti principali

Entità

Istituzioni

Fonti