ARTFEED — Contemporary Art Intelligence

SOLAR-RL: Apprendimento per Rinforzo Semi-Online per Agenti GUI

ai-technology · 2026-04-27

I ricercatori propongono SOLAR-RL (Semi-Online Long-horizon Assignment Reinforcement Learning) per affrontare il dilemma tra RL offline e online nell'addestramento di agenti basati su Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM) su compiti GUI dinamici. Il RL offline standard si basa su dati statici a livello di singolo passo, ignorando la semantica globale della traiettoria come il completamento del compito e la qualità dell'esecuzione. Il RL online cattura le dinamiche a lungo termine ma comporta costi di interazione elevati e instabilità ambientale. SOLAR-RL integra le informazioni globali della traiettoria nell'apprendimento offline ricostruendo diversi candidati di rollout dai dati statici e rilevando il primo punto di fallimento tramite controlli di validità per passo. L'approccio mira a colmare il divario tra RL offline e online, consentendo un addestramento più efficace degli agenti GUI senza costose interazioni online. L'articolo è pubblicato su arXiv con identificativo 2604.22558.

Fatti principali

  • SOLAR-RL sta per Semi-Online Long-horizon Assignment Reinforcement Learning.
  • Si rivolge all'addestramento di agenti MLLM su compiti GUI dinamici.
  • Il RL offline standard trascura la semantica globale della traiettoria.
  • Il RL online ha costi di interazione elevati e potenziale instabilità.
  • SOLAR-RL ricostruisce candidati di rollout dai dati statici.
  • Rileva il primo punto di fallimento tramite controlli di validità per passo.
  • L'approccio integra le informazioni globali della traiettoria nell'apprendimento offline.
  • Articolo disponibile su arXiv con ID 2604.22558.

Entità

Istituzioni

  • arXiv

Fonti