ARTFEED — Contemporary Art Intelligence

SERL: L'apprendimento selettivo con riponderazione ambientale migliora le prestazioni degli agenti LLM

ai-technology · 2026-05-20

I ricercatori hanno introdotto un nuovo framework di apprendimento per rinforzo chiamato SERL (Selective Environment-Reweighted Learning), che migliora l'assegnazione del credito per agenti LLM multi-turno utilizzando il feedback dell'ambiente ad ogni passo. SERL determina la direzione degli aggiornamenti in base ai premi del compito, mentre il feedback ambientale regola sia il posizionamento che l'intensità, enfatizzando le azioni essenziali. Nei benchmark come ALFWorld e WebShop, SERL registra tassi di successo rispettivamente del 90,0% e dell'80,1%, superando i robusti basamenti RL e di distillazione. L'approccio esamina cinque fonti di feedback e due livelli di granularità di inserimento, affrontando il problema della distribuzione di segnali sparsi di successo o fallimento su numerose azioni in compiti lunghi. L'articolo di ricerca è disponibile su arXiv con l'identificatore 2605.19447.

Fatti principali

  • SERL sta per Selective Environment-Reweighted Learning
  • Raggiunge il 90,0% di successo su ALFWorld
  • Raggiunge l'80,1% di successo su WebShop
  • Utilizza il premio del compito per la direzione dell'aggiornamento e il feedback ambientale per posizionamento e magnitudo
  • Studia cinque fonti di feedback e due granularità di inserimento
  • Supera i forti basamenti RL e di distillazione
  • Affronta l'assegnazione del credito negli agenti LLM multi-turno
  • Pubblicato su arXiv con ID 2605.19447

Entità

Istituzioni

  • arXiv

Fonti