SERL: L'apprendimento selettivo con riponderazione ambientale migliora le prestazioni degli agenti LLM

ai-technology · 2026-05-20

I ricercatori hanno introdotto un nuovo framework di apprendimento per rinforzo chiamato SERL (Selective Environment-Reweighted Learning), che migliora l'assegnazione del credito per agenti LLM multi-turno utilizzando il feedback dell'ambiente ad ogni passo. SERL determina la direzione degli aggiornamenti in base ai premi del compito, mentre il feedback ambientale regola sia il posizionamento che l'intensità, enfatizzando le azioni essenziali. Nei benchmark come ALFWorld e WebShop, SERL registra tassi di successo rispettivamente del 90,0% e dell'80,1%, superando i robusti basamenti RL e di distillazione. L'approccio esamina cinque fonti di feedback e due livelli di granularità di inserimento, affrontando il problema della distribuzione di segnali sparsi di successo o fallimento su numerose azioni in compiti lunghi. L'articolo di ricerca è disponibile su arXiv con l'identificatore 2605.19447.

Fatti principali

SERL sta per Selective Environment-Reweighted Learning
Raggiunge il 90,0% di successo su ALFWorld
Raggiunge l'80,1% di successo su WebShop
Utilizza il premio del compito per la direzione dell'aggiornamento e il feedback ambientale per posizionamento e magnitudo
Studia cinque fonti di feedback e due granularità di inserimento
Supera i forti basamenti RL e di distillazione
Affronta l'assegnazione del credito negli agenti LLM multi-turno
Pubblicato su arXiv con ID 2605.19447

SERL: L'apprendimento selettivo con riponderazione ambientale migliora le prestazioni degli agenti LLM

Fatti principali

Entità

Istituzioni

Fonti