StepOPSD: Distillazione di Preferenze Online Consapevole dei Passi per l'Apprendimento per Rinforzo degli Agenti

other · 2026-05-27

StepOPSD è un framework progettato per l'auto-distillazione dopo il rollout, specificamente per l'apprendimento per rinforzo di agenti multi-turno. Affronta il problema del disallineamento nell'assegnazione del credito scomponendo le traiettorie in segmenti focalizzati sulle azioni. Questo approccio riscala le azioni basandosi su contesti insegnanti informati a posteriori e trasforma le discrepanze di log-probabilità a livello di token in un modellamento del vantaggio che preserva i segni, mantenendo un budget di credito normalizzato per ogni passo prima dell'aggiornamento GRPO. Valutato su ALFWorld e Search-QA utilizzando Qwen3-1.7B e Qwen2.5-3B-Instruct, StepOPSD ha ottenuto le migliori o seconde migliori prestazioni su sottoinsiemi particolarmente sensibili alle decisioni locali.

Fatti principali

StepOPSD è un framework di auto-distillazione delle preferenze post-rollout per l'apprendimento per rinforzo di agenti multi-turno.
Affronta il disallineamento nell'assegnazione del credito scomponendo le traiettorie in segmenti di passo incentrati sulle azioni.
Rivaluta i passi sotto contesti insegnanti arricchiti a posteriori.
Converte i gap di log-probabilità a livello di token in un modellamento del vantaggio che preserva i segni.
Utilizza un budget di credito normalizzato per passo prima dell'aggiornamento GRPO.
Testato su ALFWorld e Search-QA con Qwen3-1.7B e Qwen2.5-3B-Instruct.
Ottiene i migliori o secondi migliori risultati su sottoinsiemi più sensibili alle decisioni locali.
Pubblicato su arXiv con ID 2605.27140.

StepOPSD: Distillazione di Preferenze Online Consapevole dei Passi per l'Apprendimento per Rinforzo degli Agenti

Fatti principali

Entità

Istituzioni

Fonti