StepOPSD: Distillazione di Preferenze Online Consapevole dei Passi per l'Apprendimento per Rinforzo degli Agenti
StepOPSD è un framework progettato per l'auto-distillazione dopo il rollout, specificamente per l'apprendimento per rinforzo di agenti multi-turno. Affronta il problema del disallineamento nell'assegnazione del credito scomponendo le traiettorie in segmenti focalizzati sulle azioni. Questo approccio riscala le azioni basandosi su contesti insegnanti informati a posteriori e trasforma le discrepanze di log-probabilità a livello di token in un modellamento del vantaggio che preserva i segni, mantenendo un budget di credito normalizzato per ogni passo prima dell'aggiornamento GRPO. Valutato su ALFWorld e Search-QA utilizzando Qwen3-1.7B e Qwen2.5-3B-Instruct, StepOPSD ha ottenuto le migliori o seconde migliori prestazioni su sottoinsiemi particolarmente sensibili alle decisioni locali.
Fatti principali
- StepOPSD è un framework di auto-distillazione delle preferenze post-rollout per l'apprendimento per rinforzo di agenti multi-turno.
- Affronta il disallineamento nell'assegnazione del credito scomponendo le traiettorie in segmenti di passo incentrati sulle azioni.
- Rivaluta i passi sotto contesti insegnanti arricchiti a posteriori.
- Converte i gap di log-probabilità a livello di token in un modellamento del vantaggio che preserva i segni.
- Utilizza un budget di credito normalizzato per passo prima dell'aggiornamento GRPO.
- Testato su ALFWorld e Search-QA con Qwen3-1.7B e Qwen2.5-3B-Instruct.
- Ottiene i migliori o secondi migliori risultati su sottoinsiemi più sensibili alle decisioni locali.
- Pubblicato su arXiv con ID 2605.27140.
Entità
Istituzioni
- arXiv