La fusione del comportamento nella regione di fiducia migliora la distillazione on-policy

other · 2026-06-01

I ricercatori hanno introdotto Trust-Region Behavior Blending (TRB), una tecnica di warmup per la distillazione on-policy (OPD) volta a migliorare la qualità dei rollout iniziali dello studente. L'OPD prevede l'addestramento di uno studente utilizzando i prefissi della propria politica allineandosi con un insegnante più esperto, ma i rollout iniziali tendono a essere scadenti. TRB migliora questo processo sostituendo la politica di rollout iniziale con la politica comportamentale più vicina all'insegnante all'interno di una regione di fiducia KL centrata sullo studente, mantenendo invariata la perdita OPD reverse-KL per prefisso. Il budget KL viene gradualmente ridotto a zero, consentendo un ritorno ai rollout standard dello studente dopo il warmup. In due scenari di distillazione per il ragionamento matematico, TRB supera tutti gli altri metodi valutati.

Fatti principali

TRB è un metodo di warmup per la distillazione on-policy (OPD).
L'OPD addestra uno studente su prefissi della propria politica mentre si allinea con un insegnante.
I rollout iniziali dello studente nell'OPD possono essere scadenti, ponendo la supervisione su prefissi deboli.
TRB sostituisce la politica di rollout iniziale con la politica comportamentale più vicina all'insegnante.
La sostituzione avviene all'interno di una regione di fiducia KL centrata sullo studente.
La perdita OPD reverse-KL per prefisso rimane invariata.
Il budget KL viene ridotto gradualmente a zero, tornando a rollout puri dello studente dopo il warmup.
TRB ottiene la media più forte in due contesti di distillazione per il ragionamento matematico.

Entità

—

Fonti

arXiv cs.AI — 2026-06-01