GEAR: Assegnazione Adattiva del Credito per Agenti LLM tramite Auto-Distillazione
I ricercatori propongono GEAR (Granularity-adaptivE Advantage Reweighting), un framework di assegnazione del credito per l'apprendimento per rinforzo in agenti LLM. Il metodo affronta il limite delle ricompense grossolane a livello di risultato utilizzando segnali a livello di token e segmento provenienti dall'auto-distillazione. GEAR rimodella il vantaggio GRPO a livello di traiettoria confrontando uno studente on-policy con un insegnante condizionato dalla verità di base per identificare confini di segmento adattivi e modulare i pesi locali del vantaggio. Il segnale di divergenza aumenta in corrispondenza di deviazioni semantiche, migliorando l'assegnazione del credito in traiettorie a lungo orizzonte. L'articolo è disponibile su arXiv (2605.11853).
Fatti principali
- GEAR è un framework di assegnazione del credito per agenti LLM.
- Utilizza segnali a livello di token e segmento provenienti dall'auto-distillazione.
- Rimodella il vantaggio GRPO a livello di traiettoria.
- Confronta uno studente on-policy con un insegnante condizionato dalla verità di base.
- Il segnale di divergenza identifica confini di segmento adattivi.
- La divergenza aumenta all'inizio della deviazione semantica.
- Articolo disponibile su arXiv: 2605.11853.
- Tipo di annuncio: cross.
Entità
Istituzioni
- arXiv