GEAR: Assegnazione Adattiva del Credito per Agenti LLM tramite Auto-Distillazione

ai-technology · 2026-05-13

I ricercatori propongono GEAR (Granularity-adaptivE Advantage Reweighting), un framework di assegnazione del credito per l'apprendimento per rinforzo in agenti LLM. Il metodo affronta il limite delle ricompense grossolane a livello di risultato utilizzando segnali a livello di token e segmento provenienti dall'auto-distillazione. GEAR rimodella il vantaggio GRPO a livello di traiettoria confrontando uno studente on-policy con un insegnante condizionato dalla verità di base per identificare confini di segmento adattivi e modulare i pesi locali del vantaggio. Il segnale di divergenza aumenta in corrispondenza di deviazioni semantiche, migliorando l'assegnazione del credito in traiettorie a lungo orizzonte. L'articolo è disponibile su arXiv (2605.11853).

Fatti principali

GEAR è un framework di assegnazione del credito per agenti LLM.
Utilizza segnali a livello di token e segmento provenienti dall'auto-distillazione.
Rimodella il vantaggio GRPO a livello di traiettoria.
Confronta uno studente on-policy con un insegnante condizionato dalla verità di base.
Il segnale di divergenza identifica confini di segmento adattivi.
La divergenza aumenta all'inizio della deviazione semantica.
Articolo disponibile su arXiv: 2605.11853.
Tipo di annuncio: cross.

GEAR: Assegnazione Adattiva del Credito per Agenti LLM tramite Auto-Distillazione

Fatti principali

Entità

Istituzioni

Fonti