SDAR: Apprendimento per Rinforzo Agente Auto-Distillato per LLM

ai-technology · 2026-05-16

Un nuovo approccio noto come SDAR (Self-Distilled Agentic Reinforcement Learning) è stato sviluppato per migliorare la fase di post-addestramento degli agenti basati su grandi modelli linguistici (LLM). Questo metodo affronta le carenze dell'apprendimento per rinforzo (RL), che tipicamente fornisce solo ricompense a livello di traiettoria per compiti estesi. SDAR si basa sull'On-Policy Self-Distillation (OPSD), che incorpora una guida dettagliata a livello di token da un ramo insegnante con contesto privilegiato; tuttavia, OPSD affronta sfide legate all'instabilità in scenari multi-turno e ai rifiuti negativi dell'insegnante. In SDAR, OPSD viene utilizzato come obiettivo ausiliario con gate, mantenendo RL come framework di ottimizzazione principale. Impiega un gate sigmoideo su segnali a livello di token staccati per rafforzare la distillazione sui token approvati positivamente e ridurre delicatamente gli altri. La ricerca è disponibile su arXiv con ID 2605.15155.

Fatti principali

1. SDAR sta per Self-Distilled Agentic Reinforcement Learning.
2. È progettato per il post-addestramento di agenti LLM.
3. RL fornisce solo ricompense grossolane a livello di traiettoria.
4. OPSD aggiunge una guida densa a livello di token da un ramo insegnante.
5. OPSD soffre di instabilità multi-turno e rifiuti negativi dell'insegnante.
6. SDAR utilizza un obiettivo ausiliario con gate con RL come primario.
7. Un gate sigmoideo rafforza la distillazione sui token approvati dall'insegnante.
8. Articolo disponibile su arXiv: 2605.15155.

SDAR: Apprendimento per Rinforzo Agente Auto-Distillato per LLM

Fatti principali

Entità

Istituzioni

Fonti