ARTFEED — Contemporary Art Intelligence

SDAR: Apprendimento per Rinforzo Agente Auto-Distillato per LLM

ai-technology · 2026-05-16

Un nuovo approccio noto come SDAR (Self-Distilled Agentic Reinforcement Learning) è stato sviluppato per migliorare la fase di post-addestramento degli agenti basati su grandi modelli linguistici (LLM). Questo metodo affronta le carenze dell'apprendimento per rinforzo (RL), che tipicamente fornisce solo ricompense a livello di traiettoria per compiti estesi. SDAR si basa sull'On-Policy Self-Distillation (OPSD), che incorpora una guida dettagliata a livello di token da un ramo insegnante con contesto privilegiato; tuttavia, OPSD affronta sfide legate all'instabilità in scenari multi-turno e ai rifiuti negativi dell'insegnante. In SDAR, OPSD viene utilizzato come obiettivo ausiliario con gate, mantenendo RL come framework di ottimizzazione principale. Impiega un gate sigmoideo su segnali a livello di token staccati per rafforzare la distillazione sui token approvati positivamente e ridurre delicatamente gli altri. La ricerca è disponibile su arXiv con ID 2605.15155.

Fatti principali

  • 1. SDAR sta per Self-Distilled Agentic Reinforcement Learning.
  • 2. È progettato per il post-addestramento di agenti LLM.
  • 3. RL fornisce solo ricompense grossolane a livello di traiettoria.
  • 4. OPSD aggiunge una guida densa a livello di token da un ramo insegnante.
  • 5. OPSD soffre di instabilità multi-turno e rifiuti negativi dell'insegnante.
  • 6. SDAR utilizza un obiettivo ausiliario con gate con RL come primario.
  • 7. Un gate sigmoideo rafforza la distillazione sui token approvati dall'insegnante.
  • 8. Articolo disponibile su arXiv: 2605.15155.

Entità

Istituzioni

  • arXiv

Fonti