ARTFEED — Contemporary Art Intelligence

SD-Search: Auto-distillazione per il ragionamento potenziato dalla ricerca

other · 2026-05-20

Un nuovo metodo chiamato SD-Search migliora gli agenti di ragionamento potenziati dalla ricerca fornendo una supervisione a livello di passo senza insegnanti esterni. L'approccio utilizza l'auto-distillazione a posteriori on-policy, dove un singolo modello agisce sia come studente che come insegnante, differendo solo nelle condizioni. Questo affronta il problema dell'assegnazione del credito nell'apprendimento per rinforzo basato su ricompense finali, dove le singole query mancano di ricompense specifiche per passo. SD-Search non richiede annotazioni aggiuntive o modelli più grandi.

Fatti principali

  • SD-Search deriva la supervisione a livello di passo dalla politica stessa attraverso l'auto-distillazione a posteriori on-policy
  • Non richiede né un insegnante esterno né annotazioni aggiuntive
  • Un singolo modello svolge due ruoli: studente e insegnante
  • Lo studente vede solo il contesto disponibile al momento dell'inferenza
  • L'insegnante ha accesso a informazioni aggiuntive
  • Affronta il problema dell'assegnazione del credito nel ragionamento potenziato dalla ricerca
  • Migliora le prestazioni degli agenti di ragionamento potenziati dalla ricerca

Entità

Fonti