SD-Search: Auto-distillazione per il ragionamento potenziato dalla ricerca

other · 2026-05-20

Un nuovo metodo chiamato SD-Search migliora gli agenti di ragionamento potenziati dalla ricerca fornendo una supervisione a livello di passo senza insegnanti esterni. L'approccio utilizza l'auto-distillazione a posteriori on-policy, dove un singolo modello agisce sia come studente che come insegnante, differendo solo nelle condizioni. Questo affronta il problema dell'assegnazione del credito nell'apprendimento per rinforzo basato su ricompense finali, dove le singole query mancano di ricompense specifiche per passo. SD-Search non richiede annotazioni aggiuntive o modelli più grandi.

Fatti principali

SD-Search deriva la supervisione a livello di passo dalla politica stessa attraverso l'auto-distillazione a posteriori on-policy
Non richiede né un insegnante esterno né annotazioni aggiuntive
Un singolo modello svolge due ruoli: studente e insegnante
Lo studente vede solo il contesto disponibile al momento dell'inferenza
L'insegnante ha accesso a informazioni aggiuntive
Affronta il problema dell'assegnazione del credito nel ragionamento potenziato dalla ricerca
Migliora le prestazioni degli agenti di ragionamento potenziati dalla ricerca

Entità

—

Fonti

arXiv cs.AI — 2026-05-19