Search-E1: L'auto-distillazione guida l'auto-evoluzione nel ragionamento potenziato dalla ricerca
Un nuovo articolo su arXiv (2605.22511) introduce Search-E1, un metodo per migliorare i modelli linguistici potenziati dalla ricerca senza supervisione esterna o moduli complessi. L'approccio utilizza GRPO vanilla intervallato da auto-distillazione offline (OFSD) per consentire l'auto-evoluzione. Le attuali pipeline di post-addestramento spesso si basano su sistemi esterni, modelli di ricompensa di processo, ricerca ad albero o ricompense artigianali, ciascuno aggiungendo complessità. Search-E1 sfida la necessità di questi potenziamenti, proponendo un'alternativa più semplice che ottiene guadagni solo attraverso l'auto-distillazione.
Fatti principali
- Search-E1 è un metodo di auto-evoluzione per agenti di ragionamento potenziati dalla ricerca.
- Utilizza GRPO vanilla intervallato da auto-distillazione offline (OFSD).
- L'articolo sostiene che potenziamenti complessi come la supervisione esterna o la ricerca ad albero potrebbero essere superflui.
- Il metodo è descritto nel preprint arXiv 2605.22511.
- Il post-addestramento è attualmente la ricetta dominante per gli agenti di ragionamento potenziati dalla ricerca.
Entità
Istituzioni
- arXiv