Search-E1: L'auto-distillazione guida l'auto-evoluzione nel ragionamento potenziato dalla ricerca

ai-technology · 2026-05-23

Un nuovo articolo su arXiv (2605.22511) introduce Search-E1, un metodo per migliorare i modelli linguistici potenziati dalla ricerca senza supervisione esterna o moduli complessi. L'approccio utilizza GRPO vanilla intervallato da auto-distillazione offline (OFSD) per consentire l'auto-evoluzione. Le attuali pipeline di post-addestramento spesso si basano su sistemi esterni, modelli di ricompensa di processo, ricerca ad albero o ricompense artigianali, ciascuno aggiungendo complessità. Search-E1 sfida la necessità di questi potenziamenti, proponendo un'alternativa più semplice che ottiene guadagni solo attraverso l'auto-distillazione.

Fatti principali

Search-E1 è un metodo di auto-evoluzione per agenti di ragionamento potenziati dalla ricerca.
Utilizza GRPO vanilla intervallato da auto-distillazione offline (OFSD).
L'articolo sostiene che potenziamenti complessi come la supervisione esterna o la ricerca ad albero potrebbero essere superflui.
Il metodo è descritto nel preprint arXiv 2605.22511.
Il post-addestramento è attualmente la ricetta dominante per gli agenti di ragionamento potenziati dalla ricerca.

Search-E1: L'auto-distillazione guida l'auto-evoluzione nel ragionamento potenziato dalla ricerca

Fatti principali

Entità

Istituzioni

Fonti