Il Framework LiteResearcher Abilita l'Addestramento Scalabile RL Agente per l'IA di Ricerca Profonda
Un nuovo framework di addestramento chiamato LiteResearcher affronta le sfide di scalabilità nell'apprendimento per rinforzo per agenti di ricerca basati su LLM. Creando un ambiente virtuale che simula le dinamiche di ricerca del mondo reale, l'approccio consente un miglioramento continuo senza i costi proibitivi e l'instabilità della dipendenza dalla ricerca effettiva durante l'addestramento. Questo metodo permette a un modello compatto da 4 miliardi di parametri di superare sia alternative open-source che commerciali come Tongyi DeepResearch e Claude-4.5 Sonnet su benchmark consolidati. LiteResearcher-4B ha ottenuto risultati open-source all'avanguardia del 71,3% su GAIA e del 78,0% su Xbench. Il framework supera i limiti dei dati sintetici creati manualmente, che spesso non riescono a sviluppare capacità di ricerca autentiche. L'apprendimento per rinforzo è diventato un paradigma significativo per l'addestramento di agenti di IA, ma la sua scalabilità per applicazioni di ricerca profonda è stata limitata da questi problemi interconnessi. La ricerca è stata documentata nella preprint arXiv 2604.17931v1.
Fatti principali
- LiteResearcher è un framework di addestramento scalabile per l'apprendimento per rinforzo agente
- Costruisce un mondo virtuale leggero che rispecchia le dinamiche di ricerca del mondo reale
- Il framework abilita un miglioramento continuo nelle ricette di addestramento
- Un modello da 4 miliardi di parametri supera modelli open-source e commerciali su larga scala
- Ha ottenuto il 71,3% sul benchmark GAIA
- Ha ottenuto il 78,0% sul benchmark Xbench
- Affronta le sfide dei limiti dei dati sintetici creati manualmente
- Supera l'instabilità e gli alti costi della dipendenza dalla ricerca nel mondo reale durante l'addestramento RL
Entità
Istituzioni
- arXiv