OpenSeeker-v2 raggiunge lo stato dell'arte su BrowseComp con semplice SFT
OpenSeeker-v2 è stato presentato dai ricercatori, dimostrando capacità eccezionali su quattro benchmark attraverso l'uso del supervised fine-tuning (SFT) su 10.6k punti dati. Questo modello sfrutta un LLM da 30 miliardi di parametri all'interno del framework ReAct, raggiungendo un punteggio del 46.0% su BrowseComp. I progressi notevoli includono tre modifiche nella sintesi dei dati: aumento delle dimensioni del grafo di conoscenza per una migliore esplorazione, aumento delle dimensioni del set di strumenti per una maggiore funzionalità e implementazione di un filtraggio rigoroso a basso numero di passaggi. Questo approccio sfida i metodi industriali convenzionali che si basano su processi ad alta intensità di risorse come pre-training, continual pre-training, SFT e reinforcement learning. I risultati indicano che traiettorie complesse e informative possono rendere il semplice SFT sorprendentemente efficace per lo sviluppo di agenti di ricerca all'avanguardia.
Fatti principali
- OpenSeeker-v2 raggiunge prestazioni allo stato dell'arte su 4 benchmark.
- Addestrato su soli 10.6k punti dati utilizzando SFT.
- Basato su un agente da 30 miliardi di parametri con paradigma ReAct.
- Ottiene il 46.0% su BrowseComp.
- Utilizza tre modifiche nella sintesi dei dati: aumento delle dimensioni del grafo di conoscenza, espansione delle dimensioni del set di strumenti, filtraggio rigoroso a basso numero di passaggi.
- Sfida la pipeline industriale ad alta intensità di risorse di pre-training, CPT, SFT e RL.
- Dimostra la potenza di traiettorie informative e ad alta difficoltà per SFT.
- Pubblicato su arXiv con ID 2605.04036.
Entità
Istituzioni
- arXiv