ToolPRM: Scalabilità dell'Inferenza a Grana Fine per Output Strutturati nelle Chiamate di Funzioni
Il nuovo framework introdotto, ToolPRM, migliora la scalabilità dell'inferenza per output strutturati quando si chiamano funzioni nei LLM. Integra una ricerca a fascio dettagliata con un modello di ricompensa che valuta ogni decisione presa durante la chiamata, inclusa la selezione dei nomi delle funzioni e la compilazione degli argomenti. I ricercatori hanno sviluppato il primo dataset di supervisione a grana fine intra-chiamata attraverso tecniche come il mascheramento delle funzioni, la raccolta di rollout e annotazioni a livello di passo. ToolPRM supera sia i modelli di ricompensa basati sull'esito che quelli a grana grossa in termini di accuratezza predittiva, dimostrando miglioramenti consistenti durante i test su vari benchmark di chiamata di funzioni. Inoltre, i risultati indicano che la generazione strutturata mostra un modello di 'esplorare di più ma trattenere meno', poiché gli errori iniziali in JSON non possono essere corretti.
Fatti principali
- 1. ToolPRM è un modello di ricompensa di processo per output strutturati nelle chiamate di funzioni.
- 2. Combina una ricerca a fascio a grana fine con il punteggio delle decisioni intra-chiamata.
- 3. Il primo dataset di supervisione a grana fine intra-chiamata è stato costruito tramite mascheramento delle funzioni, raccolta di rollout e annotazione a livello di passo.
- 4. ToolPRM supera i modelli di ricompensa basati sull'esito e a grana grossa in accuratezza predittiva.
- 5. Guadagni consistenti al momento del test sono mostrati su più benchmark di chiamata di funzioni.
- 6. La generazione strutturata segue 'esplorare di più ma trattenere meno' a causa di errori JSON iniziali non recuperabili.
- 7. Il framework si concentra sulla scalabilità dell'inferenza per output strutturati, non sulla generazione non strutturata.
- 8. Lo studio è pubblicato su arXiv sotto Computer Science > Artificial Intelligence.
Entità
Istituzioni
- arXiv