ToolPRM: Scalabilità dell'Inferenza a Grana Fine per Output Strutturati nelle Chiamate di Funzioni

ai-technology · 2026-04-30

Il nuovo framework introdotto, ToolPRM, migliora la scalabilità dell'inferenza per output strutturati quando si chiamano funzioni nei LLM. Integra una ricerca a fascio dettagliata con un modello di ricompensa che valuta ogni decisione presa durante la chiamata, inclusa la selezione dei nomi delle funzioni e la compilazione degli argomenti. I ricercatori hanno sviluppato il primo dataset di supervisione a grana fine intra-chiamata attraverso tecniche come il mascheramento delle funzioni, la raccolta di rollout e annotazioni a livello di passo. ToolPRM supera sia i modelli di ricompensa basati sull'esito che quelli a grana grossa in termini di accuratezza predittiva, dimostrando miglioramenti consistenti durante i test su vari benchmark di chiamata di funzioni. Inoltre, i risultati indicano che la generazione strutturata mostra un modello di 'esplorare di più ma trattenere meno', poiché gli errori iniziali in JSON non possono essere corretti.

Fatti principali

1. ToolPRM è un modello di ricompensa di processo per output strutturati nelle chiamate di funzioni.
2. Combina una ricerca a fascio a grana fine con il punteggio delle decisioni intra-chiamata.
3. Il primo dataset di supervisione a grana fine intra-chiamata è stato costruito tramite mascheramento delle funzioni, raccolta di rollout e annotazione a livello di passo.
4. ToolPRM supera i modelli di ricompensa basati sull'esito e a grana grossa in accuratezza predittiva.
5. Guadagni consistenti al momento del test sono mostrati su più benchmark di chiamata di funzioni.
6. La generazione strutturata segue 'esplorare di più ma trattenere meno' a causa di errori JSON iniziali non recuperabili.
7. Il framework si concentra sulla scalabilità dell'inferenza per output strutturati, non sulla generazione non strutturata.
8. Lo studio è pubblicato su arXiv sotto Computer Science > Artificial Intelligence.

ToolPRM: Scalabilità dell'Inferenza a Grana Fine per Output Strutturati nelle Chiamate di Funzioni

Fatti principali

Entità

Istituzioni

Fonti