SPIN: Un wrapper di pianificazione basato su DAG riduce le chiamate agli strumenti LLM del 42%
I ricercatori hanno introdotto SPIN, un framework di pianificazione progettato per agenti LLM industriali che integra la pianificazione con Grafo Aciclico Diretto (DAG) validato e la gestione dell'esecuzione basata su prefissi. Imponendo un contratto DAG rigoroso attraverso la convalida e il prompting di riparazione, SPIN genera piani eseguibili prima dell'esecuzione a valle e valuta incrementalmente i prefissi DAG, fermandosi una volta raggiunti risultati adeguati. Nei test su AssetOpsBench (261 scenari), SPIN ha ridotto il numero di attività eseguite da 1061 a 623, migliorando la metrica Accomplished da 0,638 a 0,706, mentre ha ridotto le chiamate agli strumenti per esecuzione da 11,81 a 6,82. Inoltre, su MCP Bench, il wrapper migliora le metriche di pianificazione, grounding e dipendenza per i modelli GPT. L'articolo di ricerca è disponibile su arXiv.
Fatti principali
- 1. SPIN combina la pianificazione DAG validata con il controllo dell'esecuzione basato su prefissi
- 2. Impone il contratto DAG tramite _validate_plan_text e prompting di riparazione
- 3. Valuta incrementalmente i prefissi DAG per fermarsi quando sufficienti
- 4. Testato su AssetOpsBench in 261 scenari
- 5. Attività eseguite ridotte da 1061 a 623
- 6. Accomplished migliorato da 0,638 a 0,706
- 7. Chiamate agli strumenti ridotte da 11,81 a 6,82 per esecuzione
- 8. Testato anche su MCP Bench con modelli GPT
Entità
Istituzioni
- arXiv