Agenti di pianificazione LLM: Quanta competenza deriva dall'imbracatura?
Un nuovo studio da arXiv (2604.07236) indaga quanto della performance di un agente AI sia attribuibile all'imbracatura di pianificazione rispetto al modello linguistico sottostante. I ricercatori hanno esternalizzato un'imbracatura di pianificazione per il gioco Collaborative Battleship in quattro strati: tracciamento della credenza a posteriori, pianificazione dichiarativa, riflessione simbolica e un cancello di revisione basato su LLM. In 54 partite, hanno misurato il tasso di vittoria e il punteggio F1, definendo 'lavoro pesante' come il più grande contributo marginale positivo al tasso di vittoria. La sola pianificazione dichiarativa ha fornito un aumento di +24,1 punti percentuali nel tasso di vittoria rispetto a un'imbracatura basata solo sulla credenza, richiedendo zero chiamate LLM. I risultati suggeriscono che l'imbracatura stessa porta una competenza significativa, sollevando domande sul ruolo residuo dell'LLM negli agenti di pianificazione.
Fatti principali
- arXiv:2604.07236
- Le imbracature degli agenti possono cambiare le prestazioni end-to-end fino a sei volte su un modello fisso
- Imbracatura di pianificazione per Collaborative Battleship esternalizzata in quattro strati
- La pianificazione dichiarativa ha fornito un aumento del +24,1 pp nel tasso di vittoria rispetto all'imbracatura basata solo sulla credenza
- Zero chiamate LLM necessarie per lo strato di pianificazione dichiarativa
- Sono state giocate 54 partite
- Metrica primaria: tasso di vittoria; secondaria: F1
- Lavoro pesante definito come il più grande contributo marginale positivo alla metrica primaria
Entità
Istituzioni
- arXiv