Progettazione di Agenti LLM Composti in POMDP Avversari: Studio Costi-Prestazioni
Un nuovo studio su arXiv esamina i compromessi costo-prestazioni della progettazione di agenti LLM composti in ambienti avversari e parzialmente osservabili. Utilizzando la simulazione di difesa informatica CybORG CAGE-2, i ricercatori hanno testato cinque famiglie di modelli, sei modelli e dodici configurazioni in 3.475 episodi. Hanno variato la rappresentazione del contesto, i metodi di deliberazione (auto-interrogazione, auto-critica, auto-miglioramento) e la scomposizione dei compiti. Tutte le configurazioni operavano in modalità di mitigazione dei fallimenti con ricompense non positive. Lo studio fornisce una contabilità dei costi a livello di token per guidare i professionisti su quali scelte progettuali migliorano le prestazioni rispetto a quelle che aumentano solo i costi di inferenza.
Fatti principali
- Studio pubblicato su arXiv con ID 2605.16205
- Utilizza l'ambiente di difesa informatica CybORG CAGE-2
- L'ambiente è modellato come Processo Decisionale di Markov Parzialmente Osservabile (POMDP)
- Valuta cinque famiglie di modelli e sei modelli
- Testa dodici configurazioni in 3.475 episodi
- Varia la rappresentazione del contesto: osservazioni grezze vs. tracciamento deterministico dello stato con cronologia compressa
- La deliberazione include strumenti di auto-interrogazione, auto-critica e auto-miglioramento
- Tutte le configurazioni hanno ricompense non positive (modalità di mitigazione dei fallimenti)
Entità
Istituzioni
- arXiv