Progettazione di Agenti LLM Composti in POMDP Avversari: Studio Costi-Prestazioni

ai-technology · 2026-05-18

Un nuovo studio su arXiv esamina i compromessi costo-prestazioni della progettazione di agenti LLM composti in ambienti avversari e parzialmente osservabili. Utilizzando la simulazione di difesa informatica CybORG CAGE-2, i ricercatori hanno testato cinque famiglie di modelli, sei modelli e dodici configurazioni in 3.475 episodi. Hanno variato la rappresentazione del contesto, i metodi di deliberazione (auto-interrogazione, auto-critica, auto-miglioramento) e la scomposizione dei compiti. Tutte le configurazioni operavano in modalità di mitigazione dei fallimenti con ricompense non positive. Lo studio fornisce una contabilità dei costi a livello di token per guidare i professionisti su quali scelte progettuali migliorano le prestazioni rispetto a quelle che aumentano solo i costi di inferenza.

Fatti principali

Studio pubblicato su arXiv con ID 2605.16205
Utilizza l'ambiente di difesa informatica CybORG CAGE-2
L'ambiente è modellato come Processo Decisionale di Markov Parzialmente Osservabile (POMDP)
Valuta cinque famiglie di modelli e sei modelli
Testa dodici configurazioni in 3.475 episodi
Varia la rappresentazione del contesto: osservazioni grezze vs. tracciamento deterministico dello stato con cronologia compressa
La deliberazione include strumenti di auto-interrogazione, auto-critica e auto-miglioramento
Tutte le configurazioni hanno ricompense non positive (modalità di mitigazione dei fallimenti)

Progettazione di Agenti LLM Composti in POMDP Avversari: Studio Costi-Prestazioni

Fatti principali

Entità

Istituzioni

Fonti