ARTFEED — Contemporary Art Intelligence

Progettazione di Agenti LLM Composti in POMDP Avversari: Studio Costi-Prestazioni

ai-technology · 2026-05-18

Un nuovo studio su arXiv esamina i compromessi costo-prestazioni della progettazione di agenti LLM composti in ambienti avversari e parzialmente osservabili. Utilizzando la simulazione di difesa informatica CybORG CAGE-2, i ricercatori hanno testato cinque famiglie di modelli, sei modelli e dodici configurazioni in 3.475 episodi. Hanno variato la rappresentazione del contesto, i metodi di deliberazione (auto-interrogazione, auto-critica, auto-miglioramento) e la scomposizione dei compiti. Tutte le configurazioni operavano in modalità di mitigazione dei fallimenti con ricompense non positive. Lo studio fornisce una contabilità dei costi a livello di token per guidare i professionisti su quali scelte progettuali migliorano le prestazioni rispetto a quelle che aumentano solo i costi di inferenza.

Fatti principali

  • Studio pubblicato su arXiv con ID 2605.16205
  • Utilizza l'ambiente di difesa informatica CybORG CAGE-2
  • L'ambiente è modellato come Processo Decisionale di Markov Parzialmente Osservabile (POMDP)
  • Valuta cinque famiglie di modelli e sei modelli
  • Testa dodici configurazioni in 3.475 episodi
  • Varia la rappresentazione del contesto: osservazioni grezze vs. tracciamento deterministico dello stato con cronologia compressa
  • La deliberazione include strumenti di auto-interrogazione, auto-critica e auto-miglioramento
  • Tutte le configurazioni hanno ricompense non positive (modalità di mitigazione dei fallimenti)

Entità

Istituzioni

  • arXiv

Fonti