ARTFEED — Contemporary Art Intelligence

Quadro Unificato per la Valutazione delle Capacità Agentive degli LLM

ai-technology · 2026-05-28

È stato proposto un nuovo quadro per valutare equamente le capacità agentive degli LLM. Integra diversi benchmark in un formato standardizzato istruzione-strumento-ambiente utilizzando un sistema di configurazione unificato. Gli agenti vengono eseguiti attraverso un'architettura fissa di tipo ReAct all'interno di un sandbox controllabile. Un'impostazione offline opzionale sostituisce gli ambienti live volatili con snapshot curati, consentendo un'analisi separata degli effetti del framework e dell'ambiente. Il lavoro mira a rendere i risultati cross-benchmark interpretabili come misurazioni pulite del modello sottostante, affrontando il problema che i punteggi riportati spesso riflettono sia la capacità del modello che le scelte implementative.

Fatti principali

  • Il framework integra diversi benchmark in un formato standardizzato istruzione-strumento-ambiente.
  • Utilizza un sistema di configurazione unificato.
  • Gli agenti vengono eseguiti attraverso un'architettura fissa di tipo ReAct all'interno di un sandbox controllabile.
  • Un'impostazione offline opzionale sostituisce gli ambienti live volatili con snapshot curati.
  • Gli effetti del framework e dell'ambiente possono essere analizzati separatamente.
  • Il lavoro mira a rendere i risultati cross-benchmark interpretabili come misurazioni pulite del modello sottostante.
  • I punteggi dei benchmark riportati spesso riflettono congiuntamente la capacità del modello e le scelte implementative.
  • Il framework è presentato in arXiv:2605.27898v1.

Entità

Istituzioni

  • arXiv

Fonti