ARTFEED — Contemporary Art Intelligence

Agentick: Un Benchmark Unificato per Agenti Decisionali Sequenziali

ai-technology · 2026-05-11

Un nuovo benchmark chiamato Agentick è stato lanciato da ricercatori per valutare agenti decisionali sequenziali, incorporando metodi RL, LLM, VLM, umani e ibridi. Questo benchmark presenta 37 compiti generati proceduralmente, categorizzati in sei capacità, quattro livelli di difficoltà e cinque tipi di osservazioni, tutti disponibili tramite un'interfaccia compatibile con Gymnasium. Offre un'API di codifica, politiche di riferimento da oracoli, dataset SFT pre-costruiti, un'imbracatura modulare per agenti e una classifica in tempo reale. Un'analisi di 27 configurazioni su 90.000 episodi ha rivelato che nessun singolo metodo è superiore, con GPT-5 mini che ha raggiunto il punteggio complessivo più alto di 0,309.

Fatti principali

  • Agentick è un benchmark per agenti decisionali sequenziali.
  • Valuta agenti RL, LLM, VLM, ibridi e umani.
  • Il benchmark include 37 compiti generati proceduralmente.
  • I compiti coprono sei categorie di capacità e quattro livelli di difficoltà.
  • Sono supportate cinque modalità di osservazione.
  • L'interfaccia è compatibile con Gymnasium.
  • Sono forniti un'API di codifica, politiche di riferimento da oracoli, dataset SFT pre-costruiti, un'imbracatura componibile per agenti e una classifica in tempo reale.
  • Una valutazione di 27 configurazioni su 90.000 episodi ha mostrato GPT-5 mini in testa con 0,309.

Entità

Istituzioni

  • arXiv

Fonti