Agentick: Un Benchmark Unificato per Agenti Decisionali Sequenziali

ai-technology · 2026-05-11

Un nuovo benchmark chiamato Agentick è stato lanciato da ricercatori per valutare agenti decisionali sequenziali, incorporando metodi RL, LLM, VLM, umani e ibridi. Questo benchmark presenta 37 compiti generati proceduralmente, categorizzati in sei capacità, quattro livelli di difficoltà e cinque tipi di osservazioni, tutti disponibili tramite un'interfaccia compatibile con Gymnasium. Offre un'API di codifica, politiche di riferimento da oracoli, dataset SFT pre-costruiti, un'imbracatura modulare per agenti e una classifica in tempo reale. Un'analisi di 27 configurazioni su 90.000 episodi ha rivelato che nessun singolo metodo è superiore, con GPT-5 mini che ha raggiunto il punteggio complessivo più alto di 0,309.

Fatti principali

Agentick è un benchmark per agenti decisionali sequenziali.
Valuta agenti RL, LLM, VLM, ibridi e umani.
Il benchmark include 37 compiti generati proceduralmente.
I compiti coprono sei categorie di capacità e quattro livelli di difficoltà.
Sono supportate cinque modalità di osservazione.
L'interfaccia è compatibile con Gymnasium.
Sono forniti un'API di codifica, politiche di riferimento da oracoli, dataset SFT pre-costruiti, un'imbracatura componibile per agenti e una classifica in tempo reale.
Una valutazione di 27 configurazioni su 90.000 episodi ha mostrato GPT-5 mini in testa con 0,309.

Agentick: Un Benchmark Unificato per Agenti Decisionali Sequenziali

Fatti principali

Entità

Istituzioni

Fonti