Agentick: Un Benchmark Unificato per Agenti Decisionali Sequenziali
Un nuovo benchmark chiamato Agentick è stato lanciato da ricercatori per valutare agenti decisionali sequenziali, incorporando metodi RL, LLM, VLM, umani e ibridi. Questo benchmark presenta 37 compiti generati proceduralmente, categorizzati in sei capacità, quattro livelli di difficoltà e cinque tipi di osservazioni, tutti disponibili tramite un'interfaccia compatibile con Gymnasium. Offre un'API di codifica, politiche di riferimento da oracoli, dataset SFT pre-costruiti, un'imbracatura modulare per agenti e una classifica in tempo reale. Un'analisi di 27 configurazioni su 90.000 episodi ha rivelato che nessun singolo metodo è superiore, con GPT-5 mini che ha raggiunto il punteggio complessivo più alto di 0,309.
Fatti principali
- Agentick è un benchmark per agenti decisionali sequenziali.
- Valuta agenti RL, LLM, VLM, ibridi e umani.
- Il benchmark include 37 compiti generati proceduralmente.
- I compiti coprono sei categorie di capacità e quattro livelli di difficoltà.
- Sono supportate cinque modalità di osservazione.
- L'interfaccia è compatibile con Gymnasium.
- Sono forniti un'API di codifica, politiche di riferimento da oracoli, dataset SFT pre-costruiti, un'imbracatura componibile per agenti e una classifica in tempo reale.
- Una valutazione di 27 configurazioni su 90.000 episodi ha mostrato GPT-5 mini in testa con 0,309.
Entità
Istituzioni
- arXiv