TerminalWorld: benchmark per testare agenti AI su compiti reali nel terminale

ai-technology · 2026-05-23

I ricercatori hanno introdotto TerminalWorld, un motore di dati scalabile che inverte automaticamente l'ingegneria dei compiti di valutazione da registrazioni reali del terminale. Elaborando 80.870 registrazioni, il motore ha prodotto un benchmark di 1.530 compiti validati in 18 categorie, coprendo 1.280 comandi unici, con flussi di lavoro che vanno da semplici operazioni a oltre 50 passaggi. Un sottoinsieme curato di 200 compiti revisionati manualmente, TerminalWorld-Verified, è stato utilizzato per valutare otto modelli all'avanguardia e sei agenti, raggiungendo un tasso di superamento massimo del 62,5%. Il benchmark cattura capacità distinte dai benchmark esistenti curati da esperti come Terminal-Bench, con una debole correlazione (Pearson r=0,20). Il motore automatizzato consente un'espansione continua man mano che vengono aggiunte nuove registrazioni.

Fatti principali

TerminalWorld è un motore di dati scalabile per l'ingegneria inversa di compiti di valutazione da registrazioni del terminale.
Sono state elaborate 80.870 registrazioni del terminale.
Il benchmark include 1.530 compiti validati in 18 categorie del mondo reale.
I compiti coprono 1.280 comandi unici.
I flussi di lavoro vanno da brevi operazioni a quelle che superano i 50 passaggi.
TerminalWorld-Verified è un sottoinsieme di 200 compiti revisionati manualmente.
Sono stati valutati otto modelli all'avanguardia e sei agenti.
Il tasso di superamento massimo su TerminalWorld-Verified è stato del 62,5%.
Debole correlazione (Pearson r=0,20) con i punteggi di Terminal-Bench.
Il motore può espandere continuamente il benchmark.

Entità

—

Fonti

arXiv cs.AI — 2026-05-23